ข้อมูลภาษากับสถิติ 1 : ข้อมูลภาษา

4 min readSep 22, 2022

บทความนี้เขียนสำหรับผู้เรียนมาทางด้านภาษา เพื่อให้เห็นภาพรวมว่า งานทางสถิตินั้นมาเกี่ยวข้องและเป็นประโยชน์กับการศึกษาวิจัยทางภาษาอย่างไร. เนื้อหาจะแบ่งเป็นสามตอน ตอนแรกว่าด้วยเรื่องลักษณะข้อมูลภาษาที่ใช้ในงานสถิติ. ตอนที่สองว่าด้วยพื้นฐานความรู้เรื่องสถิติ. ตอนที่สามว่าด้วยการใช้ข้อมูลภาษาในงานสถิติ

สถิติ 101

พอเอ่ยถึงสถิติ นักเรียนสายภาษาจำนวนหนึ่งจะรู้สึกตื้นตันทันที นึกถึงสูตรการคำนวณอะไรต่าง ๆ ที่ไม่รู้ว่าคืออะไร ทำไปทำไม. สถิติเป็นเรื่องเกี่ยวกับข้อมูล. ข้อมูลที่ใช้ในงานสถิตินี้นอกจากข้อมูลภาษายังรวมถึงข้อมูลอื่นๆ ที่เป็นตัวเลขด้วย เช่น ข้อมูลรายได้ ข้อมูลคะแนน ฯลฯ เมื่อเราเก็บรวบรวมข้อมูลมาจำนวนมาก เราก็อยากหาวิธีเข้าใจข้อมูลนั้น. สถิติเป็นวิธีการหนึ่งที่ช่วยให้เราเข้าใจข้อมูลนั้น. เพราะเราคงไม่อยากนั่งดูเพียงข้อมูลดิบที่เก็บมาว่ามีอะไรบ้าง สถิติจึงช่วยให้เราเห็นภาพรวมและเข้าใจข้อมูลนั้นมากขึ้น เช่น เราอาจเก็บคะแนนสอบวิชาภาษาไทยของนักเรียนทุกคนในโรงเรียนมาได้ แต่ถ้าเราคำนวณสถิติพื้นฐานโดยหาค่าเฉลี่ยคะแนนวิชาภาษาไทย เราก็ได้ตัวเลขเดียวที่บอกถึงความสามารถของนักเรียนในโรงเรียนนั้น และถ้าทำเช่นนี้กับโรงเรียนอื่นๆ ต่อ เราก็มองในเชิงเปรียบเทียบได้ว่าโรงเรียนไหนนักเรียนทำคะแนนได้ดีกว่า หรือนักเรียนสองโรงเรียนนี้มีความต่างกันจริงไหม เป็นต้น. ในบางครั้งเราไม่สามารถเก็บข้อมูลมาดูได้ทั้งหมด เราก็เลือกเก็บข้อมูลจำนวนหนึ่งมาเป็นตัวแทนใช้ศึกษาเอา จากนั้นก็ใช้วิธีการทางสถิติเพื่อดูว่าผลที่ได้นั้นบอกถึงสิ่งที่เราคิดหรือตั้งสมมติฐานไว้หรือไม่. ความยากของสถิติสำหรับหลายคนอยู่ที่สถิติมีหลากหลายวิธีให้เลือก จึงไม่รู้จะเลือกใช้วิธีการทางสถิติแบบไหนจึงจะเหมาะกับงานที่ตนเองสนใจ

ภาษามีข้อมูลอะไรบ้าง

ก่อนที่จะเข้าเรื่องสถิติ สิ่งที่ต้องเข้าใจก่อนคือภาษาก็เป็นข้อมูลประเภทหนึ่ง เป็นข้อมูลที่เราสามารถใช้วิธีการทางสถิติเพื่อสำรวจหาคำตอบที่เราต้องการได้. ข้อมูลที่มีในภาษาเป็นได้ทั้งข้อมูลที่เห็นคือรูปเขียนหรือเสียงที่ได้ยิน แต่ในที่นี้จะสนใจเฉพาะข้อมูลที่เป็นตัวเขียนเท่านั้น. นอกจากข้อมูลที่ปรากฏให้เห็นจากรูปภาษาโดยตรงแล้ว เราอาจสร้างข้อมูลที่วิเคราะห์หรือสังเคราะห์ขึ้นมาจากข้อมูลดิบนั้นด้วยก็ได้

ข้อมูลภาษาตามรูป

ข้อมูลภาษาที่ทุกคนสังเกตเห็นได้คือ ตัวอักขระต่าง ๆ ที่ปรากฏ. บางภาษามีการบ่งบอกคำ ประโยค ด้วยเครื่องหมายบางอย่าง เช่น ภาษาอังกฤษ แต่บางภาษาก็ไม่มีการบ่งบอกขอบเขตคำหรือประโยค เช่น ภาษาไทย. เราสามารถใช้คอมพิวเตอร์นับความถี่หรือจำนวนการปรากฏได้ และสามารถค้นหาว่าตัวอย่างการใช้ภาษานั้นปรากฏอยู่ที่ไหนได้

ข้อมูลจากการวิเคราะห์

ในการเรียนภาษา เราเรียนรู้เกี่ยวกับชนิดของคำ เช่น รู้ว่าคำไหนเป็นคำนาม คำกริยา เราเรียนรู้เกี่ยวกับประเภทย่อยของชนิดคำ เช่น รู้ว่ากริยานั้นเป็นกริยาประเภทไหน หรือเรียนรู้เกี่ยวกับการประกอบคำขึ้นเป็นหน่วยใหญ่ขึ้นอย่างวลีหรือประโยค. ข้อมูลเหล่านี้ไม่ปรากฏให้เห็นจากรูปโดยตรงแต่ต้องมีการวิเคราะห์ และถ้าจะให้คอมพิวเตอร์สามารถนับหรือค้นหาได้ ก็จำเป็นต้องกำกับข้อมูลที่วิเคราะห์นี้ลงไปด้วย. ข้อมูลที่กำกับนี้อาจเป็นข้อมูลเกี่ยวกับภาษาหรือเป็นข้อมูลบริบทก็ได้

สำหรับรูปแบบการกำกับข้อมูลภาษามีได้หลากหลาย. แม้ TEI [1] จะกำหนดมาตรฐานในการกำกับข้อมูลภาษาโดยใช้ XML ทั้งส่วนที่เป็นข้อมูลบริบทและส่วนที่เป็นข้อมูลภาษา ดังตัวอย่างข้างล่าง

ตัวอย่าง Header บอกชื่อเรื่องและชื่อผู้แต่ง
<teiHeader>
<fileDesc>
<titleStmt>
<title>Shakespeare: the first folio (1623) in electronic form</title>
<author>Shakespeare, William (1564–1616)</author>
……..
</fileDesc></teiHeader> (P5 Guidelines)
ตัวอย่าง tag บอกชื่อบุคคล
That silly man <name role=”politician” type=”person”>David Paul Brown</name> has suffered … (P5 Guidelines)

แต่ผู้ที่ใช้หรือกำกับข้อมูลในแต่ละงานก็อาจกำหนดรูปแบบการกำกับข้อมูลเฉพาะของตนเองได้ ตัวอย่างเช่น เมื่อใช้ Doccano กำกับชื่อบุคคล ชื่อสถานที่ ชื่อองค์กรในไฟล์ข้อมูล

เมื่อ export ข้อมูลออกมาจะได้ข้อมูลในรูปแบบที่เป็น JSONL หรือ list of JSON

หรือในกรณีที่ใช้โปรแกรม CoNLLu-Editor กำกับข้อมูลการวิเคราะห์ dependency tree เราสามารถเลือกให้นำผลออกมาเป็นรูปแบบ Conllu หรือ JSON ก็ได้

ตัวอย่างเหล่านี้แสดงให้เห็นว่าการวิเคราะห์เพื่อเพิ่มเติมข้อมูลเกี่ยวกับภาษาสามารถทำได้เท่าที่ต้องการใช้และสามารถเก็บผลในรูปแบบต่าง ๆ ได้. การจะใช้ประโยชน์จากข้อมูลการวิเคราะห์ที่กำกับไว้ เราจำเป็นต้องมีโปรแกรมที่สามารถจัดการกับ format ข้อมูลนั้นได้

ข้อมูลจากการสังเคราะห์

ในบางกรณี เราก็ใช้วิธีการสังเคราะห์เพื่อสร้างข้อมูลที่เป็นตัวแทนของภาษาขึ้นมา. เมื่อเทียบกับข้อมูลจากการวิเคราะห์ในข้างบน ข้อมูลจากการวิเคราะห์เป็นสิ่งที่นักภาษาเข้าใจว่าคืออะไร หมายถึงอะไร ทำไมวิเคราะห์ออกมาในลักษณะนั้น. แต่ข้อมูลการสังเคราะห์เป็นการแทนที่ข้อมูลเกี่ยวกับภาษาด้วยชุดข้อมูลที่เป็นตัวเลขเพื่อนำมาใช้คำนวณทางสถิติ.

ตัวอย่างเช่น งานของ Biber (1992) [2] ที่สนใจวิเคราะห์ประเภทของ text. ที่ผ่านมานักภาษาก็พอบอกได้ว่า text ต่าง ๆ มีการจัดประเภทย่อยต่างๆ ได้ เพราะมีลักษณะการใช้ภาษาที่ต่างกัน เช่น นิยาย บทความวิชาการ บันทึกประจำวัน ฯลฯ ซึ่งก็เป็นการอธิบายความต่างในเชิง qualitative เป็นหลัก. แต่ Biber ต้องการใช้วิธีการทาง quantitative ที่จะใช้แสดงความต่างออกมาให้ชัดเจน จึงได้ใช้รายการของ features หรือลักษณ์ทางภาษามาเป็นข้อมูลแทน text แต่ละ text. แนวคิดคือถ้าเรารู้ว่าความต่างระหว่าง text แต่ละประเภทมาจากลักษณะทางภาษาที่ต่างกัน เราก็หาว่า text นั้นๆ มีลักษณ์หรือ features อะไรบ้างออกมา แล้วจึงใช้วิธีการทาง multivariate statistics อย่าง factor analysis มาใช้เพื่อจัดว่า text ใดอยู่ในกลุ่มหรือประเภทเดียวกัน. Biber เรียกวิธีการที่เขาใช้ว่า multi-dimensional analysis เพราะใช้วิธีการลดทอนจำนวน features มากมายที่พบใน text นั้นมาเป็นข้อมูลที่มีจำนวน dimension ไม่กี่ด้าน. หลักคือ features ที่มักมีแนวโน้มว่ามักพบหรือปรากฏร่วมกันคือเป็นไปในทิศทางเดียวกันจะถูกรวบหรือลดทอนให้ไปอยู่ใน dimension เดียวกันได้. ด้วยวิธีการนี้ features ทางภาษาที่วิเคราะห์ได้จากแต่ละตัวบทจะถูกนับและนำมาสังเคราะห์เป็นชุดข้อมูลตัวเลขหรือเว็กเตอร์เพื่อใช้แทนแต่ละ text แล้วนำมาใช้คำนวณในทางสถิติต่อไป. เมื่อสามารถแปลงแต่ละ text ออกมาเป็นตัวเลขในแต่ละ dimension ได้. text ที่จัดอยู่ในประเภทเดียวกันก็จะมีค่าใน dimension ต่างๆ ใกล้กัน

ตัวอย่างการวิเคราะห์ข้อมูลเริ่มจากการใช้โปรแกรม tagger เพื่อหา features ทางภาษาของคำต่าง ๆ ตามตัวอย่างข้างล่างนี้

… I_FPP1 ask_VPRT [SUAV] you_SPP2 ._. ‘’_’’ Aziz_NN joined_VBD in_PIN [STPR] ._. oeWhy_NN talk_NN about_IN the_DT English_NN ?_. Brrrr_NN …_: !_. …

จากนั้นจึงคำนวณสรุป features ทั้งหมดที่พบในแต่ละ text ได้ผลออกมาเป็นตารางของ text-feature ตามตัวอย่างที่เห็นข้างล่าง แล้วนำไปใช้วิธีการทางสถิติคือ factor analysis เพื่อลดทอน features ทั้งหมดให้เหลือมิติตามการวิเคราะห์ของ Biber จึงสามารถนำผลที่ได้ของ text นั้นไปเทียบกับภาพรวมของ text ใน genre ต่าง ๆ ตามที่ Biber ได้เคยวิเคราะห์ไว้แล้วได้.

รูปข้างล่าง เป็นการเทียบข้อมูลหนังสือแต่ละเล่มของ Jane Austen ว่าเมื่อมองผ่านมิติทั้งหกตามแบบ Biber แล้วมีค่าในแต่ละ dimension เป็นอะไรบ้าง และเทียบได้ใกล้เคียงกับ text ประเภทใด

ในบางงานเช่น Topic modeling จะใช้วิธีแปลงเอกสารต่างๆ เป็นตารางของ term-document คือเป็นตารางที่มีค่าแสดงถึงคำต่าง ๆ ในแต่ละเอกสารซึ่งคำที่นำมาใช้จะเป็นคำเนื้อหาเป็นหลัก. เมื่อได้ตารางนี้แล้ว แต่ละ text หรือ document ก็จะถูกมองแทนด้วยรายการตัวเลขคำเหล่านี้ได้. แล้วจึงใช้วิธีการทางสถิติอย่าง LDA (Latent Dirichlet Allocation) เพื่อจับคำที่ควรอยู่ในกลุ่มเดียวกันจากความสัมพันธ์ที่พบใน term-document matrix นี้ต่อไป. ลักษณะนี้คล้ายกับงานข้างต้นที่เป็นการสร้างเว็กเตอร์หรือชุดตัวเลขขึ้นมาเพื่อใช้แทน text นั้น แล้วจึงใช้ประโยชน์จากเว็กเตอร์นั้นต่อ โดยถือเสมือนว่าเว็กเตอร์นั้นเป็นตัวแทน text นั้นๆ ได้

Topic model ใช้หลักคิดว่าในแต่ละ document จะกล่าวถึงเรื่องหรือ topic ไม่กี่เรื่อง. topic ดูได้จากคำเนื้อหาที่ใช้ใน document นั้น. การคำนวณว่าคำอะไรบ้างบ่งบอก topic เดียวกันก็อาศัยหลักการหา co-occurrence ของคำใน document นั้น. ตัวอย่างข้างล่างเป็นการทดลองใช้ topic model กำหนดหา 10 topics และคำที่จัดกลุ่มอยู่ในแต่ละ topic ของข้อมูลทั้งหมดที่นำมาวิเคราะห์.

ตัวอย่างคำที่บ่งบอกถึง topic ต่างๆ ในข้อมูลวิเคราะห์

ตัวอย่างแสดงผล document และ topic ที่มีน้ำหนักมากในแต่ละ document

งานด้าน stylometry ที่เป็นการวิเคราะห์ authorship ของงานเขียน คือหาคำตอบว่างานที่สงสัยนั้นเป็นงานที่เขียนโดยใคร ก็สามารถใช้ข้อมูลเชิงสังเคราะห์มาใช้ได้. ตัวอย่างงานของ Binongo (2003) [3] ต้องการหาคำตอบว่าหนังสือพ่อมด Oz เล่มที่ 15 นั้นใครเป็นผู้แต่งกันแน่ระหว่างนักเขียนสองคน. เขาหาคำตอบโดยดูชุดคำไวยากรณ์ที่พบมาก 50 คำเป็นตัวแทนของ text คือ ใช้คำไวยากรณ์ 50 คำเพื่อสร้างเว็กเตอร์แทน text ในหนังสือของนักเขียนทั้งสองคน. จากนั้นใช้สถิติ principal component analysis เพื่อลดทอนข้อมูล 50 มิติให้เหลือ 2 มิติ แล้วจึงเห็นว่าผลที่ได้จาก text ของนักเขียนสองคนนี้แตกต่างกัน. และเมื่อนำหนังสือที่สงสัยมาสังเคราะห์ข้อมูลชุดคำไวยากรณ์นำมาเปรียบเทียบกับผลที่ได้ของนักเขียนทั้งสองก็จะเห็นว่าใครควรเป็นผู้เขียนหนังสือเล่มนี้กัน

สรุป

ข้อมูลภาษาที่นำมาใช้วิเคราะห์ทางสถิตินอกจากข้อมูลรูปภาษาที่ปรากฏให้เห็น นับและค้นได้แล้ว ยังมีข้อมูลที่วิเคราะห์ได้ ซึ่งจำเป็นต้องกำกับข้อมูลภาษาที่วิเคราะห์ลงไปด้วย หรือในบางกรณีก็สามารถสังเคราะห์ข้อมูลโดยนำข้อมูลภาษามาจัดเป็นเว็กเตอร์แทนข้อมูลภาษานั้นเพื่อมาใช้ทางสถิติต่อ. สิ่งที่ต้องรู้และเข้าใจต่อไป คือจากข้อมูลต่างๆ ที่เตรียมไว้แล้วจะเลือกใช้วิธีการสถิติใดเพื่อตอบคำถามที่ต้องการได้

NEXT : ข้อมูลภาษากับสถิติ 2 : สถิติพื้นฐาน

อ้างอิง

[1] The TEI Guidelines. (2022, April 20). Retrieved from https://tei-c.org/release/doc/tei-p5-doc/en/html/index.html

[2] Biber, D. (1992). The Multi-Dimensional Approach to Linguistic Analyses of Genre Variation: An Overview of Methodology and Findings on JSTOR. Computers and the Humanities, 26(5–6), 331–345. Retrieved from https://www.jstor.org/stable/30204629

[3] José Nilo G. Binongo (2003) Who Wrote the 15th Book of Oz? An Application of Multivariate Analysis to Authorship Attribution, CHANCE, 16:2, 9–17, DOI: 10.1080/09332480.2003.10554843

Multidimensional Analysis Tagger

no-GUI version (requires Java and XQuartz)

sites.google.com

GitHub - senderle/topic-modeling-tool: A point-and-click tool for creating and analyzing topic…

Metadata integration Automatic file segmentation Custom CSV delimiters Alpha/Beta optimization Custom regex…

github.com