การใช้ภาษาไทยกับ AntConc และ LancsBox

Wirote Aroonmanakun
2 min readAug 26, 2023

--

โปรแกรม AntConc และ LancsBox (Lancaster Tool Box) เป็นโปรแกรม concordance สำหรับใช้งานกับ corpus ที่มี โปรแกรมเหล่านี้ใช้งานกับคลังข้อมูลภาษาอังกฤษได้ดี. แต่ในกรณีคลังข้อมูลภาษาไทย จำเป็นต้องมีการตัดคำภาษาไทยมาก่อนจึงจะใช้ได้ และอาจจะต้องปรับค่าติดตั้งบางอย่าง ในบทความนี้จะบอกวิธีตั้งค่าสำหรับแต่ละโปรแกรม

AntConc version 3

ใน Settings ให้เลือก Global Settings และ Token Definition ตัวเลือกที่เป็น Use Following Definition มีค่าเดิมที่เป็น token สำหรับคำภาษาอังกฤษ

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ

ให้เติมตัวอักษรภาษาไทยเพื่อให้โปรแกรม AntConc รู้จักคำในภาษาไทย

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZกขคฆงจฉชซฌญฎฏฐฑฒณดตถธทนบปผฝพฟภมยรลฤวศษสหฬอฮเแาะำไใโิีึืุู่้๊๋็ั์ๆฯ๐๑๒๓๔๕๖๗๘๙ฦฃฅๅ๎ํ๚

จากนั้นให้ save settings เอาไว้ใช้คราวต่อไป โดยเลือก File — Export Settings To File. เมื่อต้องการใช้ AntConc กับข้อมูลภาษาไทยคราวต่อไปก็ให้เลือก Import Settings from File แล้วเลือกไฟล์ที่ save ไว้นี้

AntConc version 4

ใน version นี้ ตัวเลือก token definition เพื่อใช้กับภาษาไทยไม่ได้อยู่กับ Global Settings แต่อยู่ใน Corpus Manager แทน เมื่อเลือกสร้าง corpus ใหม่จาก Raw Files สามารถกำหนด Token Definition เพื่อให้รู้จักอักษรภาษาไทยได้

เมื่อเลือก Token Definition และ Show Token Definition Settings ก็จะเห็น User-Defined Characters ซึ่งเราสามารถใส่ตัวอักษรไทยแบบข้างต้นได้

LancsBox

โปรแกรม LancsBox แม้จะมีทั้ง version ที่เป็น Windows และ OSX แต่ที่ใช้งานได้ครบทุกอย่างคือ version Windows โปรแกรม LancsBox สามารถอ่านข้อมูลภาษาไทยที่มีการตัดคำแล้วได้ทันที เพียงแตจะมีปัญหาการแสดงผลที่ต้องใช้ font ภาษาไทย วิธีแก้คือ copy ไฟล์ฟอนต์ภาษาไทยที่เป็น .ttf ไปไว้ที่ folder ของโปรแกรม LancsBox ใน subfolder ../#LancsBox/resources/fonts

LancsBox X

สำหรับโปรแกรม LancsBox X ซึ่งเหมาะกับการใช้งานกับคลังข้อมูลขนาดใหญ่มากกว่า LancsBox และสามารถ download BNC 1994, BNC 2014 มาใช้งานได้เลย. ใน LancBox X ข้อมูลภาษาไทย utf-8 ที่ตัดคำแล้วสามารถนำมาใช้และแสดงผลได้ทันทีไม่ต้องตั้งค่าพิเศษอย่างใด แต่ใน version OSX แม้ใช้งานได้เช่นกัน ก็จะมีปัญหาการแสดงผลไม่สามารถแสดงตัวอักษรภาษาไทยได้

LancsBox X for Windows
LancsBox X for OSX

Thai National Corpus สำหรับ AntConc 4

สำหรับผู้ที่ต้องการใช้คลังข้อมูลภาษาไทยแห่งชาติกับโปรแกรม AntConc version 4 สามารถดาวน์โหลดคลังข้อมูลไปใช้ได้. ให้เข้าไปที่หน้า https://www.arts.chula.ac.th/ling/tnc/searchtnc/. จะเห็นปุ่มให้ download TNC สำหรับใช้กับ AntConc 4. ไฟล์ AntConc_TNC4.db เป็นฐานข้อมูลที่สามารถนำเข้าไปในโปรแกรม AntConc ได้

เลือก Add Database File แล้วเลือกไฟล์ที่ดาวน์โหลดมา หลังจากนั้นก็จะสามารถใช้คลังข้อมูล TNC ขนาด 33 ล้านคำเป็น target หรือ reference corpus ก็ได้

อ้างอิง

[1] AntConc : https://www.laurenceanthony.net/software/antconc/

[2] LancsBox : http://corpora.lancs.ac.uk/lancsbox/

[3] LancsBox X : https://lancsbox.lancs.ac.uk/

--

--

No responses yet