การตัดประโยคภาษาไทย : (1) ประโยคคืออะไร

Wirote Aroonmanakun
4 min readDec 26, 2019

--

นอกจากการตัดคำแล้ว ปัญหาพื้นฐานอีกอย่างในการประมวลผลภาษาไทย คือ การตัดประโยค และดูจะเป็นปัญหาที่ยาก เพราะภาษาไทยไม่ได้มีการใช้เครื่องหมายวรรคตอนบอกขอบเขตของประโยคเหมือนอย่างภาษาอังกฤษ ในภาษาอังกฤษเอง การตัดประโยคหรือ sentence tokenisation ก็เป็นงานหนึ่งในการประมวลผลภาษา ที่จะต้องมีการตัดสินใจว่า เครื่องหมายวรรคตอนต่าง ๆ เช่น . ที่เห็นนั้นบอกการสิ้นสุดประโยคหรือบอกคำย่อ การทำ sentence tokenisation ในภาษาอังกฤษ อาจทำแบบง่าย ๆ โดยเขียนเป็นกฎใช้ regular expression เช่น /(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s/ ซึ่งก็ให้ผลถูกต้องได้ดีระดับหนึ่ง [1] หรือจะใช้วิธีเตรียมข้อมูลแล้วให้เครื่องเรียนรู้จากข้อมูลก็ได้

สำหรับภาษาไทย เราอาจมองเบื้องต้นว่าปัญหาการตัดประโยคเป็นปัญหาการแก้ความกำกวมว่า space ที่เป็นเป็น sentence break ได้หรือไม่ได้ คล้ายกับที่ภาษาอังกฤษต้องพิจารณาว่า . เป็นตัวบอกจบประโยคหรือทำหน้าที่อื่นเช่นบอกคำย่อ แต่เอาเข้าจริงแล้ว ภาษาไทยนั้นไม่ได้มีกำหนดหลักการเขียนประโยคให้ชัดเจนเหมือนอย่างในภาษาอังกฤษ เราจึงควรเริ่มจากทำความเข้าใจก่อนว่า หลักการหาขอบเขตประโยคในภาษาอังกฤษเป็นอย่างไร

ประโยคในภาษาอังกฤษ

ในภาษาเขียนของภาษาอังกฤษ ประโยคถูกกำกับด้วยการใช้เครื่องหมาย . ? ! หรือบางครั้ง : ; โดยทั่วไป ทุกประโยคจะมีกริยาหลักที่เป็น finite verb คือเป็นกริยาที่สามารถแปรรูปตามประธานหรือกาลได้ เรียกว่าเป็น main verb

Simple sentence

ประโยคที่มีคำกริยาคำเดียวเป็นกริยาหลัก เรียกว่า simple sentence เช่น The man runs. ประโยค simple sentence อาจมีความซับซ้อนที่องค์ประกอบภายในได้ เช่น มีประธานมากกว่าหนึ่ง John and Mary went to the theater. มีกริยาหลักมากกว่าหนึ่ง เช่น They kicked and beat me. หรือรูปกริยาที่ไม่ใช่กริยาหลักจะแปลงรูปเป็น infinite verb อาจเป็นรูป to infinitive เช่น The man runs to the store to get a bottle of beer. หรืออยู่ในรูป participle เช่น Waiting for John, she made some coffee. ประโยค simple sentence จึงมีอนุพากย์หลักหรือ main clause เดียว แต่ถ้าดูความหมายอาจมหลายเนื้อความ

The man runs to the store to get a bottle of beer. =>
{the man runs to the store} + {the man get a bottle of beer})

Complex sentence

อนุพากย์หนึ่งอาจถูกนำมาประกอบเป็นส่วนหนึ่งของประโยคได้ เช่น I learned that he did everything real quick. อนุพากย์ “that he did everything real quick” ทำหน้าที่เป็นกรรมของกริยา “learn” เราเรียกประโยคลักษณะนี้ว่า complex sentence คือมีอนุพากย์หนึ่งที่เกิดเองโดยลำพังไม่ได้หรือเรียกว่า dependent clause ในประโยคหนึ่ง ๆ dependent clause ไม่จำเป็นต้องเป็นหน่วยหลักหรือประธานหรือกรรม อาจเป็นหน่วยขยายคือเป็น adverbial clause เช่นตัวอย่างนี้ He failed the exam because he had not studied enough. ที่อนุพากย์หลังนำหน้าด้วย subordinate conjunction ‘because’ เพื่อบอกเหตุผลขยายใจความของอนุพากย์หลักที่อยู่ข้างหน้า อนุพากย์แรกเป็น main clause เป็นความหมายหลักของประโยค แต่อนุพากย์หลังเป็น dependent clause หากตัด main clause ออกเหลือเพียง “because he had not studied enough” ก็จะไม่สื่อความที่ต้องการ

Compound sentence

กรณีที่มีอนุพากย์มากกว่าหนึ่งอนุพากย์และสามารถเกิดเองโดยลำพังได้ เราจะเรียกว่า compound sentence มักจะเป็นประโยคที่เชื่อมสองอนุพากย์ด้วยคำสันธาน เช่น They start these rumors and people start believing it. สองอนุพากย์สื่อใจความสำคัญพอกันจัดเป็น independent clause ทั้งคู่

Compound-complex sentence

จะเห็นว่าประโยคในภาษาอังกฤษสามารถมีเนื้อความได้มากกว่าหนึ่งเนื้อความ มาประกอบกันตามหลักของภาษา ประโยคที่เขียนอาจมีทั้งอนุพากย์ไม่อิสระและอนุพากย์อิสระหลายส่วนผสมกันเป็นประโยคที่เรียกว่า compound-complex sentence เช่น Though Somsong prefers Italian food, she ordered Chinese food, and she enjoyed it very much.

ซึ่งเอาเข้าจริง ประโยคในภาษาอังกฤษสามารถเขียนแบบซับซ้อนมาก ๆ ได้ ดังตัวอย่างประโยคเปิดในหนังสือ “Water Dance” ของ Ta-Nehisi Coates

ข้อความทั้งหมดเป็นประโยคหนึ่งประโยคที่ประกอบด้วยเนื้อความจำนวนมากเชื่อมโยงกันตามหลักภาษาอังกฤษ คือ มีการใช้คำสันธาน เครื่องหมายวรรคตอน เพื่อบ่งชี้ความสัมพันธ์ของเนื้อความแต่ละส่วน (ในตัวอย่างนี้ คำสันธานบางคำอาจเชื่อมแค่ระดับคำหรือวลี)

ในงานเขียนทั่วไป เรามักพบประโยคทั้งที่ไม่ซับซ้อนและซับซ้อนมากปนกันไปตามแต่วิธีการเขียนของแต่ละคน ดังสามตัวอย่างล่าง ย่อหน้าแรกมีประโยคห้าประโยค ย่อหน้าสองมีประโยคสามประโยค และย่อหน้าที่สามมีสองประโยค (เครื่องหมาย // สีแดงถูกเติมไปเพื่อแสดงให้เห็นของเขตประโยค ซึ่งในตัวอย่างจะเห็นว่าอยู่หลังเครื่องหมาย .)

ในกรณีภาษาพูด ซึ่งไม่สามารถใช้เครื่องหมายวรรคตอนแบบภาษาเขียนในระหว่างการพูดได้ เราก็จะเห็นการเชื่อมโยงความต่อเนื่องกันไป เมื่อถอดคำพูดออกมาเป็นตัวเขียน จึงมักพบลักษณะประโยคแบบซับซ้อนมากเช่นกัน ดังตัวอย่างจากคลังข้อมูล MICASE

จากตัวอย่างทั้งหมดที่ยกมา ทำให้เห็นว่า แม้ภาษาอังกฤษจะมีหลักภาษากำหนดวิธีการเขียนอย่างชัดเจนว่าขอบเขตประโยคอยู่ที่ไหน และส่วนเนื้อความต่าง ๆ จะเชื่อมโยงกันได้อย่างไร ต้องใช้คำหรือเครื่องหมายอะไรเชื่อมความ และสามารถระบุได้ว่าอะไรเป็นอนุพากย์หลัก อะไรเป็นอนุพากย์ขยาย แต่ในการเขียนจริง วิธีการเขียนแต่ละคนก็ต่างกัน คนที่เขียนประโยคไม่ซับซ้อนมากก็จะทำให้คนอ่านเข้าใจได้ง่ายกว่า คนที่เขียนประโยคซับซ้อนมาก ๆ ก็อาจจะทำให้คนอ่านเข้าใจความได้ยากมากขึ้น แต่ก็ไม่มีข้อห้ามอะไรที่จะไม่ให้เขียนประโยคซับซ้อนเหล่านี้

ประโยคในภาษาไทย

ภาษาเขียนในภาษาไทยไม่ได้มีหลักในการใช้เครื่องหมายวรรคตอนหรือคำเชื่อมเพื่อบอกขอบเขตประโยคแบบภาษาอังกฤษ แม้พระบาทสมเด็จพระมงกุฎเกล้าเจ้าอยู่หัวจะทรงมีพระราชดำริเสนอให้นำวิธีการใช้เครื่องหมายวรรคตอนมาใช้กับภาษาไทยแทนที่การเขียนแบบติดกันไปตลอด เพื่อให้อ่านและเข้าใจภาษาไทยได้ถูกต้องง่ายขึ้น และแม้จะมีหลายคนที่พยายามเขียนภาษาไทยด้วยการใช้เครื่องหมายวรรคตอนนี้ แต่วิธีการเขียนแบบนี้ก็ไม่เป็นที่นิยมแพร่หลาย [2] เป็นเหตุให้การตัดประโยคภาษาไทยจึงไม่สามารถทำได้ง่ายเหมือนกับในภาษาอังกฤษ

หากเราพยายามยึดหลักการเดียวกับภาษาอังกฤษ คือมองหาคำเชื่อมที่เป็นตัวบ่งชี้การเชื่อมโยงความภายในประโยค เช่น คำว่า “ที่” “แต่” “และ” “ซึ่ง” เป็นต้น (ตำแหน่งที่ทำสีเขียวไว้) และตำแหน่งที่ควรตัดเป็นประโยคตามแบบภาษาอังกฤษได้ (ตำแหน่งที่เติม//และทำสีแดงไว้) แม้ว่าคำเชื่อมเหล่านั้นส่วนใหญ่ยังคงบ่งชี้ว่าความนั้นยังต่อเนื่องอยู่ได้ แต่การจบประโยคอาจมีวรรคข้างหน้าหรือไม่มีวรรคก็ได้ (ดูตัวอย่างย่อหน้าจาก NACNS021) และเว้นวรรคสามารถใช้บอกขอบเขตคำ วลีหรืออนุพากย์ด้วยก็ได้ (ในตัวอย่างนี้ บางคนอาจมองว่า “การใช้ประโยชน์จากทรัพยกร…” ไม่ได้ขึ้นประโยคใหม่ ยังคงสัมพันธ์กับประโยคก่อนหน้าก็ได้ การตัดประโยคจึงเป็นสิ่งที่อาจเห็นต่างกันได้ แต่ถึงอย่างไร ก็ต้องมีการตัดอนุพากย์ตรงนี้)

ตัวอย่างที่สองก็พบข้อมูลลักษณะเดียวกัน กรณีมีคำเชื่อมปรากฏ เราอาจบอกได้ว่าเนื้อความนั้นยังไม่จบประโยค แต่ก็มีคำเชื่อมบางคำที่โดยปกติน่าจะใช้บอกการเริ่มประโยคใหม่ได้ เช่น “ถึงแม้ว่า” “ยิ่งกว่านั้น” เพราะเป็นคำที่ทำหน้าที่ดัชนีปริเฉท (discourse marker) แต่หากดูข้อมูลมากขึ้น ก็จะพบว่าคำเหล่านี้ไม่จำเป็นต้องบอกจุดเริ่มต้นประโยคก็ได้ (ดูตัวอย่างท้ายรูป)

// การใช้งานของโปรแกรมถึงแม้ว่าจะยังไม่สมบูรณ์ แต่ก็ได้แสดงให้เห็นถึงวิธีการต่างๆ ของโปรล็อกมาเป็นลำดับ //
// แบบจำลองโปรแกรมมิ่งต้องการข้อมูลที่เป็นจริง
ถึงแม้ว่าในแง่ของจำนวนจะไม่มากเท่ากับแบบจำลองเศรษฐมิติก็ตาม//
//บ้านที่ปรากฏขึ้นต่อใจหรือต่อการรับรู้ของเรา จะไม่ใช่ทั้งบ้านในฝันหรือบ้านในชีวิตที่ตื่นของเรา หากแต่เป็นบ้านที่
ยิ่งกว่านั้น มลังเมลืองระยิบระยับในความรู้สึก เป็นบ้านที่เป็นที่อาศัยแห่งชีวิตที่น่าพิศวง//
//อะไรกันนี่ //สงสัยฉลองถูกลอตเตอรี่รึไง //ฉันร้อง
ยิ่งกว่านั้นอีกพี่//

การจบประโยคในภาษาไทยจึงไม่มีตัวบ่งชี้ขัดเจนเหมือนในภาษาอังกฤษ ไม่สามารถมองเป็นปัญหาการแก้ความกำกวมแบบภาษาอังกฤษว่าเครื่องหมาย . ณ ตำแหน่งนี้ใช้จบประโยคได้หรือไม่ เพราะการจบหรือเริ่มประโยคใหม่ในภาษาไทย อาจใช้การเว้นวรรค หรือไม่เว้นวรรค อาจมีคำเชื่อมหรือไม่มีก็ได้ การเว้นวรรคก็ใช้แยกคำ วลีหรืออนุพากย์ได้ด้วย หากจะทำตัดประโยคภาษาไทยด้วยเครื่องจึงไม่ใช่เรื่องง่ายและมีโอกาสผิดพลาดสูงมากกว่าการทำตัดประโยคภาษาอังกฤษ

ควรตัดประโยคหรือไม่

ถ้าเป็นภาษาอังกฤษ การตัดประโยคในภาษาเขียนไม่ใช่ปัญหาที่จัดการยาก หากตัดได้ ก็จะช่วยแยกหน่วยสำหรับการประมวลผลภาษาให้ชัดขึ้น จึงไม่แปลกที่จะมีการตัดประโยคออกมาก่อนได้ อย่างไรก็ดี ในภาษาเขียนจริง ๆ หรือภาษาพูด ก็มักพบการเขียนแบบลากความเชื่อมโยงไปเรื่อย ๆ โดยใช้เครื่องหมายวรรคตอนหรือคำสันธาน ประโยคที่เป็น complex, compound, หรือ compound-complex ถึงแม้ว่าจะตัดเป็นประโยคออกมาได้ ก็ยังจำเป็นต้องประมวลผลต่อว่าแต่ละเนื้อความมีความเกี่ยวข้องสัมพันธ์กันอย่างไรต่อ เพราะประโยคที่ยิ่งซับซ้อนมากก็ยิ่งมีเนื้อความจำนวนมากมาประกอบกันด้วยความสัมพันธ์แบบต่าง ๆ

ในทางภาษาศาสตร์ ระดับที่สูงกว่าประโยคคือระดับปริจเฉทหรือ discourse ซึ่งพยายามอธิบายว่าตัวบทหรือ text ประกอบด้วยอะไรบ้างและมีความสัมพันธ์กันอย่างไร เหมือนเช่นที่คำถูกนำมาเรียงต่อกัน จะมีความสัมพันธ์ทางวากยสัมพันธ์ที่ทำให้เราเห็นถึงโครงสร้างวลีโครงสร้างประโยคได้ ปริจเฉทก็เป็นผลลัพธ์จากการนำข้อความมาเรียงต่อกันโดยที่สามารถระบุความสัมพันธ์ระหว่างข้อความต่าง ๆ เป็นโครงสร้างปริจเฉทได้

Rhetorical Structure Theory

ทฤษฎีหนึ่งที่เสนอเพื่อใช้อธิบายเรื่องนี้ คือ Rhetorical Structure Theory (Thompson and Mann, 1987) [3] ซึ่งมองว่าข้อความใน text สามารถแยกเป็นส่วน ๆ (text span) ซึ่งมี rhetorical relation ต่อกันได้ เช่น Circumstance, Elaboration, Background, etc. ภายหลัง Carson et. al (2003) [4] ใช้คำ EDU (elementary discourse unit) แทน text span เพื่อแทนหน่วยพื้นฐานในการวิเคราะห์ความสัมพันธ์ ซึ่งโดยทั่วไป EDU จะเป็นอนุพากย์เต็มรูปหรือลดรูปก็ได้ ดังนั้น แม้ว่าจะแยกประโยคออกมา ในการวิเคราะห์ตัวบทก็ยังต้องดูประโยคทั้งหมดและอนุพากย์และความสัมพันธ์ระหว่างอนุพากย์ภายในประโยคซับซ้อนด้วยเพื่อเชื่อมโยงให้เห็นโครงสร้างปริจเฉท เช่น ตัวอย่างข้างล่างจาก Carson et. al (2003) ที่วิเคราะห์ text เป็น EDU ต่าง ๆ และโยงความสัมพันธ์ระหว่าง EDU ทั้งภายในประโยคและระหว่างประโยค

หากยึดแนวทางการวิเคราะห์ภาษาแบบนี้ ประโยคจึงไม่ใช่เป้าหมายสุดท้าย การตัดประโยคได้ หากทำได้ง่ายแบบภาษาอังกฤษก็ควรทำ แต่หากทำได้ยากอย่างในกรณีภาษาไทย ซึ่งไม่ได้ถูกสอนมาให้เขียนเป็นประโยคอย่างมีหลักเกณฑ์ร่วมกัน ก็ไม่จำเป็นต้องทำ หากต้องการตัดหน่วยที่ใหญ่กว่าคำหรือวลีเพื่อใช้ในการประมวลผลก็ควรตัดเป็นหน่วยพื้นฐานปริจเฉทหรือ EDU เพื่อให้ได้เนื้อความแต่ละส่วนสำหรับนำไปประมวลผลในระดับปริจเฉทต่อไป เพราะท้ายที่สุด ในการประมวลผลระดับปริจเฉท หน่วยที่ต้องการคือ EDU ไม่ใช่ประโยค

NEXT : การตัดประโยคภาษาไทย : (2) การตัดหน่วยพื้นฐานปริจเฉท

อ้างอิง

[1] https://regex101.com/r/nG1gU7/27

[2] บุญ อินทรัมพรรย์. (2002). “การใช้เครื่องหมายวรรคตอนในภาษาไทย ตามพระราชนิยมในพระบาทสมเด็จพระมงกุฎเกล้าเจ้าอยู่หัว” The Journal of the Royal Institute of Thailand. Vol. 27 №2 Apr.-Jun. 2002. (http://www.royin.go.th/wp-content/uploads/royin-ebook/94/FileUpload/527_1523.PDF)

[3] Mann, William and Thompson, Sandra. (1988). Rhetorical Structure Theory: Toward a functional theory of text organization. Text, 8(3):243–281

[4] Carlson, Lynn; Marcu, Daniel; Okurowski, Mary Ellen (2003). “Building a discourse-tagged corpus in the framework of rhetorical structure theory”.

[5] Intasaw, N. and Aroonmanakun, W. (2013). Basic Principles for Segmenting Thai EDUs. in Proceedings of 27th Pacific Asia Conference on Language, Information, and Computation, pages 491–498, Nov 22–24, 2013, Taipei.

--

--

No responses yet