ChatGPT, Claude, Bard ใครรู้ภาษาไทยมากกว่า

Wirote Aroonmanakun
5 min readOct 21, 2023

--

เมื่อ large language model ต่าง ๆ มีพัฒนาการมากขึ้น ก็จะเริ่มเข้าใจภาษาอื่น ๆ ได้มากขึ้น ในที่นี้ จึงได้ทดสอบความรู้ภาษาไทยของ GPT-3.5, GPT-4, Claude, และ Bard โดยสุ่มนำข้อสอบ O-NET ภาษาไทยมาให้ AI เหล่านี้ตอบ. การทดสอบแยกเป็นสามส่วน. ส่วนแรกทดสอบการอ่านจับใจความในลักษณะต่าง ๆ เช่น การจับประเด็น การจับใจความสำคัญ การตีความ การลำดับความ การเชื่อมโยงความ ฯลฯ โดยใช้ข้อสอบ O-NET วิชาภาษาไทยจำนวนหนึ่ง. ข้อสอบเหล่านี้ AI ต้องอ่านให้เข้าใจ วิเคราะห์และตีความสิ่งที่อ่านเพื่อจะตอบคำถาม. ผู้เขียนไม่ได้นำข้อสอบจับรายละเอียดมาร่วมทดลองเพราะคิดว่าเป็นเรื่องง่ายสำหรับ AI ที่จะมองหาคำตอบที่อยู่ในตัวบทโดยตรง. ส่วนที่สองเป็นข้อสอบ O-NET วิชาภาษาไทยที่ต้องอาศัยความรู้เฉพาะของภาษาไทยจึงจะตอบได้ และส่วนสุดท้ายเป็นการทดสอบถามเรื่องทั่วไปที่ต้องอาศัยความเข้าใจนอกเหนือตัวบทหรือความรู้เกี่ยวกับโลกมาช่วยตอบด้วย. การให้คะแนน นอกจากจะดูว่าคำตอบที่เลือกถูกไหมยังดูคำอธิบายที่ให้ด้วย หากตอบถูกแต่คำอธิบายแสดงให้เห็นว่า AI ไม่เข้าใจคำถามนั้นจริงก็จะไม่ได้คะแนน

ทดสอบการอ่านจับใจความ

อ่านข้อความต่อไปนี้แล้วตอบคำถามข้อ ๓ และ ๔
มะขามเป็นต้นไม้ขนาดกลางถึงใหญ่ เปลือกของต้นมีความหนา ขรุขระ ปลายและโคนใบมน ออกดอกเป็นช่อเล็ก ๆ ตามปลสยกิ่ง ส่วนผลเป็นฝักยาวประมาณ ๓-๒๐ เซนติเมตร รูปร่างโค้งหยักตามข้อปล้องของผล เปลือกของฝักเมื่ออ่อนจะมีสีเขียวอมเทา เนื้อในติดกับเปลือก มีเมล็ดอยู่ในฝัก แต่เมื่อแก่เปลือกจะเปลี่ยนเป็นสีน้ำตาลอ่อน มีความแข็ง แห้ง กรอบ แตกง่าย เนื้อข้างในเป็นสีน้ำตาล เมล็ดใหญ่ กลม สีดำ มีทั้งรสหวานและเปรี้ยว นอกจากผลมะขามแล้ว ใบมะขามก็เป็นส่วนที่นิยมนำมาทำอาหารด้วย
๓. ข้อใดเป็นการตั้งชื่อเรื่องที่ครอบคลุมเนื้อหาของข้อความข้างต้น
ก. รสชาติของมะขาม ข. ลักษณะของมะขาม ค. ประเภทของมะขาม ง. ประโยชน์ของมะขาม
๔. จากข้อความข้างต้น ย่อหน้าต่อไปควรจะกล่าวถึงเรื่องใด
ก. การขยายพันธุ์ต้นมะขาม ข. สรรพคุณทางยาของมะขาม ค. รายการอาหารที่ปรุงจากมะขาม ง. แหล่งปลูกมะขามในประเทศไทย

เฉลย : ข้อ ๓. (ข) ลักษณะของมะขาม, ข้อ ๔. (ค) รายการอาหารที่ปรุงจากมะขาม

GPT-3.5: 0, 0; GPT-4: 1, 1; Claude: 1, 1; Bard: 1, 0

๖. ข้อใดไม่ได้กล่าวถึงเกี่ยวกับสมุนไพรในข้อความต่อไปนี้
การอบสมุนไพรเป็นวิธีบำบัดและรักษาสุขภาพตามหลักของการแพทย์แผนไทย โดยใช้สมุนไพรที่มีน้ำมันหอมระเหย สมุนไพรที่ใช้รักษาตามอาการ สมุนไพรที่มีรสเปรี้ยวมาต้มรวมกันในหม้อจนเดือด แล้วต่อท่อเข้าไปในกระโจม น้ำมันหอมระเหยและสารระเหยต่าง ๆ ซึ่งมีอยู่ในสมุนไพรจะออกมาสัมผัสผิวหนังทำให้มีผลเฉพาะที่ และเมื่อสูดดมเข้าไปจะมีผลต่อระบบทางเดินหายใจ การรักษาด้วยการอบสมุนไพรช่วยเพิ่มการไหลเวียนของโลหิตให้ดีขึ้น และขับของเสียออกจากร่างกาย
๑ วิธีใช้ ๒ ประเภท ๓ ปริมาณที่ใช้ ๔ ประโยชน์ของการอบ ๕ อุปกรณ์ที่ใข้ในการอบ

เฉลย ข้อ ๖. (๓) ปริมาณการใช้

GPT-3.5: 1; GPT-4: 1; Claude: 0; Bard: 1

๗. ข้อใดไม่สอดคล้องกับข้อความต่อไปนี้
วิตามินดีช่วยสร้างคนทนทานให้กระดูกไม่แตกหักง่าย นอกจากนั้นยังช่วยชะลอวัยของผิวพรรณได้อีกด้วย มีการศึกษาพบว่าระดับวิตามินดีต่ำเกี่ยวข้องกับการบวมหรือความหย่อนยาน การมีรูขุมขนขยาย และการเกิดซีสต์บนผิวหนัง ดังนั้นวิตามินดีจึงเป็นตัวช่วยสำคัญในการสร้างผิวหนังและกล้ามเนื้อให้แข็งแรงและควบคุมให้มีการเปลี่ยนแปลงอย่างเหมาะสมตามวัย
๑ ผู้ได้รับวิตามินดีเป็นประจำจะทำให้กระดูกแข็งแรง
๒ ถ้าร่างกายขาดวิตามินดี กล้ามเนื้อจะเสื่อมสภาพเร็ว
๓ ผิวพรรณที่ผุดผ่องเป็นผลจากการได้รับวิตามินดีพอเพียง
๔ หากร่างกายมีระดับวิตามินดีต่ำจะทำให้เกิดการบวมและมีซีสต์บนผิวหนัง
๕ วิตามินดีมีความจำเป็นต่อร่างกายทำให้ผิวพรรณสวยงามเสมอแม้ในวัยชรา

เฉลย ข้อ ๗. (๕) วิตามินดีมีความจำเป็นต่อร่างกายทำให้ผิวพรรณสวยงามเสมอแม้ในวัยชรา

GPT-3.5: 0 ; GPT-4: 0 ; Claude: 1 ; Bard: 1

๘. ข้อใดสอดคล้องกับข้อความต่อไปนี้
อาการขาดสุราเฉียบพลันหรือภาวะถอนพิษสุราเกิดจากการเปลี่ยนแปลงของสารเคมีในระบบประสาทส่วนกลาง จะเกิดในผู้ที่หยุดดื่มสุราหรือลดการดื่มลงอย่างกะทันหันหลังจากเคยดื่มอย่างหนักติดต่อกันเป็นเวลานาน หรือดื่มสุราประมาณ ๐.๕ ลิตร ติดต่อกัน ๒ — ๓ วัน เลยทีเดียว ผู้ป่วยมักมีอาการวิตกกังวล คลื่นไส้ อาเจียน อ่อนเพลีย หากมีอาการหนักขึ้นถึงขั้นชัก หรือเกิดประสาทหลอน ควรรีบไปพบแพทย์ทันที เพราะอาจเป็นอันตรายถึงชีวิต
๑ ผู้ที่ดื่มสุราเป็นประจำจะเกิดอาการขาดสุราเฉียบพลัน
๒ ผู้ที่ต้องการถอนพิษสุราจำเป็นต้องพบแพทย์อย่างรีบด่วน
๓ ผู้ที่หยุดดื่มสุราอย่างกะทันหันต้องมีอาการชักและประสาทหลอน
๔ ผู้ที่ดื่มสุราอย่างหนักทุกวันแล้วเลิกทันที อาจมีผลรุนแรงต่อสุขภาพ
๕ อาการขาดสุราเฉียบพลันจะปรากฏทันทีหลังจากผู้ที่เคยดื่มอย่างหนักลดการดื่มกะทันหัน

เฉลย ข้อ ๘. (๔) ผู้ที่ดื่มสุราอย่างหนักทุกวันแล้วเลิกทันที อาจมีผลรุนแรงต่อสุขภาพ

GPT-3.5: 0; GPT-4: 1; Claude: 1; Bard: 1

๑๑. ส่วนใดเป็นใจความสำคัญของข้อความต่อไปนี้
๑) รอบตัวเรามีวัตถุทรงกลมอยู่มากมาย/ ๒) เมื่อวัตถุทรงกลมถูกบีบเข้าหากันจะเปลี่ยนเป็นรูปทรงหกเหลี่ยมทันที/ ๓) เช่น หากเราใช้หลอดกาแฟเป่าฟองอากาศเล็ก ๆ ที่อยู่ในแก้วนม/ ๔) ให้สังเกตดูว่าฟองอากาศมีลักษณะเหมือนลูกบอลรูปทรงหกเหลี่ยมหรือไม่/ ๕) หรือลองสังเกตดูฟองอากาศของน้ำยาล้างจานหรือแชมพูอาบน้ำก็ได้
๑ ส่วนที่ ๑
๒ ส่วนที่ ๒
๓ ส่วนที่ ๓
๔​ ส่วนที่ ๔

เฉลย ข้อ ๑๑. (๒) ส่วนที่ ๒

GPT-3.5: 0; GPT-4: 1; Claude: 1; Bard: 1

๑๔. จากข้อความต่อไปนี้ ข้อความส่วนใดสามารถนำไปใช้เขียนย่อความได้
๑) สารเบต้าแคโรทีนพบมากในผลไม้และผักที่มีสีส้ม เหลือง แดง และสีเขียวบางชนิด
๒) เข่น แคนตาลูป แตงโม มะบะกอสุก ฟักทอง ข้าวโพดอ่อน
๓) หรือจำพวกบรอคโคลี มะระ ผักบุ้ง ต้นหอม ผักคะน้า ผักตำลึง และหน่อไม้ฝรั่งก็มีสารดังกล่าวด้วย
๔) สารเบต้าแคโรทีนนั้นมีประโยชน์ต่อร่างกายและผิวพรรณอย่างมาก จึงควรหมั่นรับประทานผลไม้และผักเหล่านี้อย่างสม่ำเสมอ
ก. ส่วนที่ ๑ และ ส่วนที่ ๒
ข. ส่วนที่ ๑ และ ส่วนที่ ๔
ค. ส่วนที่ ๒ และ ส่วนที่ ๓
ง. ส่วนที่ ๓ และ ส่วนที่ ๔

เฉลย ข้อ ๑๔. (ข) ส่วนที่ ๑ และส่วนที่ ๔

GPT-3.5: 0; GPT-4: 1; Claude: 1; Bard: 0

๑๕. ข้อใดเป็นจุดประสงค์ของผู้เขียนข้อความต่อไปนี้
ประเทศไทยมีพื้นที่ทางทะเลมากกว่า ๓๒๐,๐๐๐ ตร.กม. แบ่งเป็นฝั่งตะวันออกและตะวันตก รวมถึงส่วนเหนือของช่องแคบมะละกา ปัจจุบันมีกลุ่มคนต่างๆ ใช้ประโยชน์ทางทะเลเพิ่มมากขึ้น แต่ยังไม่มีการดำเนินการวางแผนเชิงพื้นที่ทางทะเลในภาพรวมทั้งประเทศ โครงการการพัฒนาแผนที่เขตแดนทางทะเลระหว่างจังหวัดชายทะเลจึงเกิดขึ้น เพื่อช่วยจัดการเขตพื้นที่ความรับผิดชอบของจังหวัดชายฝั่งทะเลซึ่งจะนำไปสู่การวางแผนการใช้ประโยชน์ทางทะเลอย่างยั่งยืน ทำให้เกิดความสมดุลในทุกมิติรวมถึงวิถีชีวิตผู้คน
๑. ชี้ให้เห็นความสัมพันธ์ของพื้นที่ทางทะเลกับวิถีชีวิตผู้คน
๒. ชี้แจงสถานการณ์การใช้ประโยชน์ทางทะเลของประเทศไทยปัจจุบัน
๓. ให้ข้อมูลพื้นที่ทางทะเลของประเทศไทยที่คนกลุ่มต่าง ๆ ใช้ประโยชน์
๔. บอกที่มาและเป้าหมายของโครงการจัดทำแผนที่เขตจังหวัดทางทะเล
๕. กระตุ้นให้ตระหนักถึงความสำคัญของการวางแผนการใช้ประโยชน์ทางทะเล

เฉลย ข้อ ๑๕. (๔) บอกที่มาและเป้าหมายของโครงการจัดทำแผนที่เขตจังหวัดทางทะเล

GPT-3.5: 0; GPT-4: 1; Claude: 0; Bard: 1

๒๐. ตามข้อความต่อไปนี้ “เด็กหญิงพรชนก” มีลักษณะนิสัยหลายประการยกเว้นข้อใด
แม้จะอายุไม่ถึง ๑๐ ขวบดี เด็กหญิงพรชนกก็ช่วยเหลือตนเองได้ดี เธอทำอาหารเช้าเอง และเตรียมใส่ปิ่นโตไปกินที่โรงเรียนตอนกลางวันด้วย ที่โรงเรียนเธอทำกิจกรรมหลายอย่างและเป็นประธานชมรมหนูน้อยนักประดิษฐ์ของใช้จากเศษวัสดุ
๑ เอื้อเฟื้อ ๒ ประหยัด ๓ รับผิดชอบ ๔ ใส่ใจรักษ์โลก ๕ มีมนุษยสัมพันธ์

เฉลย : ข้อ ๒๐. (๑) เอื้อเฟื้อ

GPT-3.5: 0; GPT-4: 0; Claude: 0; Bard: 1

๒๘. ข้อใดเรียงลำดับข้อความต่อไปนี้ได้ถูกต้อง
๑. กระชังขนาด ๕​ x ๖ ม. ลึก ๒.๕ ม. จะเลี้ยงลูกปลาได้ ๑,๐๐๐ ตัว
๒. การเลี้ยงปลาแรดในกระชังเริ่มจากการเพาะขยายพันธุ์ปลา
๓. ปลาแรดต้องใช้เวลาเลี้ยง ๑ ปี ๖ เดือน จึงจะจับขายได้
๔. ลูกปลาแรดเมื่อมีขนาด ๕ — ๑๐ ซม. จะนำไปเลี้ยงในกระซัง
๕. อาหารที่ใช้เลี้ยงลูกปลา คือ พืช ผัก ผลไม้สุก และอาหารเม็ด
ก. ๒ — ๑ — ๓ — ๔ — ๕
ข.​ ๒ — ๔ — ๑ — ๕ — ๓
ค. ๓ — ๕ — ๔ — ๑ — ๒
ง. ๓ — ๔ — ๒ — ๕ — ๑
จ. ๔ — ๑ — ๕ — ๓ — ๒

เฉลย : ข้อ ๒๘. (ข) ๒ — ๔ — ๑ — ๕ — ๓

GPT-3.5: 1; GPT-4: 1; Claude: 1; Bard: 0

ทดสอบความรู้เฉพาะภาษาไทย

ส่วนนี้เป็นข้อสอบที่ต้องอาศัยความรู้เฉพาะในภาษาไทยจึงจะตอบได้ ข้อ ๓๖ ความรู้เรื่องลักษณนามเป็นเรื่องเฉพาะภาษาไทย ซึ่งใช้ตามหลักของราชบัณฑิตยสถาน LLM ทั้งหมดคงยังไม่ได้เห็นข้อมูลภาษาไทยมากพอจะจับคำลักษณนามที่กำหนดได้ หรือหากเห็นข้อมูลก็อาจเห็นการใช้คำที่ไม่เป็นไปตามหลักที่กำหนด เช่น อาจพบ นามบัตร ในข้อความที่ใช้คำว่า ใบ มากกว่า แผ่น ทำให้การตอบคำถามลักษณะนี้ให้ถูกเป็นเรื่องยาก. ข้อ ๔๒ หากจะตอบคำถามได้ก็ต้องมองเห็นโครงสร้างประโยคว่าประโยคไหนมีความกำกวมทางโครงสร้างที่ทำให้วิเคราะห์ได้สองแบบ ส่วนข้อ ๔๖, ๔๗ ต้องอาศัยความเข้าใจว่า คำซ้อน คำประสม ในภาษาไทยคืออะไรจึงจะตอบได้ถูก. ความรู้เหล่านี้ไม่สามารถถ่ายโอนจากความรู้ภาษาอื่นได้. คำถามทั้งหมดนี้จึงไม่มีโมเดลไหนตอบได้ถูกเลย

๓๖. ข้อใดใช้คำลักษณนามไม่ถูกต้อง
๑. พนักงานส่งอาหารแจกนามบัตรให้ลูกค้ากว่า ๑๐ แผ่น
๒. คนงานเสนอเงื่อนไขหลายข้อให้เจ้าของกิจการดำเนินการ
๓. แม้จะขับเสภาตั้งหลายสิบบท เสียงของครูผู้ขับก็ยังคงเดิม
๔. พราหมณ์หลายคนเข้าทำพิธีวางศิลาฤกษ์เพื่อสร้างตึกใหม่
๕. ตรงหัวเตียงมีกริ่งตัวหนึ่งไว้ให้คนไข้กดเมื่อต้องการขอความช่วยเหลือ

เฉลย : ข้อ ๓๖. (๕) กริ่ง — อัน

GPT-3.5: 0; GPT-4: 0; Claude: 0; Bard: 0

๔๒. ข้อใดใช้ภาษากำกวม
๑. จากรายงานพบว่าการคำนวณความเร็วรถของนักวิชาการยังขาดความแม่นยำ
๒. คำว่า พรุ เป็นคำสามัญที่ชาวบ้านทางภาคใต้ใช้เรียกบริเวณที่ลุ่ม มีน้ำแช่ขังมาก
๓. กรมสุขภาพจิตแนะนำพ่อแม่ผู้ปกครองให้เสริมสร้างพัฒนาการเด็กด้วยการเล่านิทาน
๔. เจ้าหน้าที่ดับเพลิงเร่งหาทางควบคุมไฟป่าที่ลุกลามเข้าใกล้แหล่งที่มีประชากรหนาแน่น
๕. นกกระจอกเทศเป็นสัตว์สองขาที่วิ่งเร็วที่สุดในโลกด้วยความเร็วสูงสุดเกือบ ๗๐ กิโลเมตรต่อชั่วโมง

เฉลย : ข้อ ๔๒. (๑) จากรายงานพบว่าการคำนวณความเร็วรถของนักวิชาการยังขาดความแม่นยำ เพราะ ของนักวิชาการ อาจขยาย การคำนวณ (การคำนวณของนักวิชาการ) หรือขยาย รถ ก็ได้ (รถของนักวิชาการ) ทำให้ประโยคนี้ตีความได้สองความหมาย

GPT-3.5: 0; GPT-4: 0; Claude: 0; Bard: 0

๔๖. ข้อความต่อไปนี้มีการใช้คำซ้อนกี่คำ ในยุคที่สามารถแบ่งปันความทรงจำดี ๆ ผ่านภาพถ่ายไว้บนโลกออนไลน์ได้อย่างฉับไวนั้น แหล่งธรรมชาติที่สวยงามทั้งในยามเห็นด้วยตาเปล่าและในยามที่มองผ่านเลนส์กล้องถ่ายรูป คงเป็นสิ่งที่ทำให้การเดินทางเพื่อท่องเที่ยวของหลาย ๆ คนสนุกมากขึ้น
๑. ๒ คำ ๒. ๓ คำ ๓. ๔ คำ ๔. ​๕ คำ ๕. ๖ คำ

เฉลย : ข้อ ๔๖. (๔) ๔ คำ คือ แบ่งปัน, สวยงาม, ฉับไว, ท่องเที่ยว

GPT-3.5: 0; GPT-4: 0; Claude: 0; Bard: 0

๔๗. ข้อใดไม่มีคำประสม
๑. ฟักทองมีสารที่ช่วยบำรุงสายตาได้เป็นอย่างดี
๒. นักจิตวิทยามักจะมีแง่มุมในการซักถามเพื่อให้ได้ข้อมูล
๓. แร่ธาตุหลายชนิดในตับของสัตว์เป็นประโยชน์ต่อร่างกาย
๔. ในกะทิมีกรดลอริกซึ่งช่วยสร้างภูมิคุ้มกันเชื้อโรคต่าง ๆ ได้
๕. หมู่บ้านนี้มีตลาดขายของสดตั้งแต่เช้าจนถึงเย็นอยู่หลายแห่ง

เฉลย : ข้อ ๔๗. (๓) แร่ธาตุหลายชนิดในตับของสัตว์เป็นประโยชน์ต่อร่างกาย เพราะ แร่ธาตุ ร่างกาย เป็นคำซ้อนในภาษาไทย ในขณะที่ข้ออื่น ๆ มีคำประสมทุกข้อ

GPT-3.5: 0; GPT-4: 0; Claude: 0; Bard: 0

ทดสอบความเข้าใจนอกตัวบท

คำถามส่วนนี้ AI ต้องอ่านและเข้าใจภาษาไทย และใช้ความเข้าใจเกี่ยวกับโลกโดยคิดแบบมีเหตุมีผลเอาเองจึงจะตอบได้ เพราะคำตอบไม่ได้อยู่ในตัวบท ไม่ได้มาจากการตีความภายในตัวบท แต่ต้องอาศัยความรู้อื่นที่มีมาช่วยสร้างความเข้าใจและตอบคำถามนั้น

สมชายเอาดินสอใส่ไว้ในลิ้นชักตู้แล้วเดินไปข้างนอกห้อง สมศรีเข้ามาในห้องเปิดลิ้นชักเอาดินสอไปวางบนโต๊ะ ต่อมามีคนมาเลื่อนโต๊ะออกจากห้อง ถามว่าตู้ โต๊ะ และดินสอ ตอนนี้อยู่ที่ไหน

ดินสออยู่ในห้องหรือนอกห้อง

เฉลย : ตู้อยู่ในห้อง โต๊ะอยู่นอกห้อง ดินสออยู่บนโต๊ะ และดินสออยู่นอกห้อง

GPT-3.5: 0; GPT-4: 1; Claude: 0; Bard: 0

คำถามแรกถามเกี่ยวกับสิ่งของที่กำหนดให้คือ ตู้ โต๊ะ ดินสอ ว่าอยู่ที่ไหน มีใครมาทำอะไรกับของเหล่านั้น และต้องเข้าใจว่าถ้าดินสอไปอยู่บนโต๊ะแล้วโต๊ะถูกย้ายที่ไป ดินสอก็ต้องติดไปด้วย ซึ่ง GPT-4 สามารถตอบได้ถูกต้อง ส่วน Bard เหมือนจะเข้าใจว่าของแต่ละอย่างอยู่ที่ไหน แต่เมื่อถามย้ำว่าดินสออยู่ในห้องหรือนอกห้องก็ตอบผิด

ผมมีถุงดำขนาดใหญ่พอดีสำหรับใส่ตุ๊กตาหมีได้ และมีตู้หนึ่งใบมีขนาดเล็กกว่าตุ๊กตาหมี ผมจะเอาอะไรใส่ในตู้ได้บ้าง และจะเอาตู้ไปใส่ในอะไรได้บ้าง

จะเอาตู้ไปใส่ในตุ๊กตาหมีได้ไหม และจะเอาถุงดำไปใส่ในตู้ได้ไหม

อย่าลืมว่าถุงดำสามารถพับได้นะ

เฉลย : ตู้มีขนาดเล็กกว่าตุ๊กตาหมีจึงใส่เข้าไปได้ถ้ามีที่ว่างพอ ถุงดำพับให้เล็กได้จึงเอาไปใส่ในตู้ได้

GPT-3.5: 0; GPT-4: 0.5; Claude: 0; Bard: 0

คำถามนี้เป็นการทดสอบความเข้าใจเรื่องพื้นที่ หากบอกขนาดของวัตถุให้แล้วถามว่าจะนำวัตถุหนึ่งไปใส่ในอีกวัตถุได้ไหม AI จะเข้าใจไหมว่าจะใส่ของใหญ่กว่าลงไปในของเล็กกว่าไม่ได้ แต่สามารถใส่ของที่เล็กกว่าเข้าไปในของที่ใหญ่กว่าได้หากของนั้นมีที่ว่างพอ. นอกจากเรื่องขนาดแล้ว ก็จะเช็คว่า AI รู้จักลักษณะของถุงดำไหมว่าเป็นสิ่งที่พับให้มีขนาดเล็กลงได้. GPT-4 เหมือนมีความเข้าใจรู้ว่าตู้เล็กกว่าถุงจึงใส่ไปในถุงได้ และเอาตู้ไปใส่ในตุ๊กตาหมีได้ถ้ามีที่ว่างพอ แต่มองว่าถุงดำมีขนาดใหญ่กว่าตู้จึงใส่ในตู้ไม่ได้. ไม่มีโมเดลไหนรู้ว่าถุงดำสามารถพับให้เล็กลงได้ แต่เมื่อให้ข้อมูลนี้ไปเพิ่มในคำถามท้ายสุดท้าย ทุกโมเดลจึงเริ่มเข้าใจว่าพับถุงดำไปใส่ในตู้ได้

สมอตเป็นตัวเพทาย ตัวเพทายเมื่ออายุครบ 16 ปีจะต้องได้กินเห็ดหูช้างภายในหนึ่งปีจึงจะกลายร่างเป็นมังกรได้ หากไม่ได้กินก็จะยังคงเป็นตัวเพทายต่อไปแต่จะแห้งตายภายใน 3 ปี เมื่อสมอตอายุ 15 ปีเขาหลุดเข้าไปในมิติแห่งความมืด เขาติดอยู่ที่นั่นเป็นเวลา 3 ปีจึงหลุดออกมาได้ ในมิติแห่งความมืดไม่มีพืขพรรณอะไรเติบโตได้ สมอตจะกลายเป็นมังกรได้เมื่อไร

สมอตจะตายเมื่อไร

เฉลย : สมอตไม่สามารถกลายเป็นมังกรได้ และจะแห้งตายในอีกหนึ่งปีหลังจากหลุดมาจากมิติแห่งความมืด

GPT-3.5: 0; GPT-4: 1; Claude: 0; Bard: 0

คำถามนี้สมมติสัตว์ที่ชื่อสมอต เป็นสัตว์สมมติเรียกว่าตัวเพทาย และบอกข้อกำหนดต่าง ๆ ว่าจะกลายร่างได้อย่างไร โดยใช้เรื่องเวลามาเป็นเกณฑ์ในการคิดวิเคราะห์. AI จะต้องเข้าใจลำดับเวลาและเข้าใจว่าอะไรเกิดก่อนหรือหลังในช่วงเวลาไหนจึงจะตอบคำถามนี้ได้. GPT-4 สามารถเข้าใจเรื่องเงื่อนเวลาและอธิบายได้ถูกว่าสมอตจะไม่สามารถกลายเป็นมังกรได้เพราะถูกขังในมิติมืดไม่มีโอกาสได้กินเห็ดหูช้าง เมื่อได้ออกมาจากมิติมืดก็อายุ 18 ปีแล้ว และยังอธิบายต่อได้ว่าสมอตจะต้องตายเมื่ออายุ 19 ปี

สมชายโทรไปหาสมศรีให้ช่วยไปที่บ้านเขาเพื่อเอาศรีนวลแมวดำของเขาไปหาสัตวแพทย์ให้หน่อย สมศรีจึงไปที่บ้านสมชาย ที่บ้านสมชายมีแมวดำสองตัว สมศรีหยิบแมวผิดตัว ไปหยิบเอาเจ้าศรีจันทร์แมวดำอีกตัวหนึ่งไป ระหว่างทางไปร้านหมอ รถจักรยานยนต์ของสมศรีล้มทำให้แมวหลุดวิ่งหนีหายไป สมชายคิดว่าแมวเขาแต่ละตัวตอนนี้อยู่ที่ไหน และสมศรีคิดว่าแมวของสมชายอยู่ที่ไหน

เฉลย : ในความคิดของสมชาย ศรีนวลอยู่กับสมศรีกำลังไปหาหมอ ส่วนศรีจันทร์อยู่ที่บ้าน ส่วนสมศรีเข้าใจว่าตัวเองหยิบศรีนวลมาจึงคิดว่าศรีนวลหลุดหายไป สมศรีอาจไม่รู้ว่ามีศรีจันทร์เป็นแมวอีกตัวอยู่ที่บ้าน

GPT-3.5: 0; GPT-4: 0.5; Claude: 0; Bard: 0

คำถามข้อนี้เพื่อดูว่า AI เข้าใจไหมว่าในหัวของสมชายและสมศรี แต่ละคนมีความคิดอะไร สมชายคงคิดว่าสมศรีไปพาศรีนวลไปหาหมอ ส่วนศรีจันทร์น่าจะอยู่ที่บ้าน ส่วนสมศรีคิดว่าตัวเองหยิบศรีนวลมา ศรีนวลจึงหายไประหว่างทาง และอาจไม่รู้ว่ามีศรีจันทร์อยู่ ในข้อนี้มีเพียง GPT-4 ที่อธิบายสิ่งที่สมชายคิดได้ถูกต้อง แต่อธิบายความคิดของสมศรีไม่ถูกต้อง.

สรุป

ผลการทดสอบทั้งสามส่วน ส่วนแรกที่เป็นเรื่องการอ่านเพื่อความเข้าใจ GPT-3.5 ดูแย่สุดได้คะแนน 2/10 ในขณะที่ GPT-4, Claude, Bard ทำได้คะแนน 8/10, 7/10, 7/10 ตามลำดับ ส่วนการทดสอบความรู้ที่เป็นเรื่องเฉพาะภาษาไทย ไม่มีโมเดลไหนทำได้เลย ได้คะแนน 0/4 ทั้งหมด ในส่วนของการทดสอบที่ต้องอาศัยความรู้นอกเหนือจากตัวบท GPT-4 ดูมีความเข้าใจทางโลกมากกว่า. ได้คะแนน 3/4 ในขณะที่โมเดลอื่นได้ 0/4 อย่างไรก็ตาม ทั้งหมดเป็นเพียงการทดลองทำข้อสอบบางส่วน และการตอบของโมเดลอาจเปลี่ยนไปในการถามแต่ละครั้งแม้จะเป็นคำถามเดียวกัน แต่ผลเบื้องต้นนี้ก็พอชี้ให้เห็นว่า GPT-3.5 อ่านและทำความเข้าใจภาษาไทยได้ไม่ดีเลย ในขณะที่ GPT-4, Claude และ Bard สามารถอ่านและเข้าใจความภาษาไทยที่อ่านได้ สามารถตอบคำถามที่เกี่ยวข้องโดยตรงในข้อความได้เป็นส่วนใหญ่ แต่ GPT-4 ดูจะมีความเข้าใจสิ่งที่อยู่นอกตัวบทมากกว่า สามารถคิดอย่างมีเหตุผล เข้าใจเรื่องปริภูมิและเวลา (space and time) และสามารถเข้าใจสิ่งที่คนอื่นคิดได้ (theory of mind)

แม้ LLM จะยังไม่ฉลาดเท่ามนุษย์ในทุกด้าน แต่สิ่งสำคัญคือเราเห็นถึงศักยภาพของ LLM ที่จะเรียนรู้และสร้างความเข้าใจเกี่ยวกับโลกเพิ่มเติมให้ดีขึ้นได้ LLM รุ่นเก่าอย่าง GPT-3.5 อาจถูกมองว่าเป็นเพียงโมเดลที่ทำนายคำต่อไปสามารถเขียนข้อความต่าง ๆ ได้สละสลวยโดยไม่ได้เข้าใจอะไรมากนัก แต่ GPT-4 และโมเดลอื่นในอนาคตไม่ได้แค่จำสถิติการใช้คำว่าจะใช้คำอะไรร่วมกับคำอะไร แต่สร้างความเข้าใจจากสิ่งที่ได้เรียนและใช้ความเข้าใจที่มีนั้นมาคิดและตอบคำถามเราได้ ความสามารถหลายอย่างที่ผุดขึ้นมา เช่น การรู้ว่าของที่วางอยู่บนโต๊ะ จะเคลื่อนไปพร้อมกับโต๊ะด้วย ความเข้าใจเรื่องปริภูมิและเวลา สิ่งเหล่านี้ไม่ได้เขียนไว้โดยตรงในข้อมูลภาษาโดยตรง นักวิจัย AI บางคนก็เคยปรามาสไว้ว่าเป็นไปไม่ได้ที่ LLM จะเข้าใจสิ่งเหล่านี้ จะเข้าใจได้ก็เฉพาะสิ่งที่เคยอ่านมาโดยตรง แต่ไม่กี่ปีให้หลัง เราก็เห็นแล้วว่า GPT-4 สามารถสร้างความเข้าใจโลกจากสิ่งที่อ่านได้เอง.

แม้คนมักยกตัวอย่างว่าเวลาถาม AI ถึงคนนั้นคนนี้ แล้ว AI ก็ตอบผิดไม่ตรงกับความเป็นจริง ก็ทึกทักเอาว่า AI ไม่ได้ฉลาดจริง แต่ถ้าเราถามตัวเอง หากมีใครมาถามเราว่านายจักรวาล แห่งหนองบัวลำภูเป็นใคร เราก็คงตอบไม่ได้เช่นกัน แต่ AI อย่าง ChatGPT ถูกฝึกมาให้พยายามตอบคำถามและตอบอย่างผู้รู้และมั่นใจ จึงมีคำตอบที่เหมือนเป็นการคิดเอาเองของ ChatGPT มาให้เห็นเป็นปกติ. แต่การคิดเอาเองนี้ก็มาจากความเข้าใจโลกที่ GPT-4 สร้างขึ้นจากการเรียนรู้ข้อมูล เป็นความเข้าใจภายในหรือ intension ไม่ใช่ extension แบบที่มนุษย์แยกแยะได้ว่าอะไรมีจริงหรือไม่ในโลกภายนอก. ปัญหานี้จะลดลงเมื่อ GPT ต่อไปได้เพิ่มขีดความสามารถให้เรียนรู้ไม่ใช่จากตัวเขียน แต่จากการมองเห็นและได้ยินและปฏิสัมพันธ์กับสิ่งที่อยู่ในโลกภายนอกได้ ซึ่งก็เป็นสิ่งที่กำลังจะเกิดขึ้น

สิ่งที่ควรวิตกจึงไม่ใช่เรื่องข้อจำกัดปัจจุบันของโมเดลอย่าง GPT-4 แต่ควรเป็นเรื่องขีดความสามารถอะไรอีกบ้างที่จะผุดขึ้นมาในโมเดลต่อ ๆ ไป และทำอย่างไรเราจึงจะเข้าใจวิธีคิดและความคิดของ AI ในเมื่อ ณ ปัจจุบันเราก็ยังอธิบายไม่ได้ว่า GPT-4 รู้และเข้าใจสิ่งที่เรียนได้อย่างไร

--

--