ChatGPT : ภาษาใน AI-generated corpus

Wirote Aroonmanakun
5 min readSep 14, 2023

--

คำถามว่าเราควรนำข้อมูลตัวบททเขียนด้วย AI มาเป็นส่วนหนึ่งของคลังข้อมูลภาษาหรือ corpus ได้หรือไม่. คำถามนี้ ถ้าเรามองว่า corpus เป็นข้อมูลเพื่อตอบคำถามที่มีความเกี่ยวข้องกับมนุษย์โดยตรง เช่น ความหมายและการใช้ภาษาของคนกลุ่มใดกลุ่มหนึ่ง, อุดมการณ์ความเชื่อในวัฒนธรรมของสังคม. แบบนี้แล้วข้อมูลที่เขียนด้วย AI ก็ไม่ตรงกับเป้าหมายที่ต้องการ แต่หากเป็นการศึกษาที่มองว่าภาษาที่เขียนด้วย AI เป็นภาษาอีกลักษณะหนึ่งก็สามารถรวบรวมข้อมูลเพื่อใช้ศึกษาภาษาที่เขียนด้วย AI ได้ เปรียบเหมือนกรณีที่เราต้องการศึกษาภาษาแปล เราก็ใช้ข้อมูลงานแปลโดยตรง

การแยกงานที่เขียนด้วยคนหรือเขียนด้วย AI

ไม่ว่าเราจะเลือกรวมหรือไม่รวมข้อมูลงานเขียนไว้ในคลังข้อมูลหรือไม่ คำถามที่สำคัญอีกข้อคือ เราสามารถแยกงานที่เขียนด้วย AI ออกจากงานที่เขียนด้วยมนุษย์ได้หรือไม่. Casal & Kessler (2023) ทดลองให้นักภาษาศาสตร์แขนงต่าง ๆ แยกความต่างระหว่างบทคัดย่อที่เขียนด้วยมนุษย์และบทคัดย่อที่เขียนด้วย AI ผลปรากฏว่าผู้เชี่ยวชาญสามารถแยกได้ถูกต้องเพียง 39.8% [1] นอกจากการแยกแยะด้วยมนุษย์ การใช้โปรแกรมเพื่อช่วยตัดสินว่างานเขียนนั้นเขียนด้วย AI หรือไม่ ก็เป็นอีกเรื่องที่คนให้ความสนใจมาก โดยเฉพาะครูอาจารย์ที่ต้องการตรวจจับว่านักเรียนได้ส่งงานโดยใช้ AI เขียนให้หรือไม่. ตัวอย่างเครื่องมือเหล่านี้ เช่น GPTZero, Zero GPT, OpenAI AI Text Classifier, etc. แม้ว่าโปรแกรมเหล่านี้จะสามารถตรวจจับงานปกติที่เขียนด้วย AI ได้ แต่ก็มีหลากหลายวิธีที่จะเลี่ยงการตรวจจับ เช่น สั่งให้เขียนเหมือนคนที่ไม่ใช่เจ้าของภาษา หรือเขียนให้มีที่ผิดบ้าง แม้แต่ OpenAI ซึ่งนอกจากจะพัฒนา ChatGPT ยังพัฒนาเครื่องมือช่วยตรวจจับงานที่เขียนด้วย AI ยังกล่าวว่าโปรแกรมตรวจจับทั้งหลายนั้นไม่สามารถตรวจจับงานที่เขียนด้วย AI ได้น่าเชื่อถือพอ

Do AI detectors work?
In short, no. While some (including OpenAI) have released tools that purport to detect AI-generated content, none of these have proven to reliably distinguish between AI-generated and human-generated content.
https://help.openai.com/en/articles/8313351-how-can-educators-respond-to-students-presenting-ai-generated-content-as-their-own

ให้ ChatGPT ช่วยสร้างคลังข้อมูลบทคัดย่อจากวารสาร

ในเมื่อการศึกษาเบื้องต้นนี้ชี้ให้เห็นว่า ทั้งมนุษย์และโปรแกรมไม่สามารถแยกความต่างของงานที่เขียนด้วยมนุษย์หรือเขียนด้วย AI ในที่นี้จึงทดลองให้ ChatGPT ช่วยเขียนบทคัดย่อจากบทความชื่อเดียวกันมาเปรียบเทียบกับบทคัดย่อต้นฉบับที่เขียนด้วยมนุษย์ โดยสุ่มเลือกบทความจากวารสาร Digital Humanities Quarterly จำนวน 53 บทความ. บทความที่โหลดมาได้มีรูปแบบเป็น xml ที่มีข้อมูลครบ จึงโหลดไฟล์ทั้งหมดเป็น zip ไปให้ แล้วขอให้ดึงเฉพาะข้อมูลชื่อบทความกับบทคัดย่อออกมาให้. แต่ก็ดูเหมือนมีปัญหาหาข้อมูลไม่เจอ จึงบอกไปว่าให้ดูที่แท็กชื่อ <title> กับ <dhq:abstract>

แต่ก็เหมือนมีปัญหาในการดึงข้อมูลอยู่ดี จึงต้องสั่งให้ไม่สนใจโครงสร้างในไฟล์ xml และดึงเฉพาะข้อมูลในแท็กที่บอก
Don’t try to find the structure of xml. Just use tags specified above to signal what should be extract.
จึงสามารถสกัดข้อมูลชื่อบทความและบทคัดย่อออกมาได้ตามตัวอย่างนี้

ให้ ChatGPT ช่วยสร้างคลังข้อมูลบทคัดย่อที่เขียนด้วย AI

จากนั้นจึงสั่งให้ ChatGPT เอาชื่อบทความที่มีแล้วเขียนบทคัดย่อสำหรับชื่อบทความนั้นออกมา แล้ว save เป็นไฟล์ให้ดาวน์โหลด. แต่ผลที่ได้ ไม่ได้เป็นดั่งที่หวัง บทคัดย่อที่ได้ออกมานั้นสั้นและซ้ำ ๆ กัน แม้ว่าจะพยายามสั่งให้เขียนแต่ละบทความให้ต่างกัน. เหตุที่เป็นเช่นนี้ เพราะ Code Interpreter หรือชื่อใหม่ Advanced Data Analysis เขียนบทคัดย่อโดยใช้วิธีการเขียนจาก code ที่สร้างไม่ได้ใช้ความสามารถทางภาษาของ GPT โดยตรง

No, for each title, abstract should be different. Try it again.

That still looks quite similar. Try generate abstract based on the title. Abstract should be clearly distinct.

ท้ายที่สุดจึงต้องใช้วิธี copy ชื่อบทความแล้วให้ ChatGPT เขียนบทคัดย่อให้โดยตรงทีละบทความแล้ว copy ตัวบทที่ GPT เขียนออกมาเอาไปใช้ต่อ สร้างเป็นคลังข้อมูลบทคัดย่อที่เขียนด้วย GPT

เมื่อได้คลังข้อมูลบทคัดย่อต้นฉบับ (clean abstract) และคลังข้อมูลบทคัดย่อที่เขียนด้วย GPT (gpt abstract) แล้ว ขั้นต่อไปคือการศึกษาว่าภาษาในคลังข้อมูลทั้งสองนี้แตกต่างกันอย่างไร เมื่อใช้ LancsBox X ดูรายการคำเปรียบเทียบกับ แม้จะมีรายการศัพท์ต่างกัน แต่การกระจายตัวของศัพท์ก็ดูเป็นปกติ และแม้จะนำคลังข้อมูลสองชุดนี้มาเทียบหาคำสำคัญหรือ keyword ก็จะได้รายการคำสำคัญในแต่ละคลังข้อมูลออกมาต่างกัน แต่ก็เป็นเรื่องปกติของการเทียบหาคำสำคัญว่าอย่างไร ก็จะได้รายการคำสำคัญออกมาได้

เปรียบเทียบ corpus โดยใช้การวิเคราะห์ genre ของ Biber

วิธีการหนึ่งในการเปรียบเทียบคลังข้อมูล clean abstract กับ gpt abstract คือการวิเคราะห์ตัวบทตามแบบ Biber [3] โดยใช้โปรแกรม Multidimensional Analysis Tagger [4] วิเคราะห์แต่ละบทคัดย่อออกมาเป็นค่าใน dimension ทั้งหกออกมา

เมื่อได้ข้อมูลการวิเคราะห์แต่ละ dimension ออกมาแล้ว จึงส่งให้ ChatGPT เพื่อขอให้ Advanced Data Analysis ช่วยวิเคราะห์ต่อให้

ข้อมูลการวิเคราะห์แสดงว่าผลในแต่ละ dimension มีความต่างระหว่าง clean abstract corpus กับ gpt abstract corpus

และเมื่อดูประเภทตัวบทหรือ text type ที่วิเคราะห์ได้ บทคัดย่อใน gpt corpus มีลักษณะเป็น learned expository เป็นส่วนใหญ่ ในขณะที่ clean corpus มีกระจายไปที่ text type อื่น ๆ มากกว่า

เมื่อถามเพื่อให้สรุปว่า corpus ทั้งสองนี้มาจาก population เดียวกันหรือไม่ คือจัดเป็นภาษาแบบเดียวกันไหม ChatGPT เลือกใช้ Hotelling’s T2 test และพบว่าสามารถปฏิเสธ null hypothesis ได้ แสดงว่าข้อมูล corpus ทั้งสองนี้มีความแตกต่างกัน

เปรียบเทียบ corpus โดยใช้ลักษณ์ทางภาษา

ในโปรแกรม Multidimensional Analysis Tagger นอกจากผลการวิเคราะห์ dimension แล้ว ยังมีผลการวิเคราะห์ลักษณ์ทางภาษาที่ได้จากแต่ละตัวบทด้วย จึงได้นำข้อมูลนี้มาลองวิเคราะห์เปรียบเทียบ เมื่อถาม ChatGPT ว่าจะใช้วิเคราะห์หาความแตกต่างของทั้งสอง corpus นั้นอย่างไร ซึ่ง ChatGPT ก็เสนอแนวทางวิเคราะห์ไว้ 6 แนวทาง

ในที่นี้ได้เลือกให้ใช้ทาง 2,4,6 คือ ใช้ hypothesis testing, PCA, และ Visualization

ผลจากการวิเคราะห์ลักษณ์โดยใช้ hypothesis testing กับลักษณ์ต่าง ๆ ก็พบว่ามีทั้งที่แสดงความต่างอย่างมีนัยสำคัญและไม่มีความต่าง เช่น Tokens, TTR ไม่แสดงความต่างระหว่างสองคลังข้อมูล ส่วน AWL (average word length) แสดงถึงความต่างระหว่างสองคลังข้อมูล

หลังจากนั้น ChatGPT ก็วิเคราะห์ตัวเลือกถัดไปคือ Principle Component Analysis คือวิเคราะห์ลักษณ์ทั้งหมดโดยรวบเข้าด้วยกันให้เหลือตัวแปรสำคัญจำนวนหนึ่ง เป็นการลดมิติข้อมูลลงคล้ายกับการวิเคราะห์ Multidimensional Analysis ที่ Biber ใช้ (เพียงแต่ Biber ใช้เทคนิค Factor Analysis). หลังจากการวิเคราะห์ออกมาแล้วจึง วาดกราฟแสดงตำแหน่งข้อมูลจากแต่ละตัวบทใน Component 1 และ 2 ซึ่งจะเห็นว่า บทคัดย่อจาก gpt corpus จะเกาะกลุ่มกันมากกว่า

จากนั้น ChatGPT ก็ลองวิธีการถัดไป คือการแสดงผลเป็นภาพนิทัศน์เพื่อแสดงความต่างของลักษณ์ในคลังข้อมูลทั้งสองนี้ เนื่องจากเราไม่รู้ว่าลักษณ์ไหนที่สำคัญจึงให้ ChatGPT ช่วยเลือกลักษณ์ที่น่าสนใจมาแสดง ChatGPT จึแสดงผลในรูปที่เป็น histogram และ boxplot

บทสรุป

ผลจากการวิเคราะห์เปรียบเทียบลักษณ์ทางภาษาระหว่างสองคลังข้อมูล ทำให้เห็นว่ามีความแตกต่างในลักษณ์บางลักษณ์อย่างชัดเจน โดยเฉพาะเมื่อดูการวิเคราะห์ PCA ซึ่งจะเห็นการเกาะกลุ่มของบทคัดย่อใน gpt corpus มากกว่า เหมือนกับผลจากการวิเคราะห์โดยใช Multidimensional Analysis ที่ได้เป็น text type ประเภทเดียวกันมากกว่า. คำอธิบายคือ บทคัดย่อที่เขียนด้วย GPT แม้ว่าแต่ละบทจะมีเนื้อหาแตกต่างกัน แต่เป็นการเขียนโดย GPT ตัวเดียวทั้งหมด ทำให้มีลักษณะภาษาที่คล้ายกันมากกว่า ในขณะที่บทคัดย่อต้นฉบับแต่ละบทเขียนด้วยผู้เขียนต่างกัน ลักษณะภาษาที่ปรากฏจึงมีความแตกต่างกันมากกว่า. ผลที่ได้จึงสะท้อนความแตกต่างของคลังข้อมูลทั้งสองที่พบในที่นี้ หรือในอีกแง่หนึ่ง การรวบรวมคลังข้อมูลจากงานเขียนด้วย AI จะได้ข้อมูลภาษาที่มีลักษณะเป็นเนื้อเดียวกันมากกว่า

เมื่อย้อนกลับมาดูคำถามว่าเราควรใช้ตัวบทที่เขียนด้วย AI หรือไม่ ผลจากการทดลองและวิเคราะห์บทคัดย่อที่เขียนด้วย GPT แสดงให้เห็นว่า ข้อมูลภาษาที่ได้มาจาก AI มีลักษณะภาษาที่เป็นเนื้อเดียวกันมากกว่าการรวบรวมข้อมูลภาษาทั่วไป เพราะเป็นข้อมูลที่มาจากการเขียนที่เสมือน AI เป็นคน ๆ เดียวเขียนเป็นหลัก แต่หากเรารวบรวมข้อมูลที่เขียนด้วย AI จากโมเดลภาษาที่หลากหลายขึ้น ก็อาจได้รูปแบบลักษณะงานเขียนที่ต่างกันมากขึ้นได้ แต่ความหลากหลายก็คงจะเทียบไม่ได้กับความหลากหลายในคลังข้อมูลภาษาจริงที่รวบรวมจากการเขียนของคนจำนวนมากได้

การจะใช้หรือไม่ใช้ข้อมูลงานเขียนจาก AI จึงต้องพิจารณาจากหลายปัจจัย ทั้งตัวข้อมูลที่ได้มาและคำถามวิจัยว่าต้องการข้อมูลภาษาลักษณะไหน แต่ไม่ว่าจะตัดสินใจอย่างไร คำถามที่สำคัญและยากกว่า คือ การตัดสินว่างานเขียนนั้นเขียนด้วย AI หรือไม่ ซึ่งยังเป็นเรื่องที่ตอบให้ถูกต้องได้ยาก ประกอบกับในปัจจุบันมีการใช้ AI ช่วยเขียนงานจำนวนมากปรากฏขึ้นตามเว็บต่าง ๆ. ในอนาคต ข้อมูลภาษาที่พบจึงอาจมีข้อมูลที่เขียนด้วย AI หรือที่คนใช้ให้ AI ช่วยเขียนช่วยแก้ไขมากขึ้นเรื่อย ๆ ปะปนอยู่กับภาษาทั่วไปจนไม่สามารถแยกแยะได้ง่าย และกลายเป็นรูปแบบภาษาที่พบเห็นเป็นหลักก็ได้

อ้างอิง

[1] Casal, J. E., & Kessler, M. (2023). Can linguists distinguish between ChatGPT/AI and human writing?: A study of research ethics and academic publishing. Research Methods in Applied Linguistics, 2(3), 100068. doi: 10.1016/j.rmal.2023.100068

[2] OpenAI. (2023). How can educators respond to students presenting AI-generated content as their own? | OpenAI Help Center. (2023, September 12). Retrieved from https://help.openai.com/en/articles/8313351-how-can-educators-respond-to-students-presenting-ai-generated-content-as-their-own

[3] Biber, Douglas (1988). Variation across speech and writing. Cambridge: Cambridge University Press.

[4] Nini, A. (2019). The Multi-Dimensional Analysis Tagger. In Berber Sardinha, T. & Veirano Pinto M. (eds), Multi-Dimensional Analysis: Research Methods and Current Issues, 67–94, London; New York: Bloomsbury Academic. https://sites.google.com/site/multidimensionaltagger/

--

--

No responses yet