ChatGPT : ช่วยตรวจและประเมินงานเขียนได้?

3 min readSep 18, 2023

ChatGPT เป็น large language model ที่มีความสามารถทางภาษา สามารถเขียนงานในรูปแบบต่าง ๆ ได้ สามารถตรวจแก้ภาษาและช่วยเขียนให้เราใหม่ได้ สำหรับครูผู้สอนการเขียน จึงอาจมีคำถามว่าแล้ว ChatGPT จะช่วยในการตรวจประเมินงานเขียนให้เราได้ไหม ในการตรวจ เรามักมีเกณฑ์การตรวจอยู่แล้วว่าให้พิจารณาเรื่องอะไรบ้าง คะแนนในแต่ละส่วนมีเท่าไร ถ้าให้ ChatGPT ใช้เกณฑ์นี้แทนเรา ตรวจแก้และให้คะแนนจะเป็นไปได้ไหม และถ้าเป็นไปได้ เราสามารถโหลดไฟล์งานเขียนนักเรียนทั้งหมดเข้าไป แล้วให้ ChatGPT ตรวจแก้ให้คะแนนจนแล้วเสร็จ ค่อยให้เราโหลดผลที่ได้ออกมา แบบนี้จะทำได้ไหม

เกณฑ์การตรวจให้คะแนน

เริ่มต้นด้วยการให้เกณฑ์การตรวจที่ต้องการใช้ ในที่นี้เลือกปรับเกณฑ์จากที่มีเผยแพร่และเลือกใช้เกณฑ์ที่ซับซ้อนเพื่อทดสอบว่า ChatGPT จะเข้าใจและใช้เกณฑ์ที่ซับซ้อนนี้ได้ไหม (เกณฑ์แบบอื่นที่พบดูใช้ง่ายกว่านี้)

ดัดแปลงเกณฑ์จาก https://www.sandhills.edu/wp-content/uploads/2019/03/Criteria-for-Evaluating-an-Essay.pdf

เมื่อใช้ Advanced Data Analysis

เมื่อ ChatGPT ทวนเกณฑ์ที่ให้และบอกว่าเข้าใจและใช้ได้ ก็ดำเนินการต่อ โดยบอกว่า เขาต้องทำหน้าที่เป็นผู้ช่วยครู ให้อ่านงานเขียนนักเรียน mark up ข้อผิดที่พบ ใช้เกณฑ์ที่ให้ไปตรวจงานและให้คำแนะนำในการแก้ไขที่ชัดเจนเป็นประโยชน์ และให้คะแนนที่ได้สำหรับเกณฑ์แต่ละข้อ เสร็จแล้วให้สร้างเป็นไฟล์ให้ download ออกมา

เมื่อให้ข้อมูลงานเขียนไป ChatGPT ก็ใช้ Advanced Data Analysis อ่านไฟล์และวิเคราะห์ให้จนเสร็จ ซึ่งดูน่าจะใช้ได้ แต่เมื่อลองเปิดดูข้อมูลในไฟล์ที่ได้ออกมา ก็เห็นว่าไม่ได้ผลแบบที่ควรจะได้ คือเหมือน ChatGPT ไม่สามารถตรวจงานและให้คะแนนได้จริง

เมื่อใช้เพียง GPT-4 ในการตรวจประเมินงาน

ปัญหาที่พบนั้นน่าจะมาจากการใช้ Advanced Data Analysis (ADA) ซึ่งโดยหลักเหมาะสำหรับใช้กับงานวิเคราะห์ข้อมูลทั่วไปที่สามารถประมวลผลด้วยภาษา Python ได้ เพราะ ADA จะเขียนโปรแกรมขึ้นมาเพื่อทำงานต่าง ๆ ในที่นี้จึงเหมือนเขียนโปรแกรม python มาเพื่อตรวจงาน. ในกรณีนี้เราต้องการให้ ChatGPT ช่วยตรวจงานโดยใช้ความสามารถทางภาษาของ GPT-4 จึงควรเลี่ยงการใช้ Advanced Data Analysis

เมื่อป้อนข้อมูลงาน essay ไปโดยตรง ChatGPT ก็ใช้ GPT-4 อ่านและประเมินงานออกมาโดยใช้เกณฑ์ที่ให้ จากนั้นลองให้เอาผลที่ได้สร้างเป็นไฟล์ให้ดาวน์โหลดออกมาอีกที

แม้ว่า GPT-4 ดูจะทำงานตามที่หวังได้ แต่พอให้สร้างไฟล์ออกมา ไฟล์นั้นกลับไม่มีข้อมูลการแก้ไขงานเขียนทั้งหมดแบบที่ต้องการ จึงได้ลองสั่งใหม่ ให้แสดงงานที่แก้ไขพร้อมกับ markup ข้อผิดออกมาให้ดูก่อน ซึ่ง ChatGPT ก็สามารถแสดงงานที่ถูกแก้ไขและ markup ออกมาให้ได้ครบทั้งหมดตามต้องการ เพียงแต่ไม่ว่าเราจะสั่งให้เก็บข้อมูลลงไฟล์อย่างไร ก็ดูจะมีปัญหาไม่สามารถเก็บงานที่แก้ไขนั้นออกมาได้. จุดนี้ ทำให้เห็นว่า เราไม่ควรใช้ Advanced Data Analysis ในการตรวจแก้และประเมินภาษาในงานเขียน. ให้ใช้ GPT-4 ทั้งหมดโดยไม่เรียก ADA น่าจะดีกว่า คือ ให้อ่านเกณฑ์คะแนนจากที่ copy ไปให้ แล้ว copy งานเขียนนั้นมาให้ ChatGPT อ่านโดยตรง เพื่อบังคับให้ใช้ GPT-4 ตรวจแก้และประเมินงาน และให้แสดงผลออกมาภายใน chat นั้น เมื่อได้ผลที่ต้องการแล้ว จึง copy ผลที่ได้ไปใช้ต่อ. แน่นอนว่า วิธีนี้ทำให้เราไม่สามารถตรวจงานเขียนนักเขียนพร้อมกันทีเดียวหลาย ๆ งานได้ เพราะต้องทำทีละงานโดยการ copy-paste ไปเรื่อย ๆ แต่วิธีนี้ก็เป็นวิธีที่ทำให้เรามั่นใจว่าการตรวจแก้นั้นได้มาจากการใช้ความสามารถทางภาษาของ GPT-4

การตรวจประเมินเชื่อถือได้หรือไม่

คำถามต่อไปคือผลการตรวจของ GPT-4 นั้นเชื่อถือได้เพียงใด ในที่นี้จะลองวิธีง่ายสุด คือ นำเอางานเขียนชิ้นเดียวกันมาทดลองให้ GPT-4 ตรวจแก้ให้คะแนนในคนละ chat หรือคือการตรวจหลายครั้งแต่ต่างเวลากัน ทำให้ได้ผลการตรวจงานเดิมครั้งที่ 2–4 มาเทียบดังนี้

ผลการตรวจงานเขียนเดิมครั้งที่สอง

ผลการตรวจงานเขียนเดิมครั้งที่สาม

ผลการตรวจงานเขียนเดิมครั้งที่สี่

ผลการตรวจงานเดิมสี่ครั้งได้คะแนนไม่เหมือนกันทีเดียวคือได้ 48, 67, 46, และ 55 คะแนนตามลำดับ. การตรวจครั้งที่สองได้คะแนนมากเพราะการหักคะแนนข้อผิดน้อยกว่าครั้งอื่น คือ หักไปเพียง 8 คะแนน ขณะที่ครั้งที่ 1,3,4 หักคะแนน 31,18,15 ตามลำดับ ซึ่งแสดงถึงความต่างกันของการตรวจพอสมควรเมื่อตรวจคนละเวลากัน

หากคิดว่า เป็นเพราะตรวจคนละเวลา GPT-4 ก็อาจเหมือนคนตรวจบางคนคือตรวจได้ไม่สม่ำเสมอแล้วแต่เวลา ดังนั้น ถ้าลองตรวจต่อเนื่องคือให้ตรวจงานเขียนที่ต่างกันเลย ในการทดลองตรวจครั้งที่สี่จึงได้ลองใช้เกณฑ์เดียวกันนี้ตรวจงานเขียนอื่นอีกสามชิ้น ได้ผลดังนี้ (สามารถดูรายละเอียด chat ใน link “Essay Evaluation and Feedback”)

งาน 1 : Despite claims to the contrary, computers and other forms of digital technology are weakening human relationship. (55/100 ถูกหักข้อผิด 15 คะแนน)
งาน 2 : Cruelty to Animals (56/100 ถูกหักข้อผิด 13 คะแนน)
งาน 3 : My idea of a fun weekend (36/100 ถูกหักข้อผิด 23 คะแนน)
งาน 4 : Enjoy the art of almost doing nothing (69/100 ไม่ถูกหักข้อผิด)

Essay Evaluation and Feedback

These are criteria to evaluate an essay. Can you use this to evaluate students' essay and make suggestions for them? NO…

chat.openai.com

งานชิ้นสอง เป็นงานเขียนนักเรียนระดับเดียวกัน. งานชิ้นที่สามมาจากนักเรียนคนละระดับ ความเรียงสั้นกว่าและมีที่ผิดมาก. งานชิ้นที่สี่ เป็นบทความเผยแพร่ใน Bangkok Post จึงเป็นงานเขียนที่ผ่านการตรวจแก้มาแล้ว คะแนนจึงสูงสุดและไม่มีการหักคะแนนข้อผิดเลย

ผลการตรวจหากตรวจใน chat เดียวกันนี้ ก็ดูเหมือนช่วงคะแนนที่ได้ก็บอกความต่างของงานได้อยู่ แต่หากดูการสั่งใช้งานจริง จะเห็นว่า ChatGPT จะหลุดไม่ใช้เกณฑ์ที่ให้ ต้องคอยย้ำว่าให้ใช้เกณฑ์เดิมแล้วก็ copy เกณฑ์ให้ดูใหม่ จึงจะทำได้ตามต้องการ. ส่วนการตรวจนั้นใช้ได้จริงไหม ในขั้นนี้ ยังเป็นคำถามที่ไม่สามารถตอบได้ จำเป็นต้องศึกษาวิจัยจริงจังเพื่อตอบคำถามนี้ คืออาจต้องให้ครูที่สอนการเขียนลองใช้ ChatGPT ตรวจงานควบคู่ไปกับการตรวจด้วยตัวเอง โดยใช้เกณฑ์การให้คะแนนที่ใช้อยู่จริง แล้วมาวิเคราะห์ผลว่าคะแนนที่ได้จาก GPT-4 ว่าสัมพันธ์กับคะแนนที่ครูตรวจเองหรือไม่โดยคำนวณค่า correlation ที่ได้ และควรตรวจให้แล้วเสร็จภายใน chat เดียวโดยไม่หยุดใช้งานเลย ไม่สร้าง chat ใหม่เพื่อไม่ให้มีตัวแปรเรื่องช่วงเวลาที่ใช้ GPT-4 ที่อาจมีผลต่อการตรวจ เพราะจากผลการทดลองตรวจงานเขียนเดียวกันสี่ครั้งในสี่ chat ที่แสดงไว้ข้างบน ก็บ่งชี้ว่าผลการตรวจนั้นแต่ละครั้งได้ไม่เหมือนกันทุกเกณฑ์. จริงๆ ประเด็นนี้ก็เป็นอีกประเด็นที่ควรศึกษาเพิ่มเติมว่า หากตรวจต่างเวลากันแล้ว ChatGPT จะสามารถให้ผลการตรวจที่สม่ำเสมอพอที่จะรับได้หรือไม่ ซึ่งต้องทดลองให้ในการ chat ถามแต่ละครั้งนอกจากให้คะแนนตามเกณฑ์แล้ว ให้แสดงผลการตรวจแก้ไขที่มีการ mark up ข้อผิดออกมาด้วยเพื่อจะได้ตรวจสอบเทียบผลการแก้ไขได้

การตรวจและประเมินงานเขียนในอนาคต

แม้ว่าการใช้ GPT-4 ในการตรวจและประเมินงานเขียนในที่นี้ ยังมีคำถามถึงผลการตรวจว่ามีความเที่ยงและสม่ำเสมอหรือไม่. แต่จากการทดลองนี้ ก็ได้แสดงให้เห็นถึงศักยภาพของ large language model ที่สามารถอ่านเกณฑ์เข้าใจ สามารถอ่านงานเขียนและประเมินตามเกณฑ์ได้ในระดับหนึ่ง ในอนาคตของ LLM อย่าง GPT-5 หรืออื่น ๆ ย่อมต้องมีความสามารถเพิ่มมากขึ้นกว่านี้เป็นทวีคูณ คำถามว่า LLM จะช่วยตรวจและประเมินงานได้จริงไหม คงไม่ใช่คำถามอีกต่อไป

คำถามใหม่น่าจะเป็นว่า หาก LLM ช่วยครูตรวจประเมินและแก้งานให้ได้แล้ว คงไม่ใช่ว่าครูจะสบายขึ้นเพราะมี AI มาช่วยแบ่งงานไป เพราะนักเรียนก็คงคิดว่าตัวเองจะสบายขึ้นเพราะมี AI มาช่วยทำการบ้านส่งให้. แต่การเข้ามาของ AI นี้ ระบบหรือวิถีของการศึกษาที่เป็นอยู่เดิมนี้จะต้องเปลี่ยนไปอย่างไร. อย่างการตรวจประเมินงานเขียนอาจเป็นสิ่งที่ให้นักเรียนทำเองเพื่อหาข้อบกพร่องตัวเองก็ได้ เพราะหากคนตรวจงานจริงคือ AI, จะเป็นครูสั่งให้ AI ตรวจงานหรือนักเรียนสั่งให้ AI ตรวจงาน ผลก็คงไม่แตกต่างกัน. สิ่งที่จะต้องหาคำตอบคือ ในยุคที่ AI ฉลาดมากขึ้นตลอดเวลา จะทำอย่างไรให้นักเรียนได้ประโยชน์สามารถเรียนรู้มากขึ้น และจะทำอย่างไรให้ครูยังมีหน้าที่ มีส่วนช่วยในการเรียนรู้ของนักเรียนอยู่ได้