ChatGPT : ช่วยตรวจและประเมินงานเขียนได้?

Wirote Aroonmanakun
3 min readSep 18, 2023

--

ChatGPT เป็น large language model ที่มีความสามารถทางภาษา สามารถเขียนงานในรูปแบบต่าง ๆ ได้ สามารถตรวจแก้ภาษาและช่วยเขียนให้เราใหม่ได้ สำหรับครูผู้สอนการเขียน จึงอาจมีคำถามว่าแล้ว ChatGPT จะช่วยในการตรวจประเมินงานเขียนให้เราได้ไหม ในการตรวจ เรามักมีเกณฑ์การตรวจอยู่แล้วว่าให้พิจารณาเรื่องอะไรบ้าง คะแนนในแต่ละส่วนมีเท่าไร ถ้าให้ ChatGPT ใช้เกณฑ์นี้แทนเรา ตรวจแก้และให้คะแนนจะเป็นไปได้ไหม และถ้าเป็นไปได้ เราสามารถโหลดไฟล์งานเขียนนักเรียนทั้งหมดเข้าไป แล้วให้ ChatGPT ตรวจแก้ให้คะแนนจนแล้วเสร็จ ค่อยให้เราโหลดผลที่ได้ออกมา แบบนี้จะทำได้ไหม

เกณฑ์การตรวจให้คะแนน

เริ่มต้นด้วยการให้เกณฑ์การตรวจที่ต้องการใช้ ในที่นี้เลือกปรับเกณฑ์จากที่มีเผยแพร่และเลือกใช้เกณฑ์ที่ซับซ้อนเพื่อทดสอบว่า ChatGPT จะเข้าใจและใช้เกณฑ์ที่ซับซ้อนนี้ได้ไหม (เกณฑ์แบบอื่นที่พบดูใช้ง่ายกว่านี้)

ดัดแปลงเกณฑ์จาก https://www.sandhills.edu/wp-content/uploads/2019/03/Criteria-for-Evaluating-an-Essay.pdf

เมื่อใช้ Advanced Data Analysis

เมื่อ ChatGPT ทวนเกณฑ์ที่ให้และบอกว่าเข้าใจและใช้ได้ ก็ดำเนินการต่อ โดยบอกว่า เขาต้องทำหน้าที่เป็นผู้ช่วยครู ให้อ่านงานเขียนนักเรียน mark up ข้อผิดที่พบ ใช้เกณฑ์ที่ให้ไปตรวจงานและให้คำแนะนำในการแก้ไขที่ชัดเจนเป็นประโยชน์ และให้คะแนนที่ได้สำหรับเกณฑ์แต่ละข้อ เสร็จแล้วให้สร้างเป็นไฟล์ให้ download ออกมา

เมื่อให้ข้อมูลงานเขียนไป ChatGPT ก็ใช้ Advanced Data Analysis อ่านไฟล์และวิเคราะห์ให้จนเสร็จ ซึ่งดูน่าจะใช้ได้ แต่เมื่อลองเปิดดูข้อมูลในไฟล์ที่ได้ออกมา ก็เห็นว่าไม่ได้ผลแบบที่ควรจะได้ คือเหมือน ChatGPT ไม่สามารถตรวจงานและให้คะแนนได้จริง

เมื่อใช้เพียง GPT-4 ในการตรวจประเมินงาน

ปัญหาที่พบนั้นน่าจะมาจากการใช้ Advanced Data Analysis (ADA) ซึ่งโดยหลักเหมาะสำหรับใช้กับงานวิเคราะห์ข้อมูลทั่วไปที่สามารถประมวลผลด้วยภาษา Python ได้ เพราะ ADA จะเขียนโปรแกรมขึ้นมาเพื่อทำงานต่าง ๆ ในที่นี้จึงเหมือนเขียนโปรแกรม python มาเพื่อตรวจงาน. ในกรณีนี้เราต้องการให้ ChatGPT ช่วยตรวจงานโดยใช้ความสามารถทางภาษาของ GPT-4 จึงควรเลี่ยงการใช้ Advanced Data Analysis

เมื่อป้อนข้อมูลงาน essay ไปโดยตรง ChatGPT ก็ใช้ GPT-4 อ่านและประเมินงานออกมาโดยใช้เกณฑ์ที่ให้ จากนั้นลองให้เอาผลที่ได้สร้างเป็นไฟล์ให้ดาวน์โหลดออกมาอีกที

แม้ว่า GPT-4 ดูจะทำงานตามที่หวังได้ แต่พอให้สร้างไฟล์ออกมา ไฟล์นั้นกลับไม่มีข้อมูลการแก้ไขงานเขียนทั้งหมดแบบที่ต้องการ จึงได้ลองสั่งใหม่ ให้แสดงงานที่แก้ไขพร้อมกับ markup ข้อผิดออกมาให้ดูก่อน ซึ่ง ChatGPT ก็สามารถแสดงงานที่ถูกแก้ไขและ markup ออกมาให้ได้ครบทั้งหมดตามต้องการ เพียงแต่ไม่ว่าเราจะสั่งให้เก็บข้อมูลลงไฟล์อย่างไร ก็ดูจะมีปัญหาไม่สามารถเก็บงานที่แก้ไขนั้นออกมาได้. จุดนี้ ทำให้เห็นว่า เราไม่ควรใช้ Advanced Data Analysis ในการตรวจแก้และประเมินภาษาในงานเขียน. ให้ใช้ GPT-4 ทั้งหมดโดยไม่เรียก ADA น่าจะดีกว่า คือ ให้อ่านเกณฑ์คะแนนจากที่ copy ไปให้ แล้ว copy งานเขียนนั้นมาให้ ChatGPT อ่านโดยตรง เพื่อบังคับให้ใช้ GPT-4 ตรวจแก้และประเมินงาน และให้แสดงผลออกมาภายใน chat นั้น เมื่อได้ผลที่ต้องการแล้ว จึง copy ผลที่ได้ไปใช้ต่อ. แน่นอนว่า วิธีนี้ทำให้เราไม่สามารถตรวจงานเขียนนักเขียนพร้อมกันทีเดียวหลาย ๆ งานได้ เพราะต้องทำทีละงานโดยการ copy-paste ไปเรื่อย ๆ แต่วิธีนี้ก็เป็นวิธีที่ทำให้เรามั่นใจว่าการตรวจแก้นั้นได้มาจากการใช้ความสามารถทางภาษาของ GPT-4

การตรวจประเมินเชื่อถือได้หรือไม่

คำถามต่อไปคือผลการตรวจของ GPT-4 นั้นเชื่อถือได้เพียงใด ในที่นี้จะลองวิธีง่ายสุด คือ นำเอางานเขียนชิ้นเดียวกันมาทดลองให้ GPT-4 ตรวจแก้ให้คะแนนในคนละ chat หรือคือการตรวจหลายครั้งแต่ต่างเวลากัน ทำให้ได้ผลการตรวจงานเดิมครั้งที่ 2–4 มาเทียบดังนี้

ผลการตรวจงานเขียนเดิมครั้งที่สอง

ผลการตรวจงานเขียนเดิมครั้งที่สาม

ผลการตรวจงานเขียนเดิมครั้งที่สี่

ผลการตรวจงานเดิมสี่ครั้งได้คะแนนไม่เหมือนกันทีเดียวคือได้ 48, 67, 46, และ 55 คะแนนตามลำดับ. การตรวจครั้งที่สองได้คะแนนมากเพราะการหักคะแนนข้อผิดน้อยกว่าครั้งอื่น คือ หักไปเพียง 8 คะแนน ขณะที่ครั้งที่ 1,3,4 หักคะแนน 31,18,15 ตามลำดับ ซึ่งแสดงถึงความต่างกันของการตรวจพอสมควรเมื่อตรวจคนละเวลากัน

หากคิดว่า เป็นเพราะตรวจคนละเวลา GPT-4 ก็อาจเหมือนคนตรวจบางคนคือตรวจได้ไม่สม่ำเสมอแล้วแต่เวลา ดังนั้น ถ้าลองตรวจต่อเนื่องคือให้ตรวจงานเขียนที่ต่างกันเลย ในการทดลองตรวจครั้งที่สี่จึงได้ลองใช้เกณฑ์เดียวกันนี้ตรวจงานเขียนอื่นอีกสามชิ้น ได้ผลดังนี้ (สามารถดูรายละเอียด chat ใน link “Essay Evaluation and Feedback”)

งาน 1 : Despite claims to the contrary, computers and other forms of digital technology are weakening human relationship. (55/100 ถูกหักข้อผิด 15 คะแนน)
งาน 2 : Cruelty to Animals (56/100 ถูกหักข้อผิด 13 คะแนน)
งาน 3 : My idea of a fun weekend (36/100 ถูกหักข้อผิด 23 คะแนน)
งาน 4 : Enjoy the art of almost doing nothing (69/100 ไม่ถูกหักข้อผิด)

งานชิ้นสอง เป็นงานเขียนนักเรียนระดับเดียวกัน. งานชิ้นที่สามมาจากนักเรียนคนละระดับ ความเรียงสั้นกว่าและมีที่ผิดมาก. งานชิ้นที่สี่ เป็นบทความเผยแพร่ใน Bangkok Post จึงเป็นงานเขียนที่ผ่านการตรวจแก้มาแล้ว คะแนนจึงสูงสุดและไม่มีการหักคะแนนข้อผิดเลย

ผลการตรวจหากตรวจใน chat เดียวกันนี้ ก็ดูเหมือนช่วงคะแนนที่ได้ก็บอกความต่างของงานได้อยู่ แต่หากดูการสั่งใช้งานจริง จะเห็นว่า ChatGPT จะหลุดไม่ใช้เกณฑ์ที่ให้ ต้องคอยย้ำว่าให้ใช้เกณฑ์เดิมแล้วก็ copy เกณฑ์ให้ดูใหม่ จึงจะทำได้ตามต้องการ. ส่วนการตรวจนั้นใช้ได้จริงไหม ในขั้นนี้ ยังเป็นคำถามที่ไม่สามารถตอบได้ จำเป็นต้องศึกษาวิจัยจริงจังเพื่อตอบคำถามนี้ คืออาจต้องให้ครูที่สอนการเขียนลองใช้ ChatGPT ตรวจงานควบคู่ไปกับการตรวจด้วยตัวเอง โดยใช้เกณฑ์การให้คะแนนที่ใช้อยู่จริง แล้วมาวิเคราะห์ผลว่าคะแนนที่ได้จาก GPT-4 ว่าสัมพันธ์กับคะแนนที่ครูตรวจเองหรือไม่โดยคำนวณค่า correlation ที่ได้ และควรตรวจให้แล้วเสร็จภายใน chat เดียวโดยไม่หยุดใช้งานเลย ไม่สร้าง chat ใหม่เพื่อไม่ให้มีตัวแปรเรื่องช่วงเวลาที่ใช้ GPT-4 ที่อาจมีผลต่อการตรวจ เพราะจากผลการทดลองตรวจงานเขียนเดียวกันสี่ครั้งในสี่ chat ที่แสดงไว้ข้างบน ก็บ่งชี้ว่าผลการตรวจนั้นแต่ละครั้งได้ไม่เหมือนกันทุกเกณฑ์. จริงๆ ประเด็นนี้ก็เป็นอีกประเด็นที่ควรศึกษาเพิ่มเติมว่า หากตรวจต่างเวลากันแล้ว ChatGPT จะสามารถให้ผลการตรวจที่สม่ำเสมอพอที่จะรับได้หรือไม่ ซึ่งต้องทดลองให้ในการ chat ถามแต่ละครั้งนอกจากให้คะแนนตามเกณฑ์แล้ว ให้แสดงผลการตรวจแก้ไขที่มีการ mark up ข้อผิดออกมาด้วยเพื่อจะได้ตรวจสอบเทียบผลการแก้ไขได้

การตรวจและประเมินงานเขียนในอนาคต

แม้ว่าการใช้ GPT-4 ในการตรวจและประเมินงานเขียนในที่นี้ ยังมีคำถามถึงผลการตรวจว่ามีความเที่ยงและสม่ำเสมอหรือไม่. แต่จากการทดลองนี้ ก็ได้แสดงให้เห็นถึงศักยภาพของ large language model ที่สามารถอ่านเกณฑ์เข้าใจ สามารถอ่านงานเขียนและประเมินตามเกณฑ์ได้ในระดับหนึ่ง ในอนาคตของ LLM อย่าง GPT-5 หรืออื่น ๆ ย่อมต้องมีความสามารถเพิ่มมากขึ้นกว่านี้เป็นทวีคูณ คำถามว่า LLM จะช่วยตรวจและประเมินงานได้จริงไหม คงไม่ใช่คำถามอีกต่อไป

คำถามใหม่น่าจะเป็นว่า หาก LLM ช่วยครูตรวจประเมินและแก้งานให้ได้แล้ว คงไม่ใช่ว่าครูจะสบายขึ้นเพราะมี AI มาช่วยแบ่งงานไป เพราะนักเรียนก็คงคิดว่าตัวเองจะสบายขึ้นเพราะมี AI มาช่วยทำการบ้านส่งให้. แต่การเข้ามาของ AI นี้ ระบบหรือวิถีของการศึกษาที่เป็นอยู่เดิมนี้จะต้องเปลี่ยนไปอย่างไร. อย่างการตรวจประเมินงานเขียนอาจเป็นสิ่งที่ให้นักเรียนทำเองเพื่อหาข้อบกพร่องตัวเองก็ได้ เพราะหากคนตรวจงานจริงคือ AI, จะเป็นครูสั่งให้ AI ตรวจงานหรือนักเรียนสั่งให้ AI ตรวจงาน ผลก็คงไม่แตกต่างกัน. สิ่งที่จะต้องหาคำตอบคือ ในยุคที่ AI ฉลาดมากขึ้นตลอดเวลา จะทำอย่างไรให้นักเรียนได้ประโยชน์สามารถเรียนรู้มากขึ้น และจะทำอย่างไรให้ครูยังมีหน้าที่ มีส่วนช่วยในการเรียนรู้ของนักเรียนอยู่ได้

--

--

No responses yet