ข้อมูลภาษากับสถิติ 2 : สถิติพื้นฐาน
สถิติแยกประเภทใหญ่ได้เป็น descriptive statistics กับ inferential statistics. Descriptive statistics เป็นสถิติที่ใช้เพื่ออธิบายข้อมูลทั้งหมดที่รวบรวมมา คือแทนที่จะอธิบายหรือแจกแจงข้อมูลที่รวบรวมมาทีละตัวๆ เราก็ใช้วิธีสรุปภาพรวมของข้อมูลชุดนั้นออกมาเป็นตัวเลขจำนวนหนึ่ง โดยใช้วิธีการอย่างการนับความถี่ (frequency) เพื่อดูการกระจายตัวของข้อมูลที่พบ ใช้การวัดค่ากลางออกมาเป็นตัวแทนข้อมูล (central tendency) อย่างเช่น การหาค่าเฉลี่ยที่เป็นค่า mean. ค่า mode. หรือค่า median เป็นต้น. ค่าสถิติเหล่านี้จะบ่งบอกถึงลักษณะโดยรวมของข้อมูลที่รวบรวมมาได้. ส่วน Inferential statistics เป็นการใช้สถิติเพื่อหาข้อสรุปสำหรับข้อมูลที่มีจำนวนมาก แต่เราไม่สามารถเก็บข้อมูลทั้งหมดได้ จึงต้องเลือกสุ่มตัวอย่างข้อมูล (sample) มาเพื่อใช้เป็นตัวแทน (representative) ของข้อมูลทั้งหมด แล้วสรุปค่าทางสถิติที่ได้จากกลุ่มตัวอย่างนั้นสำหรับอนุมาน (infer) ถึงลักษณะที่คาดว่าจะเป็นของประชากรทั้งหมด (population)
การใช้เชิงพรรณา
สถิติเชิงพรรณาเป็นการใช้สถิติเพื่อหาข้อสรุปเกี่ยวกับข้อมูลทั้งหมดที่รวบรวมมาได้ เช่น กรณีที่เราต้องการเปรียบเทียบผลการเรียนของนักเรียนห้องหนึ่งเทียบกับอีกห้องหนึ่ง เราสามารถแจกแจงผลการเรียนของนักเรียนแต่ละคนในห้องได้ว่ามีจำนวนนักเรียนได้คะแนนสอบในแต่ละช่วงมากน้อยกว่ากันเพียงใดคือดูการกระจายตัวของข้อมูลคะแนน แต่วิธีที่ช่วยให้เห็นภาพเปรียบเทียบโดยง่ายคือการสรุปผลออกมาเป็นค่าตัวเลขกลาง เช่น ค่าเฉลี่ยของคะแนนนักเรียนในแต่ละห้อง ก็จะทำให้เห็นว่าคะแนนเฉลี่ยของนักเรียนแต่ละห้องมากน้อยต่างกันอย่างไร. แต่การดูเฉพาะค่าคะแนนเฉลี่ยอย่างเดียวก็ยังไม่พอ เพราะนักเรียนสองห้องอาจคำนวณค่าคะแนนเฉลี่ยออกมาเท่ากัน แต่นักเรียนห้องแรกอาจมีคะแนนเกาะกลุ่มกันคือนักเรียนส่วนใหญ่ได้คะแนนใกล้เคียงกับค่าเฉลี่ย แต่อีกห้องหนึ่งจะมีนักเรียนที่คะแนนต่างกันมากไม่เกาะกลุ่มคือมีทั้งคนที่ได้คะแนนสูงมากและคนที่ได้คะแนนต่ำมาก แต่เมื่อคำนวณรวมออกมาแล้วได้ค่าเฉลี่ยเท่ากันกับค่าเฉลี่ยของคะแนนจากห้องแรก. กรณีแบบนี้ ค่าเบี่ยงเบนมาตรฐาน (standard deviation) ของคะแนนจากแต่ละห้องจะสะท้อนภาพที่แตกต่างกันนี้ได้ คือห้องแรกที่คะแนนโดยมากเกาะกลุ่มใกล้ค่าคะแนนเฉลี่ยจะมีค่าเบี่ยงเบนมาตรฐานต่ำในขณะที่ห้องที่สองที่มีทั้งคนที่ได้คะแนนมากและคะแนนน้อยจะมีค่าเบี่ยงเบนมาตรฐานสูงกว่า เป็นต้น
การใช้เชิงอนุมาน
ในงานวิจัยส่วนใหญ่แล้ว เรามักไม่สามารถเก็บข้อมูลทั้งหมดได้ หรือไม่ก็เป็นเรื่องยุ่งยากและมีค่าใช้จ่ายสูงเกินไปในการเก็บข้อมูลมาทั้งหมด ในกรณีเช่นนี้ เราจะใช้วิธีการสุ่มตัวอย่าง (sample) มาเพื่อเป็นตัวแทนของประชากรทั้งหมด (population) จากนั้นจะวิเคราะห์ทางสถิติเพื่อให้ได้ค่าที่จะสามารถนำมาอนุมาน (infer) ว่าเป็นคุณสมบัติของประชากรทั้งหมดนั้นในภายหลัง การใช้งานสถิติลักษณะนี้คือที่เรียกว่าสถิติเชิงอนุมานหรือ inferential statistics.
วิธีการที่ใช้ใน inferential statistics แยกออกได้เป็นสองกลุ่ม คือ parameter estimation และ hypothesis testing. สถิติกลุ่ม parameter estimation เป็นการใช้กลุ่มตัวอย่างมาเพื่อประมาณค่าที่ควรจะเป็นของประชากรทั้งหมดนั้น และเนื่องจากเป็นการประมาณค่าจึงมีโอกาสที่จะผิดพลาดได้ ในทางสถิติจึงจะต้องพูดถึงระดับความเชื่อมั่น (confidential interval) ไปด้วย เช่น ถ้าหาค่าเฉลี่ย (mean) จากกลุ่มตัวอย่างมาได้ ก็จะต้องบอกว่า 95% confidence interval หรือระดับความมั่นใจว่าค่าเฉลี่ยที่ถูกต้องอย่างน้อย 95% นั้นจะอยู่ภายในช่วงค่าใดซึ่งก็จะเป็นตัวเลขค่าเฉลี่ยบวกลบค่าตัวเลขช่วงหนึ่ง
สถิติกลุ่ม hypothesis testing เป็นการใช้วิธีการทางสถิติเพื่อหาความสัมพันธ์ระหว่างตัวแปร dependent กับ independent. (independent variable หรือตัวแปรต้นเป็นตัวที่เราคิดว่าเป็นเหตุที่ทำให้มีผลต่อ dependent variable หรือตัวแปรตาม เช่น เราอาจคิดว่า เพศมีผลต่อความยาวของประโยคที่พูด เพศก็เป็นตัวแปรต้น ความยาวของประโยคก็จะเป็นตัวแปรตาม) สถิติกลุ่มนี้ยังแยกออกเป็น parametric testing กับ non-parametric testing
hypothesis testing จะมี null hypothesis ที่ตรงข้ามกับสิ่งที่เราคิด. เราทดสอบสถิติเพื่อจะ reject null hypothesis นี้ แล้วจะได้ยอมรับ alternative hypothesis ซึ่งเป็นสิ่งที่เราคาดว่าควรจะเป็น. กล่าวคือ เราคาดว่าจะมีความสัมพันธ์ระหว่างตัวแปรที่เราต้องการศึกษาอยู่ แต่เราจะตั้ง null hypothesis ว่าไม่มีความสัมพันธ์ระหว่างตัวแปรดังกล่าวเพื่อที่จะปฏิเสธ null hypothesis นั้น. เหตุที่ทางสถิติเราจะตั้งสมมติฐานแบบนี้ ก็เพราะการตั้งสมมติฐานแบบ null hypothesis จะพิสูจน์ว่าไม่จริงได้ง่ายกว่า. ตัวอย่างเช่น สมมติว่าเราตั้งสมมติฐานว่ามีหนูอยู่ในบ้าน การที่เราเดินเข้าไปดูในบ้านหลายๆ ครั้งก็ยังไม่พบหนูในบ้านก็ยังไม่เป็นเหตุเพียงพอที่จะปฏิเสธสมมติฐานนี้ได้ เพราะจริงๆ หนูอาจจะออกมาในเวลาที่เราหลับหรือไม่ได้เฝ้ามอง แต่ถ้าเราตั้งสมมติฐานว่าไม่มีหนูอยู่ในบ้าน เราสามารถปฏิเสธสมมติฐานนี้ได้ทันทีหากเราพบเห็นหนูสักตัวหนึ่ง. ดังนั้น เวลาที่เราตั้งสมมติฐานว่าไม่มีความสัมพันธ์ใดๆ แต่ในข้อมูลมีสิ่งชี้ให้เห็นว่ามีความสัมพันธ์บางอย่างอยู่ เราก็จะปฏิเสธสมมติฐานว่าไม่มีความสัมพันธ์ได้ การตั้งสมมติฐานแบบที่สองจึงเหมาะสมกว่า สิ่งนี้สะท้อนให้เห็นหลักการสำคัญที่ Crawley (2005: Kindle Locations 305–306) กล่าวไว้ “absence of evidence is not evidence of absence” [1]
อย่างไรก็ตาม การทดสอบสมมติฐานนี้เป็นการสรุปจากกลุ่มตัวอย่างที่เราสังเกตุเท่านั้น จึงเป็นไปได้ว่าอาจมีความผิดพลาดได้ ซึ่งความผิดพลาดเป็นได้สองลักษณะ. ลักษณะแรกคือเราปฏิเสธสมมติฐานโดยที่สมมติฐานนั้นเป็นจริง ทางสถิติจะเรียกว่าเป็น Type I error. อีกลักษณะหนึ่งคือเราควรจะปฏิเสธสมมติฐานนั้นแต่เราไม่ได้ทำ ทางสถิติเรียกว่าเป็น Type II error. มีตัวอย่างที่มีคนเปรียบเทียบว่า Type I error เหมือนกับการบอกผู้หญิงท้องว่าไม่ได้ตั้งครรภ์. ส่วน Type II error เหมือนกับการบอกกับผู้ชายว่าเขากำลังตั้งครรภ์. ในเวลาที่เราทดสอบ null hypothesis นี้เราจะดูค่าความน่าจะเป็นเพื่อบอกถึงความมั่นใจในการปฏิเสธสมมติฐานด้วย. โดยทั่วไปจะใช้ค่าความน่าจะเป็นน้อยกว่า 0.05 ซึ่งบ่งบอกความมั่นใจได้อย่างน้อย 95% ที่จะปฏิเสธสมมติฐานนั้น
ประเภทข้อมูลทางสถิติ
เนื่องจากสถิติที่เราจะใช้นั้นมีหลากหลาย การจะเลือกใช้สถิติตัวไหนนั้นขึ้นกับชนิดของข้อมูล ข้อมูลที่ใช้ในทางสถิติแบ่งเป็นประเภทต่างๆ ได้แก่ nominal, ordinal, interval, ratio
• nominal คือ ข้อมูลที่สามารถจัดเป็นกลุ่มหรือ categorize ได้ว่าเป็นอะไร เช่น คำตอบว่า Yes-No, เพศชาย-เพศหญิง
• ordinal เป็นข้อมูลที่มีการเรียงลำดับจากน้อยไปมาก แต่ตัวเลขไม่ได้มีค่าที่แท้จริงอยู่ เช่น scale 1–5 อาจใช้เป็น 0–4 ก็ได้ ช่วงห่างระหว่าง 1–2, กับ 2–3 ไม่ได้มีนัยยะว่ามีความแตกต่างเท่ากัน
• interval มีลักษณะของการเป็น scale ที่แต่ละช่วงห่างมีความหมายเท่าๆกัน เพียงแต่ว่าค่า ตัวเลขที่เป็นศูนย์ไม่ได้มีความหมายเป็นศูนย์แบบสมบูรณ์ (absolute zero) ตัวอย่างเช่น scale การวัดอุณหภูมิ ตัวเลข 30 องศาไม่ได้มีความหมายว่าร้อนเป็นสองเท่าของ 15 องศา
• ratio คือค่า scale ของตัวเลขที่มีค่าศูนย์แบบสมบูรณ์ ตัวอย่างเช่น scale ของการวัดอุณหภูมิที่มีหน่วยเป็น kelvin คะแนนสอบของนักเรียน เป็นต้น
แม้ว่าในหนังสือสถิติโดยทั่วไปจะแยกข้อมูลออกเป็นสี่ประเภทนี้ แต่ในการพิจารณา เราจะมองข้อมูลเป็นสองกลุ่ม คือกลุ่มที่เป็นเหมือนป้าย label (nominal, ordinal) ซึ่งสถิติที่ใช้กับข้อมูลกลุ่มนี้เรียกว่า non-parametric test เช่น Chi-square, Mann-Whitney U-test, Wilcoxon ranked test, Kruskal–Wallis test กับกลุ่มที่เป็นเหมือนตัวเลขวัด numeric (interval, ratio) ซึ่งสถิติที่ใช้กับข้อมูลกลุ่มนี้เรียกว่า parametric test เช่น t-test, z test, anova
โดยทั่วไปแล้ว การใช้สถิตินั้นเป็นวิธีการใช้เครื่องมือเพื่อช่วยยืนยันความคิดหรือสมมติฐานบางอย่างที่เราคาดไว้ เช่น เรามองเห็นหรือคาดว่าน่าจะมีความสัมพันธ์ระหว่างตัวแปรต่าง ๆ ซึ่งความสัมพันธ์นั้นมีคำอธิบายในเชิงหลักการหรือแนวคิดทฤษฎีบางอย่างได้ เราจึงได้ใช้วิธีการทางสถิติที่เหมาะสมกับข้อมูลที่ศึกษาเพื่อช่วยยืนยันความสัมพันธ์ที่มีอยู่นั้นจากข้อมูลที่เก็บมาศึกษา สถิติจึงมักใช้เป็นเครื่องมือเพื่อช่วยยืนยันถึงการมีอยู่ของความสัมพันธ์บางอย่างที่เราสามารถให้คำอธิบายได้. เราไม่ควรใช้วิธีการทางสถิติจับดูความสัมพันธ์ใดๆ แล้วเมื่อเห็นว่าได้ค่าที่มีนัยสำคัญทางสถิติแล้วก็มาสรุปว่าตัวแปรเหล่านั้นมีความสัมพันธ์ต่อกันโดยที่ไม่มีเหตุผลหรือคำอธิบายที่ดีพอว่าทำไมจึงมีความสัมพันธ์กัน เช่น สมมติว่าเราเก็บข้อมูลความสูงของคนกับความนิยมในการใส่เสื้อสีต่างๆ มาคำนวณด้วยวิธีการทางสถิติบางอย่างแล้วพบว่ามีความสัมพันธ์ต่อกัน ก็ไม่ได้หมายความว่า ความสูงของคนจะมีผลต่อการเลือกใส่เสื้อสีต่างๆ ตราบเท่าที่เรายังไม่สามารถหาเหตุผลอะไรที่จะนำมาใช้อธิบายความสัมพันธ์นี้ได้ เป็นต้น
ในตอนต่อไป เราจะได้พูดถึงการใช้สถิติต่างๆ กับข้อมูลภาษา
NEXT : ข้อมูลภาษากับสถิติ 3 : การใช้ข้อมูล
อ้างอิง
[1] Crawley, Michael J. (2005). Statistics: An Introduction Using R. 1st ed. Wiley.