ความสัมพันธ์ในข้อมูลสองตัวแปร

สัมประสิทธิ์สหสัมพันธ์ - การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์

สัญลักษณ์แทนค่าสัมประสิทธิ์สหสัมพันธ์ คือ r
เมื่อรวบรวมข้อมูลของตัวแปร x และ y มาจำนวน n คู่ คือ (x1 , y1) , (x2 , y2) , … , (xn , yn) ก็จะคำนวณค่าสัมประสิทธิ์สหสัมพันธ์จากข้อมูลตามสูตรดังนี้


เมื่อ และ เป็นค่าเฉลี่ยของข้อมูล x และ y ตามลำดับ

ในปัจจุบัน สามารถคำนวณค่า r ได้ง่ายด้วยเครื่องคิดเลขที่มีฟังก์ชันเฉพาะสำหรับคำนวณ หรือถ้าให้สะดวกยิ่งขึ้นก็ใช้ซอฟต์แวร์คอมพิวเตอร์ เช่น โปรแกรม EXCEL ซึ่งจะมีคำสั่ง Correlation ให้เลือกใช้

จากตัวอย่างในเรื่องความสัมพันธ์ในข้อมูลเชิงคุณภาพ ซึ่งเป็นข้อมูลเกี่ยวกับ GPA และคะแนน GMAT ของผู้สมัครเข้าศึกษาต่อระดับปริญญาโทสาขาวิชาบริหารธุรกิจ จะเห็นความสัมพันธ์ทางบวกระหว่างคะแนนทั้งสองในแผนภาพการกระจายในภาพ และลักษณะความสัมพันธ์ค่อนข้างเป็นเส้นตรง แต่มีการกระจายของจุดรอบเส้นตรงพอสมควร ค่าสัมประสิทธ์สหสัมพันธ์ที่คำนวณได้จากโปรแกรม EXCEL เท่ากับ 0.6446 นั่นคือ ผลการเรียนในระดับปริญญาตรีและคะแนน GMAT มีความสัมพันธ์กันเชิงเส้นตรงในทางบวกระดับปานกลาง

 
สัมประสิทธิ์สหสัมพันธ์ - ความหมายของสหสัมพันธ์

การแปลความหมายของค่าสัมประสิทธิ์สหสัมพันธ์มีข้อที่ควรระวัง ค่าสหสัมพันธ์ 0.80 ไม่ได้หมายความว่า จุดจำนวน 80% จะเกาะกลุ่มแน่นใกล้เส้นตรง และก็ไม่ได้หมายความว่า การเกาะกลุ่มของจุดจะมีลักษณะคล้ายเส้นตรงเป็นสองเท่าของกรณีค่าสหสัมพันธ์ 0.40

ภาพ 9. แผนภาพการกระจายของข้อมูล 2 ชุดที่ไม่ควรใช้ค่า r วัดระดับความสัมพันธ์

สัมประสิทธิ์สหสัมพันธ์ r เป็นดัชนีแสดงระดับความสัมพันธ์เชิงเส้นตรง หรือการเกาะกลุ่มของจุดรอบแนวเส้นตรงเท่านั้น กรณีความสัมพันธ์ที่ไม่ใช่เชิงเส้นตรงไม่เหมาะสมที่จะใช้ r เป็นดัชนีแสดงระดับความสัมพันธ์ ภาพที่ 9 (ซ้าย) แสดงให้เห็นความสัมพันธ์แบบเส้นโค้งระหว่างตัวแปร x และ y เช่น น้ำหนักและอายุของผู้ชายมีความเกี่ยวข้องกัน น้ำหนักเพิ่มขึ้นตามอายุจนถึงจุดหนึ่งแล้วจึงลดลง แม้ว่าความเกี่ยวข้องระหว่าง x และ y จะเห็นได้ค่อนข้างชัดเจน แต่ r ก็มีค่าน้อยมาก ภาพที่ 9 (ขวา) แสดงให้เห็นการเกาะกลุ่มของจุด ที่แบ่งเป็น 2 กลุ่ม ค่า r มีค่าสูง ทั้ง ๆ ที่ในแต่ละกลุ่มไม่มีความสัมพันธ์ระหว่าง x และ y

นั่นคือ ค่าสัมประสิทธิ์สหสัมพันธ์ r จะน่าเชื่อถือและแสดงระดับความสัมพันธ์ได้ ก็ต่อเมื่อลักษณะความสัมพันธ์เป็นแบบเส้นตรง ดังนั้นก่อนคำนวณค่า r ควรพิจารณาแผนภาพการกระจายทุกครั้ง เพื่อตรวจสอบว่าความเกี่ยวข้องสัมพันธ์นั้นเป็นเส้นตรงหรือไม่
ความสัมพันธ์ระหว่างตัวแปรไม่จำเป็นต้องอยู่ในลักษณะเหตุและผล เมื่อเหตุการณ์หนึ่งทำให้เกิดอีกเหตุการณ์หนึ่ง จะกล่าวได้ว่าสองเหตุการณ์นั้นสัมพันธ์กัน แต่ทว่า เมื่อสองเหตุการณ์สัมพันธ์กันไม่อาจสรุปว่าเหตุการณ์หนึ่งเป็นสาเหตุของอีกเหตุการณ์หนึ่ง ตัวอย่างเช่น ในช่วง ค.ศ. 1950 พบว่า ในระหว่างเดือนที่มีการบริโภคน้ำอัดลมสูง พบผู้ป่วยด้วยโรคโปลิโอมาก นั่นคือมีความสัมพันธ์ระหว่างการบริโภคน้ำอัดลมและการป่วยเป็นโรคโปลิโอ แต่การดื่มน้ำอัดลมไม่ได้ทำให้ป่วยเป็นโรคโปลิโอ สิ่งที่เกิดขึ้นคือ ในฤดูร้อนที่อากาศร้อนสองตัวแปรนี้ต่างมีค่าเพิ่มขึ้นและในช่วงเดือนอื่นที่อากาศเย็นลง ทั้งสองตัวแปรมีค่าลดลง จำนวนผู้ป่วยเป็นโรคโปลิโอและยอดขายน้ำอัดลมจึงมีสหสัมพันธ์กันสูง หรืออีกตัวอย่างหนึ่งได้แก่ นักเศรษฐศาสตร์พบว่าสหสัมพันธ์ระหว่างดัชนีค่าครองชีพและอายุของลูกสาวของเขามีค่าสูงใกล้ 1 มาก แต่ไม่มีเหตุผลใด ๆ ที่จะทำให้เชื่อว่าเหตุการณ์ใดเหตุการณ์หนึ่งเป็นสาเหตุของอีกเหตุการณ์ เป็นต้นว่า การเพิ่มขึ้นของค่าครองชีพไม่ได้เป็นเหตุให้ลูกสาวของเขามีอายุเพิ่มขึ้นอย่างแน่นอน
การที่ตัวแปร x และ y มักมีค่าแปรผันไปพร้อมกัน ซึ่งอาจเป็นในทิศทางเดียวกันหรือสวนทางกัน ไม่ได้หมายความว่า ตัวแปรสองตัวนี้ต้องมีความเกี่ยวพันกันเองโดยตรง อาจเป็นไปได้ว่า x และ y ไม่เกี่ยวข้องกันเลย แต่ต่างไปสัมพันธ์กับตัวแปรอื่น ซึ่งตัวแปรตัวที่สามนี้มีอิทธิพลทำให้ตัวแปร x และ y เปลี่ยนค่าไปพร้อมกัน ดังนั้นจึงดูเสมือนว่าตัวแปร x และ y มีความสัมพันธ์กัน เช่น ค่าครองชีพสูงขึ้นในแต่ละปี และอายุของเด็กก็มากขึ้นในแต่ละปีด้วยทำให้ดัชนีค่าครองชีพและอายุของเด็กมีสหสัมพันธ์ในทางบวก


ที่มา: เอกสารประกอบการสอน มหาวิทยาลัยเกษตรศาสตร์ 2542, วิชาบูรณาการ
หมวดการศึกษาทั่วไป รหัสวิชา 999211 คณิตศาสตร์และคอมพิวเตอร์ในชีวิตประจำวัน