ความสัมพันธ์ในข้อมูลสองตัวแปร

สัมประสิทธิ์สหสัมพันธ์

วิธีการทางสถิติที่ใช้ในการศึกษาความสัมพันธ์ระหว่างตัวแปรเริ่มต้นขึ้นโดย Sir Francis Galton นักพันธุศาสตร์ชาวอังกฤษ ซึ่งมีชีวิตในช่วงปี ค.ศ.1822-1911 เป็นที่ทราบกันดีว่า บุตรมีส่วนละม้ายคล้ายคลึงกับบิดามารดา Galton จึงต้องการทราบว่าความคล้ายคลึงนี้มีมากเพียงใด บุตรจะมีลักษณะแตกต่างไปจากบิดามารดาได้เพียงใด นักสถิติในประเทศอังกฤษต่างสนใจในคำถามนี้ และได้รวบรวมข้อมูลจำนวนมากเพื่อศึกษาหาคำตอบของคำถามนี้

Karl Pearson เป็นผู้หนึ่งที่ศึกษาเรื่องความคล้ายคลึงกันของสมาชิกในครอบครัว ในปี ค.ศ. 1903 เขาวัดความสูงของบิดาจำนวน 1,078 คน และความสูงของบุตรชายคนหนึ่งที่เติบโตเต็มที่ของบุคคลเหล่านี้ นำความสูงของบิดาและบุตรจำนวน 1,078 คู่นี้ มาสร้างแผนภาพการกระจายดังภาพที่ 1 โดยกำหนดแกนนอนหรือแกน x แทนความสูงของบิดา แกนตั้งหรือแกน y แทนความสูงของบุตรชาย และแต่ละจุดแทนคู่บิดาและบุตรชายหนึ่งคู่

จากภาพ 1 แสดงให้เห็นความเกี่ยวข้องกันระหว่างสองตัวแปรคือความสูงของบิดาและความสูงของบุตรชาย โดยจะเห็นกลุ่มของจุดที่เอียงสูงขึ้นทางด้านขวามือ กล่าวคือ ค่า y ของจุดส่วนใหญ่จะเพิ่มขึ้นตามค่า x ที่เพิ่มขึ้น หมายความว่า บิดาที่สูงมักจะมีบุตรชายที่สูงด้วย นักสถิติกล่าวถึงลักษณะเช่นนี้ว่า ความสูงของบิดาและบุตรชายมีสหสัมพันธ์กันในทางบวก

คำว่า สหสัมพันธ์ (correlation) แยกเป็นคำ 2 คำ คือ สห ซึ่งหมายถึง ร่วมกันหรือด้วยกัน และความสัมพันธ์ หมายถึง ความเกี่ยวข้องกัน เมื่อเหตุการณ์ 2 เหตุการณ์ที่โดยปกติมักเกิดขึ้นพร้อมกัน จะบอกว่าสองเหตุการณ์นั้นมีสหสัมพันธ์กัน เช่น คนผมสีดำและตาสีน้ำตาล คนผมสีทองและตาสีฟ้า นอกจากนี้ เมื่อมีการเปลี่ยนแปลงในเหตุการณ์หนึ่ง ก็มักเกิดการเปลี่ยนแปลงในอีกเหตุการณ์หนึ่งควบคู่กัน เช่น เมื่อเด็กสูงขึ้น เขาน่าจะมีน้ำหนักเพิ่มขึ้น
สหสัมพันธ์มี 2 แบบ คือ สหสัมพันธ์ทางบวกและสหสัมพันธ์ทางลบ สหสัมพันธ์ทางบวกหมายถึง เมื่อตัวแปรตัวหนึ่งมีค่าเพิ่มขึ้น อีกตัวแปรมีค่าเพิ่มขึ้นตาม ส่วนสหสัมพันธ์ทางลบ หมายถึง เมื่อตัวแปรตัวหนึ่งมีค่าเพิ่มขึ้น อีกตัวแปรจะมีค่าลดลง ภาพ 2 แสดงตัวอย่างของสหสัมพันธ์ทางบวกและลบของความสูงและน้ำหนักตัวของคน

เมื่อทราบจากแผนภาพการกระจายว่าตัวแปรมีสหสัมพันธ์กัน สิ่งที่ควรทราบเพิ่มเติมคือ ความเกี่ยวข้องสัมพันธ์นั้นมีมากหรือน้อยเพียงใด ในเรื่องนี้แผนภาพการกระจายจะสามารถบอกได้ในระดับหนึ่ง เมื่อกล่าวถึงบิดาที่สูง 72 นิ้ว อาจคาดได้ว่าบุตรชายจะสูง 72 นิ้วด้วย ในทำนองเดียวกัน ถ้าบิดาสูง 68 นิ้ว คาดว่าบุตรชายควรสูง 68 นิ้ว หรือถ้าบิดาสูง 70 นิ้ว บุตรชายก็น่าจะสูง 70 นิ้ว นั่นคือ หากนำความสูงของบิดาและบุตรชายคู่ต่าง ๆ เหล่านี้มาลงจุดในแผนภาพ จุดจะตกบนเส้นตรงที่ทำมุม 45o กับแกนนอน เส้นตรงนี้เป็นเส้นที่แสดงว่าความสูงของบุตรชายเท่ากับความสูงของบิดา โดยมีสมการเป็น y = x ดังแสดงไว้ในภาพที่ 1
ฉะนั้นถ้าคิดว่าความสูงของบุตรชายควรใกล้เคียงกับความสูงของบิดา หมายความว่า จุดต่าง ๆ บนแผนภาพการกระจายควรตกใกล้กับเส้นตรงเส้นนี้ ซึ่งจากภาพที่ 1 จะเห็นครอบครัวส่วนใหญ่มีจุดตกกระจายรอบ ๆ เส้น บ้างก็ห่างจากเส้นตรงมาก บ้างก็อยู่ใกล้เคียง แสดงว่าความสูงของบุตรชายต่างจากความสูงของบิดาไม่มากก็น้อย

การกระจายของจุดในแผนภาพการกระจายแสดงถึงความมากหรือน้อยของความสัมพันธ์ระหว่างความสูงของบิดาและบุตรชาย การทราบความสูงของบิดาช่วยให้คาดเดาความสูงของบุตรชายได้ เพราะความสูงของบิดาและบุตรชายมีความสัมพันธ์กัน
แต่การคาดคะเนก็ไม่ถูกต้องแน่นอน ยังมีความผิดพลาดเกิดขึ้นได้ เพราะบุตรชายที่มีบิดาสูงเท่ากันหลายคนก็มีความสูงแตกต่างกัน ลองพิจารณาบิดาที่สูงประมาณ 72 นิ้ว ในภาพที่ 1 จุดต่าง ๆ ที่มีค่า x ใกล้ ๆ 72 นิ้วล้วนเป็นจุดจากคู่บิดาและบุตรชายที่มีบิดาสูง 72 นิ้ว จะเห็นว่าความสูงของบุตรชายเหล่านี้ (ค่า y) มีการกระจายหรือความผันแปรอยู่มาก นั่นคือ การทำนายความสูงของบุตรชายมีความคลาดเคลื่อนได้พอสมควร ถึงแม้ว่าจะทราบความสูงของบิดาของเขา อันเนื่องมาจากความสัมพันธ์ระหว่างตัวแปรทั้งสองยังไม่สมบูรณ์ ดังนั้นจะสามารถสรุปความสัมพันธ์ของตัวแปร x และ y ออกมาเป็นตัวเลขให้เห็นว่ามีระดับมากหรือน้อยได้อย่างไร
ค่าเฉลี่ยของ x และ y รวมทั้งส่วนเบี่ยงเบนมาตรฐานของ x และ y ไม่อาจอธิบายเกี่ยวกับความสัมพันธ์ระหว่าง x และ y ได้ ค่าเฉลี่ยของ x และ y จะแสดงให้ทราบว่าจุดศูนย์กลางของกลุ่มข้อมูลอยู่ที่ใด และส่วนเบี่ยงเบนมาตรฐานของ x และ y จะอธิบายเรื่องการกระจายของจุดบนแต่ละแกน จากด้านหนึ่งของกลุ่มไปยังอีกด้านหนึ่ง
พิจารณาแผนภาพการกระจายของข้อมูล 2 ชุดในภาพที่ 3 เห็นได้ว่าทั้งสองชุดต่างมีจุดศูนย์กลางและการกระจายด้านแกนนอนและแกนตั้งเหมือนกัน แต่ในชุดแรก จุดกระจัดกระจายไม่เกาะกลุ่มกัน ส่วนในชุดที่สองจุดเกาะกลุ่มแนบแน่นเป็นแนวเส้นตรงมาก หรือสองตัวแปรมีความสัมพันธ์เชิงเส้นตรงสูงมาก นั่นคือ ระดับความสัมพันธ์ในแผนภาพทั้งสองนี้ต่างกัน การจะวัดระดับความสัมพันธ์ จึงต้องใช้ค่าทางสถิติอีกค่าหนึ่งที่เรียกว่า สัมประสิทธิ์สหสัมพันธ์ (correlation coefficient)
ค่าสัมประสิทธิ์สหสัมพันธ์

การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์

ความหมายของสหสัมพันธ์


ที่มา: เอกสารประกอบการสอน มหาวิทยาลัยเกษตรศาสตร์ 2542, วิชาบูรณาการ
หมวดการศึกษาทั่วไป รหัสวิชา 999211 คณิตศาสตร์และคอมพิวเตอร์ในชีวิตประจำวัน