การล้างความสับสนระหว่างสหสัมพันธ์และสาเหตุ 

นี่เป็นเกร็ดเล็กเกร็ดน้อยทางประวัติศาสตร์ที่คุณอาจไม่รู้ ระหว่างปี พ.ศ. 1860 ถึง พ.ศ. 1940 เมื่อจำนวนรัฐมนตรีเมธอดิสต์ที่อาศัยอยู่ในนิวอิงแลนด์เพิ่มขึ้น ปริมาณเหล้ารัมคิวบาที่นำเข้าในบอสตันก็เพิ่มขึ้นเช่นกัน และทั้งคู่ก็เพิ่มขึ้นในลักษณะที่ใกล้เคียงกันมาก ดังนั้นรัฐมนตรีเมธอดิสต์จึงต้องซื้อเหล้ารัมจำนวนมากในช่วงเวลานั้น!

ไม่จริง นั่นเป็นข้อสรุปที่งี่เง่าที่จะวาด สิ่งที่เกิดขึ้นจริงคือปริมาณทั้งสอง – รัฐมนตรีเมธอดิสต์และเหล้ารัมคิวบา – ถูกผลักดันให้สูงขึ้นด้วยปัจจัยอื่นๆ เช่น การเติบโตของประชากร

ในการบรรลุข้อสรุปที่ไม่ถูกต้องนั้น เราได้ทำผิดพลาดบ่อยเกินไปของ สับสนสัมพันธ์กับเหตุ.

สิ่งที่แตกต่าง?

ปริมาณสองปริมาณเรียกว่า มีความสัมพันธ์  ถ้าทั้งคู่เพิ่มขึ้นและลดลงพร้อมกัน ("ความสัมพันธ์เชิงบวก") หรือหากสิ่งใดเพิ่มขึ้นเมื่ออีกฝ่ายหนึ่งลดลงและในทางกลับกัน ("ความสัมพันธ์เชิงลบ")

สหสัมพันธ์สามารถตรวจพบได้โดยง่ายผ่านการวัดทางสถิติของ ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันซึ่งบ่งชี้ว่าปริมาณทั้งสองถูกล็อคอย่างแน่นหนาเพียงใด ตั้งแต่ -1 (มีความสัมพันธ์เชิงลบอย่างสมบูรณ์) ถึง 0 (ไม่สัมพันธ์กันเลย) และสูงถึง 1 (มีความสัมพันธ์เชิงบวกอย่างสมบูรณ์)


กราฟิกสมัครสมาชิกภายในตัวเอง


 สาเหตุ1tylervigen.com

แต่เพียงเพราะปริมาณสองปริมาณมีความสัมพันธ์กันไม่ได้หมายความว่าปริมาณหนึ่งมีความสัมพันธ์กันโดยตรง การก่อให้เกิด อื่น ๆ เพื่อเปลี่ยน ความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุเช่นเดียวกับสภาพอากาศที่มีเมฆมากไม่ได้หมายความถึงปริมาณน้ำฝน แม้ว่าสิ่งที่ตรงกันข้ามจะเป็นจริงก็ตาม

หากปริมาณสองปริมาณมีความสัมพันธ์กัน ก็อาจมีความสัมพันธ์ของเหตุและผลที่แท้จริง (เช่น ปริมาณน้ำฝนและยอดขายร่ม) แต่อาจมีตัวแปรอื่นๆ ที่ขับเคลื่อนทั้งสองอย่าง (เช่น เลขโจรสลัดกับภาวะโลกร้อน) หรืออาจเป็นแค่เรื่องบังเอิญ (เช่น การบริโภคชีสของสหรัฐอเมริกาและการบีบรัดโดยผ้าปูที่นอน).

แม้แต่ในที่ที่มีสาเหตุ เราก็ต้องระวังอย่าผสมสาเหตุกับผลกระทบ มิฉะนั้น เราอาจสรุปได้ เช่น การใช้เครื่องทำความร้อนที่เพิ่มขึ้นทำให้เกิดสภาพอากาศที่หนาวเย็น

เพื่อที่จะสร้างเหตุและผล เราจำเป็นต้องไปไกลกว่าสถิติและมองหาหลักฐานแยก (ของธรรมชาติทางวิทยาศาสตร์หรือประวัติศาสตร์) และการให้เหตุผลเชิงตรรกะ ความสัมพันธ์อาจกระตุ้นให้เราไปหาหลักฐานดังกล่าวตั้งแต่แรก แต่ก็ไม่ได้เป็นหลักฐานในสิทธิของตนเอง

ประเด็นที่ละเอียดอ่อน

แม้ว่าตัวอย่างข้างต้นจะดูงี่เง่าอย่างเห็นได้ชัด แต่ความสัมพันธ์มักถูกเข้าใจผิดว่าเป็นสาเหตุในลักษณะที่ไม่ชัดเจนในทันทีในโลกแห่งความเป็นจริง เมื่ออ่านและตีความสถิติ เราต้องระมัดระวังเป็นอย่างยิ่งที่จะเข้าใจว่าข้อมูลและสถิติของข้อมูลนั้นหมายถึงอะไร และที่สำคัญกว่านั้นคืออะไร ไม่ หมายถึง

 สาเหตุ2

ตัวอย่างล่าสุดของความจำเป็นในการตีความข้อมูลคือความตื่นเต้นเมื่อต้นปีที่ผ่านมา การตรวจจับคลื่นความโน้มถ่วง – ประกาศที่ดูเหมือนว่าจะมีการทำ ก่อนกำหนดก่อนที่ตัวแปรทั้งหมดที่มีผลกระทบต่อข้อมูลจะถูกนำมาพิจารณา

น่าเสียดายที่การวิเคราะห์สถิติ ความน่าจะเป็น และความเสี่ยงไม่ใช่ทักษะที่กำหนดไว้ใน สัญชาตญาณของมนุษย์และมันก็ง่ายเกินไปที่จะหลงทาง หนังสือทั้งเล่ม ถูกเขียนในลักษณะที่ละเอียดอ่อนซึ่งสามารถตีความสถิติผิดได้ (หรือใช้เพื่อหลอกลวง) เพื่อช่วยให้คุณระวังตัว ต่อไปนี้คือปัญหาทางสถิติทั่วไปที่คุณควรระวัง:

1) The Healthy Worker Effect ซึ่งบางครั้งไม่สามารถเปรียบเทียบสองกลุ่มโดยตรงในสนามแข่งขันระดับ

พิจารณาการศึกษาเชิงสมมุติฐานเปรียบเทียบสุขภาพของกลุ่มพนักงานออฟฟิศกับสุขภาพของกลุ่มนักบินอวกาศ หากการศึกษาพบว่าไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างสองสิ่งนี้ – ไม่มีความสัมพันธ์ระหว่างสุขภาพกับสภาพแวดล้อมในการทำงาน – เราจะสรุปได้ว่าการใช้ชีวิตและการทำงานในอวกาศไม่มีความเสี่ยงต่อสุขภาพในระยะยาวสำหรับนักบินอวกาศหรือไม่?

ไม่! กลุ่มต่างๆ ไม่ได้อยู่ในฐานเดียวกัน: กองนักบินอวกาศคัดกรองผู้สมัครเพื่อค้นหาผู้สมัครที่มีสุขภาพดี ซึ่งรักษาระบบการออกกำลังกายที่ครอบคลุมเพื่อต่อสู้กับผลกระทบของการใช้ชีวิตใน "สภาวะจุลภาค" ในเชิงรุก

ดังนั้นเราจึงคาดหวังให้พวกเขามีสุขภาพดีกว่าคนในสำนักงานโดยเฉลี่ย และควรกังวลอย่างเหมาะสมหากพวกเขาไม่เป็นเช่นนั้น

2) การจัดหมวดหมู่และผลการย้ายถิ่นฐาน – การสับเปลี่ยนผู้คนระหว่างกลุ่มอาจส่งผลกระทบอย่างมากต่อผลลัพธ์ทางสถิติ

นี้เรียกอีกอย่างว่า จะโรเจอร์ส หลังจากที่นักแสดงตลกชาวสหรัฐฯ ที่รายงานว่าเหน็บ:

เมื่อ Okies ออกจากโอคลาโฮมาและย้ายไปแคลิฟอร์เนีย พวกเขายกระดับสติปัญญาโดยเฉลี่ยในทั้งสองรัฐ

เพื่อเป็นตัวอย่าง ให้ลองจินตนาการถึงการแบ่งกลุ่มเพื่อนกลุ่มใหญ่ออกเป็นกลุ่ม "เตี้ย" และกลุ่ม "สูง" (อาจเพื่อจัดรูปถ่ายให้พวกเขา) การทำเช่นนี้ทำให้เพิ่มความสูงเฉลี่ยของทั้งสองกลุ่มพร้อมกันได้ง่ายอย่างน่าประหลาดใจ

เพียงแค่ขอให้คนที่เตี้ยที่สุดในกลุ่ม "สูง" เปลี่ยนไปใช้กลุ่ม "เตี้ย" กลุ่ม "ตัวสูง" สูญเสียสมาชิกที่เตี้ยที่สุด ซึ่งทำให้ส่วนสูงเฉลี่ยของพวกเขาพุ่งสูงขึ้น แต่กลุ่มที่ "เตี้ย" จะมีสมาชิกที่สูงที่สุดของพวกเขา และทำให้ส่วนสูงเฉลี่ยเพิ่มขึ้นด้วย

สิ่งนี้มีนัยสำคัญในการศึกษาทางการแพทย์ ซึ่งผู้ป่วยมักถูกจัดอยู่ในกลุ่ม "สุขภาพดี" หรือ "ไม่แข็งแรง" ในระหว่างการทดสอบวิธีการรักษาใหม่ หากวิธีการวินิจฉัยดีขึ้น ผู้ป่วยที่ไม่แข็งแรงบางรายอาจได้รับการจัดหมวดหมู่ใหม่ ส่งผลให้ผลลัพธ์ด้านสุขภาพของทั้งสองกลุ่มดีขึ้น ไม่ว่าการรักษาจะได้ผล (หรือไม่ก็ตาม) ก็ตาม

 สาเหตุ3การเลือกและเลือกระหว่างข้อมูลอาจนำไปสู่ข้อสรุปที่ไม่ถูกต้อง ผู้คลางแคลงใจเห็นช่วงเวลาของการระบายความร้อน (สีน้ำเงิน) เมื่อข้อมูลแสดงภาวะโลกร้อนในระยะยาว (สีเขียว) จริงๆ septicalscience.com 

3) การขุดข้อมูล – เมื่อมีข้อมูลจำนวนมาก สามารถเลือกบิตและชิ้นส่วนเพื่อสนับสนุนข้อสรุปที่ต้องการได้

นี่เป็นการปฏิบัติทางสถิติที่ไม่ดี แต่ ถ้าทำอย่างจงใจ อาจมองเห็นได้ยากโดยปราศจากความรู้เกี่ยวกับชุดข้อมูลเดิมที่สมบูรณ์

พิจารณากราฟด้านบนที่แสดงการตีความข้อมูลภาวะโลกร้อนสองแบบเป็นต้น หรือฟลูออไรด์ ในปริมาณเล็กน้อย เป็นหนึ่งในยาป้องกันที่มีประสิทธิภาพมากที่สุดในประวัติศาสตร์ แต่ผลในเชิงบวกจะหายไปโดยสิ้นเชิง หากใครพิจารณาถึงปริมาณฟลูออไรด์ที่เป็นพิษเท่านั้น

ด้วยเหตุผลที่คล้ายคลึงกัน เป็นสิ่งสำคัญที่ขั้นตอนสำหรับการทดสอบทางสถิติที่กำหนดจะต้องได้รับการแก้ไขก่อนที่การทดสอบจะเริ่มต้นและจะไม่เปลี่ยนแปลงจนกว่าการทดสอบจะสิ้นสุดลง

4) การจัดกลุ่ม – ซึ่งคาดว่าจะเกิดขึ้นแม้ในข้อมูลสุ่มทั้งหมด

พิจารณาการศึกษาทางการแพทย์เพื่อตรวจสอบว่าโรคเฉพาะเช่นมะเร็งหรือเส้นโลหิตตีบหลายเส้นเป็นอย่างไร กระจายตามภูมิศาสตร์. หากโรคเกิดขึ้นแบบสุ่ม (และสิ่งแวดล้อมไม่มีผลกระทบ) เราคาดว่าจะเห็นผู้ป่วยหลายกลุ่มแน่นอน หากผู้ป่วยถูกกระจายอย่างทั่วถึง การกระจายจะไม่สุ่มตัวอย่างที่สุด!

ดังนั้นการมีคลัสเตอร์เดียวหรือหลายเคสขนาดเล็กจึงเป็นเรื่องปกติทั้งหมด จำเป็นต้องใช้วิธีการทางสถิติที่ซับซ้อนเพื่อพิจารณาว่าจำเป็นต้องมีการจัดกลุ่มมากเพียงใดเพื่ออนุมานว่ามีบางอย่างในพื้นที่นั้นอาจเป็นสาเหตุของการเจ็บป่วย

น่าเสียดายที่คลัสเตอร์ใดๆ ก็ตาม แม้แต่กลุ่มที่ไม่มีนัยสำคัญ ทำให้ง่ายต่อการพาดหัวข่าว (และน่าสนใจในแวบแรก)

 สาเหตุ4

การวิเคราะห์ทางสถิติ เช่นเดียวกับเครื่องมือที่มีประสิทธิภาพอื่นๆ ต้องใช้อย่างระมัดระวัง และโดยเฉพาะอย่างยิ่ง เราต้องระมัดระวังเมื่อทำการสรุปผลโดยพิจารณาจากข้อเท็จจริงที่ว่าปริมาณสองปริมาณมีความสัมพันธ์กัน

เราต้องยืนกรานในหลักฐานที่แยกจากกันเสมอเพื่อโต้แย้งในเหตุและผล – และหลักฐานนั้นจะไม่มาในรูปของตัวเลขทางสถิติเดียว

ความสัมพันธ์ที่ดูเหมือนน่าสนใจ พูดระหว่างยีนที่กำหนดและ โรคจิตเภท หรือระหว่าง a อาหารที่มีไขมันสูง และโรคหัวใจอาจกลายเป็นวิธีการที่น่าสงสัยมาก

เราอาจจะเป็นสายพันธุ์ที่ป่วยทางสติปัญญาพร้อมที่จะจัดการกับปัญหาเหล่านี้ ในฐานะนักการศึกษาชาวแคนาดา คีแรนเอแกน ใส่ไว้ในหนังสือของเขา ผิดตั้งแต่แรก:

ข่าวร้ายก็คือวิวัฒนาการของเราทำให้เราอยู่ในสังคมขนาดเล็ก มั่นคง และรวบรวมนักล่า เราเป็นคน Pleistocene แต่สมองที่ใช้ภาษาของเราได้สร้างสังคมที่ใหญ่โต หลากหลายวัฒนธรรม ซับซ้อนทางเทคโนโลยี และเปลี่ยนแปลงอย่างรวดเร็วเพื่อให้เราอยู่อาศัยได้

ด้วยเหตุนี้ เราต้องต่อต้านการล่อลวงอย่างต่อเนื่องเพื่อให้มองเห็นความหมายในโอกาสและสับสนระหว่างความสัมพันธ์และสาเหตุสนทนา

บทความนี้ถูกเผยแพร่เมื่อวันที่ สนทนา
อ่าน บทความต้นฉบับ.


เกี่ยวกับผู้เขียน

บอร์ไวน์ โจนาธานJonathan Borwein (Jon) เป็นศาสตราจารย์ด้านคณิตศาสตร์ที่มหาวิทยาลัยนิวคาสเซิล เขาเป็นศาสตราจารย์ด้านคณิตศาสตร์ที่มหาวิทยาลัยนิวคาสเซิลและผู้อำนวยการศูนย์คณิตศาสตร์ช่วยวิจัยทางคอมพิวเตอร์และการประยุกต์ (CARMA) เขาเคยทำงานที่ Carnegie-Melon, Dalhousie, Simon Fraser และ Waterloo Universities และดำรงตำแหน่งเป็นประธานการวิจัยของแคนาดาสองคนในด้านคอมพิวเตอร์

กุหลาบไมเคิลMichael Rose เป็นผู้สมัครระดับปริญญาเอก คณะคณิตศาสตร์และวิทยาศาสตร์กายภาพแห่งมหาวิทยาลัยนิวคาสเซิล นักศึกษาปริญญาเอกคณิตศาสตร์ภายใต้การดูแลของ Prof. Jon Borwein แห่งมหาวิทยาลัยนิวคาสเซิล ประเทศออสเตรเลีย ขณะนี้กำลังให้ความช่วยเหลือด้านการวิจัยในการใช้คณิตศาสตร์เศษส่วนกับแบบจำลองการกระจายไซแนปส์ของสมอง

คำสั่งการเปิดเผยข้อมูล: ผู้เขียนไม่ได้ทำงาน ให้คำปรึกษา เป็นเจ้าของหุ้นหรือรับเงินทุนจากบริษัทหรือองค์กรใด ๆ ที่จะได้รับประโยชน์จากบทความนี้ พวกเขายังไม่มีความเกี่ยวข้องที่เกี่ยวข้อง


หนังสือแนะนำ:

เงิน เพศ สงคราม กรรม: หมายเหตุสำหรับการปฏิวัติทางพุทธศาสนา
โดย เดวิด อาร์. ลอย.

เงิน เพศ สงคราม กรรม: หมายเหตุสำหรับการปฏิวัติทางพุทธศาสนา โดย David R. LoyDavid Loy ได้กลายเป็นหนึ่งในผู้สนับสนุนที่ทรงอิทธิพลที่สุดของโลกทัศน์ของชาวพุทธ โดยอธิบายว่าไม่มีใครสามารถเปลี่ยนแปลงภูมิทัศน์ทางสังคมการเมืองของโลกสมัยใหม่ได้ ใน เงิน, เพศ, สงคราม, กรรมเขาเสนอการนำเสนอที่เฉียบคมและชัดเจนจนน่าตกใจของหลักพระพุทธศาสนาที่เข้าใจผิดบ่อยๆ - การทำงานของกรรม, ธรรมชาติของตัวเอง, สาเหตุของปัญหาทั้งในระดับบุคคลและระดับสังคม - และเหตุผลที่แท้จริงเบื้องหลังความรู้สึกร่วมกันของเราว่า "ไม่เคยพอ" ,"ไม่ว่าจะเป็นเวลา,เงิน,เซ็กส์,ความปลอดภัย...แม้แต่สงคราม "การปฏิวัติทางพุทธศาสนา" ของเดวิดนั้นไม่น้อยไปกว่าการเปลี่ยนแปลงที่รุนแรงในวิธีที่เราสามารถเข้าใกล้ชีวิตของเรา โลกของเรา ความหลงผิดโดยรวมที่แผ่ซ่านไปทั่วภาษา วัฒนธรรม และแม้แต่จิตวิญญาณของเรา

คลิกที่นี่สำหรับข้อมูลเพิ่มเติมและ / หรือสั่งซื้อหนังสือเล่มนี้ใน Amazon