เหตุผลหนึ่งที่การศึกษาทางวิทยาศาสตร์บางอย่างอาจผิดพลาด

มี วิกฤตการทำซ้ำ ในทางวิทยาศาสตร์ – ไม่ได้ระบุ “ผลบวกปลอม” คือ แพร่หลายแม้กระทั่งวารสารวิจัยชั้นนำของเรา.

ผลบวกที่ผิดพลาดคือการอ้างว่ามีผลกระทบเมื่อในความเป็นจริงไม่มี ไม่มีใครรู้ว่าสัดส่วนของบทความที่ตีพิมพ์มีผลลัพธ์ที่ไม่ถูกต้องหรือเกินจริงเช่นนี้ แต่มี สัญญาณว่าสัดส่วนไม่เล็ก.

นักระบาดวิทยา John Ioannidis ให้คำอธิบายที่ดีที่สุดสำหรับปรากฏการณ์นี้ในบทความที่มีชื่อเสียงในปี 2005 ในหัวข้อยั่วยุ “เหตุใดผลการวิจัยที่ตีพิมพ์ส่วนใหญ่จึงเป็นเท็จ” เหตุผลหนึ่งที่ Ioannidis ให้ไว้สำหรับผลลัพธ์ที่ผิดพลาดมากมายจึงถูกเรียกว่า “p การแฮ็ก” ซึ่งเกิดขึ้นจากแรงกดดันที่นักวิจัยรู้สึกว่ามีนัยสำคัญทางสถิติ

นัยสำคัญทางสถิติคืออะไร?

ในการสรุปผลจากข้อมูล นักวิจัยมักจะพึ่งพา การทดสอบนัยสำคัญ. พูดง่ายๆ คือ การคำนวณ “p มูลค่า” ซึ่งเป็นความน่าจะเป็นของผลลัพธ์แบบเรา หากไม่มีผลกระทบจริงๆ ถ้า p มีค่าน้อยเพียงพอ ผลลัพธ์ถูกประกาศให้มีนัยสำคัญทางสถิติ

ตามเนื้อผ้าก p ค่าที่น้อยกว่า .05 เป็นเกณฑ์สำหรับนัยสำคัญ หากคุณรายงาน a p<.05 ผู้อ่านมีแนวโน้มที่จะเชื่อว่าคุณได้พบผลลัพธ์ที่แท้จริง อย่างไรก็ตาม บางทีอาจไม่มีผลใดๆ และคุณได้รายงานผลบวกที่ผิดพลาด


กราฟิกสมัครสมาชิกภายในตัวเอง


วารสารจำนวนมากจะเผยแพร่เฉพาะการศึกษาที่สามารถรายงานผลกระทบที่มีนัยสำคัญทางสถิติอย่างน้อยหนึ่งรายการเท่านั้น นักศึกษาระดับบัณฑิตศึกษาจะเรียนรู้อย่างรวดเร็วว่าการบรรลุตามตำนาน p

ความกดดันนี้เพื่อให้บรรลุ pพี แฮ็ค.

ล่อของ p แฮ็ค

เพื่อแสดงให้เห็น p การแฮ็ก นี่คือตัวอย่างสมมุติฐาน

บรูซเพิ่งสำเร็จการศึกษาระดับปริญญาเอกและได้รับทุนอันทรงเกียรติให้เข้าร่วมทีมวิจัยชั้นนำในสาขาของเขา การทดลองครั้งแรกของเขาไม่ได้ผลดีนัก แต่บรูซได้ปรับปรุงขั้นตอนอย่างรวดเร็วและทำการศึกษาครั้งที่สอง สิ่งนี้ดูมีแนวโน้มมากขึ้น แต่ก็ยังไม่ได้ให้ p ค่าน้อยกว่า .05

บรูซเชื่อว่าเขากำลังทำอะไรบางอย่างอยู่ บรูซจึงรวบรวมข้อมูลเพิ่มเติม เขาตัดสินใจที่จะทิ้งผลลัพธ์บางส่วน ซึ่งดูไม่สมเหตุสมผลเลย

จากนั้นเขาก็สังเกตเห็นว่าหนึ่งในมาตรการของเขาให้ภาพที่ชัดเจนขึ้น ดังนั้นเขาจึงเน้นไปที่สิ่งนั้น ปรับแต่งอีกเล็กน้อยและในที่สุด Bruce ก็ระบุเอฟเฟกต์ที่น่าประหลาดใจเล็กน้อยแต่น่าสนใจจริงๆ ที่ทำได้ p

บรูซพยายามอย่างหนักเพื่อค้นหาเอฟเฟกต์ที่เขา รู้ว่า กำลังซุ่มซ่อนอยู่ที่ไหนสักแห่ง เขายังรู้สึกกดดันที่จะตี p

มีเพียงหนึ่งการจับ: จริง ๆ แล้วไม่มีผลกระทบ แม้จะมีผลลัพธ์ที่มีนัยสำคัญทางสถิติ แต่ Bruce ได้ตีพิมพ์ผลบวกที่ผิดพลาด

บรูซรู้สึกว่าเขาใช้ความเข้าใจทางวิทยาศาสตร์เพื่อเปิดเผยผลกระทบที่ซุ่มซ่อนในขณะที่เขาทำตามขั้นตอนต่างๆ หลังจากเริ่มการศึกษา:

  • เขาเก็บรวบรวมข้อมูลเพิ่มเติม
  • เขาทำข้อมูลบางอย่างที่ดูเหมือนผิดปกติ
  • เขาลดมาตรการบางอย่างและจดจ่อกับสิ่งที่มีแนวโน้มมากที่สุด
  • เขาวิเคราะห์ข้อมูลแตกต่างออกไปเล็กน้อยและทำการปรับแต่งเพิ่มเติมอีกเล็กน้อย

ปัญหาคือตัวเลือกทั้งหมดเหล่านี้ถูกสร้างขึ้นมา หลังจาก เห็นข้อมูล บรูซอาจเก็บเชอร์รี่โดยไม่รู้ตัว - เลือกและปรับแต่งจนกว่าเขาจะเข้าใจยาก pp

นักสถิติได้กล่าวไว้ว่า ถ้าคุณทรมานข้อมูลมากพอ พวกเขาจะสารภาพ ทางเลือกและการปรับแต่งหลังจากดูข้อมูลเป็นแนวทางปฏิบัติในการวิจัยที่น่าสงสัย การใช้สิ่งเหล่านี้ไม่ว่าจะจงใจหรือไม่ก็ตามเพื่อให้ได้ผลลัพธ์ทางสถิติที่ถูกต้องคือ p แฮ็คซึ่งเป็นเหตุผลสำคัญประการหนึ่งที่เผยแพร่ ผลลัพธ์ที่มีนัยสำคัญทางสถิติอาจเป็นผลบวกที่ผิดพลาด

สัดส่วนของผลลัพธ์ที่เผยแพร่ผิดคืออะไร?

นี่เป็นคำถามที่ดีและเป็นคำถามที่น่ากลัวอย่างยิ่ง ไม่มีใครรู้คำตอบซึ่งมีแนวโน้มว่าจะแตกต่างกันในด้านการวิจัยที่แตกต่างกัน

ความพยายามอย่างมากและน่าประทับใจในการตอบคำถามเกี่ยวกับจิตวิทยาสังคมและความรู้ความเข้าใจได้รับการตีพิมพ์ในปี 2015 นำโดย Brian Nosek และเพื่อนร่วมงานของเขาที่ Center for Open Science โครงการการจำลองแบบ: จิตวิทยา (RP:P) มีกลุ่มวิจัย 100 แห่งทั่วโลก โดยแต่ละกลุ่มดำเนินการทำซ้ำหนึ่งใน 100 ผลงานที่ได้รับการตีพิมพ์อย่างรอบคอบ โดยรวม, ประมาณ 40 ซ้ำค่อนข้างดีในขณะที่ประมาณ 60 กรณี การศึกษาการจำลองแบบได้รับผลที่น้อยกว่าหรือน้อยกว่ามาก

การศึกษาการจำลองแบบ 100 RP:P รายงานผลกระทบที่โดยเฉลี่ยแล้วมีขนาดเพียงครึ่งเดียวของผลกระทบที่รายงานโดยการศึกษาดั้งเดิม การจำลองแบบที่ดำเนินการอย่างรอบคอบอาจให้ค่าประมาณที่แม่นยำกว่าที่เป็นไปได้ p แฮ็กการศึกษาดั้งเดิม ดังนั้นเราสามารถสรุปได้ว่าการศึกษาดั้งเดิมประเมินผลกระทบที่แท้จริงสูงเกินไปโดยเฉลี่ยแล้วเป็นสองเท่า ที่น่าตกใจ!

วิธีการหลีกเลี่ยง p แฮ็ค

วิธีที่ดีที่สุดที่จะหลีกเลี่ยง p การแฮ็กคือการหลีกเลี่ยงการทำการเลือกหรือปรับแต่งหลังจากเห็นข้อมูล กล่าวอีกนัยหนึ่ง ให้หลีกเลี่ยงแนวทางการวิจัยที่น่าสงสัย ในกรณีส่วนใหญ่ วิธีที่ดีที่สุดคือใช้ การลงทะเบียนล่วงหน้า.

การลงทะเบียนล่วงหน้ากำหนดให้คุณต้องเตรียมแผนการวิจัยโดยละเอียดล่วงหน้า รวมถึงการวิเคราะห์ทางสถิติเพื่อนำไปใช้กับข้อมูล จากนั้นคุณลงทะเบียนแผนล่วงหน้าพร้อมประทับวันที่ที่ เปิดกรอบวิทยาศาสตร์ หรือทะเบียนออนไลน์อื่นๆ

แล้วก็ ดำเนินการศึกษาวิเคราะห์ข้อมูลตามแผนและรายงานผลไม่ว่าจะเป็น ผู้อ่านสามารถตรวจสอบแผนลงทะเบียนล่วงหน้าได้จึงมั่นใจได้ว่ามีการวิเคราะห์ระบุไว้ล่วงหน้าไม่ใช่ p ถูกแฮ็ก การลงทะเบียนล่วงหน้าเป็นแนวคิดใหม่ที่ท้าทายสำหรับนักวิจัยหลายคน แต่น่าจะเป็นหนทางแห่งอนาคต

ประมาณการมากกว่า p ค่า

สิ่งล่อใจที่จะ p แฮ็คเป็นหนึ่งในข้อเสียใหญ่ของการพึ่งพา p ค่า อีกอย่างคือ pแทนที่จะบอกว่ามีผลหรือไม่มี

แต่โลกไม่ใช่สีขาวดำ ควรใช้สีเทาหลายเฉดเพื่อจดจำเฉดสีเทา การประเมิน มากกว่า p ค่า เป้าหมายที่มีการประมาณค่าคือการประเมินขนาดของผลกระทบ ซึ่งอาจมีขนาดเล็กหรือใหญ่ เป็นศูนย์ หรือแม้แต่เป็นค่าลบ ในแง่ของการประมาณค่า ผลบวกลวงคือค่าประมาณที่มากกว่าหรือมากกว่ามูลค่าที่แท้จริงของผลกระทบมาก

มาศึกษาสมมุติฐานเกี่ยวกับผลกระทบของการบำบัดกัน ตัวอย่างเช่น การศึกษาอาจประมาณการว่าการรักษาให้ความวิตกกังวลลดลงโดยเฉลี่ย 7 จุด สมมติว่าเราคำนวณจากข้อมูลของเรา a ช่วงความเชื่อมั่น – ช่วงของความไม่แน่นอนด้านใดด้านหนึ่งของค่าประมาณที่ดีที่สุดของเรา – จาก [4, 10] สิ่งนี้บอกเราว่าค่าประมาณ 7 ของเรามีแนวโน้มมากที่สุดภายใน 3 จุดในระดับความวิตกกังวลของผลกระทบที่แท้จริง – จำนวนเฉลี่ยที่แท้จริงของผลประโยชน์ของการรักษา

กล่าวอีกนัยหนึ่ง ช่วงความเชื่อมั่นระบุว่าค่าประมาณของเราแม่นยำเพียงใด การรู้ค่าประมาณและช่วงความเชื่อมั่นนั้นให้ข้อมูลมากกว่าสิ่งใด p มูลค่า

ฉันอ้างถึงการประมาณการว่าเป็นหนึ่งใน "สถิติใหม่" เทคนิคเหล่านี้ไม่ใช่เรื่องใหม่ แต่การใช้เทคนิคเหล่านี้เป็นแนวทางหลักในการสรุปผลจากข้อมูล จะทำให้นักวิจัยจำนวนมากกลายเป็นคนใหม่ และเป็นก้าวที่ยิ่งใหญ่ นอกจากนี้ยังช่วยหลีกเลี่ยงการบิดเบือนที่เกิดจาก p แฮ็ค

เกี่ยวกับผู้เขียน

เจฟฟ์ คัมมิง ศาสตราจารย์กิตติคุณ มหาวิทยาลัย La Trobe

บทความนี้ถูกเผยแพร่เมื่อวันที่ สนทนา. อ่าน บทความต้นฉบับ.

หนังสือที่เกี่ยวข้อง:

at ตลาดภายในและอเมซอน