การทดสอบทัวริงและ ai 10 17

Pexels/Google ดีปมายด์, CC BY-SA

ในปี 1950 อลัน ทัวริง นักวิทยาศาสตร์คอมพิวเตอร์ชาวอังกฤษ เสนอวิธีทดลองเพื่อตอบคำถามที่ว่า เครื่องจักรสามารถคิดได้หรือไม่ เขาแนะนำว่าหากมนุษย์ไม่สามารถบอกได้ว่าพวกเขากำลังพูดกับเครื่องจักรอัจฉริยะเทียม (AI) หรือมนุษย์คนอื่นหลังจากถามคำถามไปห้านาที สิ่งนี้จะแสดงให้เห็นว่า AI มีความฉลาดเหมือนมนุษย์

แม้ว่าระบบ AI ยังคงห่างไกลจากการทดสอบของทัวริงในช่วงชีวิตของเขา แต่เขาคาดการณ์ไว้เช่นนั้น

“[…] ในเวลาประมาณห้าสิบปี มันจะเป็นไปได้ที่จะเขียนโปรแกรมคอมพิวเตอร์ […] เพื่อให้พวกเขาเล่นเกมเลียนแบบได้ดี โดยที่ผู้ซักถามโดยเฉลี่ยจะมีโอกาสไม่เกิน 70% ที่จะระบุตัวตนที่ถูกต้องหลังจากผ่านไปห้านาที การตั้งคำถาม

ปัจจุบัน กว่า 70 ปีหลังจากข้อเสนอของทัวริง ไม่มี AI ใดที่สามารถผ่านการทดสอบได้สำเร็จโดยปฏิบัติตามเงื่อนไขเฉพาะที่เขาระบุไว้ อย่างไรก็ตามดังที่ พาดหัวข่าวบางส่วน สะท้อนมีบางระบบเข้ามาใกล้มาก

การทดลองล่าสุดครั้งหนึ่ง ทดสอบโมเดลภาษาขนาดใหญ่สามโมเดล รวมถึง GPT-4 (เทคโนโลยี AI ที่อยู่เบื้องหลัง ChatGPT) ผู้เข้าร่วมใช้เวลาสองนาทีในการสนทนากับบุคคลอื่นหรือระบบ AI AI ได้รับแจ้งให้สะกดผิดเล็กน้อย และออกจากระบบหากผู้ทดสอบก้าวร้าวเกินไป


กราฟิกสมัครสมาชิกภายในตัวเอง


ด้วยการกระตุ้นเตือนนี้ AI จึงทำหน้าที่หลอกผู้ทดสอบได้ดี เมื่อจับคู่กับบอท AI ผู้ทดสอบสามารถเดาได้อย่างถูกต้องว่าพวกเขากำลังพูดคุยกับระบบ AI 60% ของเวลาทั้งหมด

เมื่อพิจารณาถึงความก้าวหน้าอย่างรวดเร็วในการออกแบบระบบประมวลผลภาษาธรรมชาติ เราอาจเห็นว่า AI ผ่านการทดสอบดั้งเดิมของทัวริงภายในไม่กี่ปีข้างหน้า

แต่การเลียนแบบมนุษย์เป็นการทดสอบสติปัญญาที่มีประสิทธิผลจริงหรือ? และถ้าไม่ มีเกณฑ์มาตรฐานทางเลือกใดบ้างที่เราอาจใช้ในการวัดความสามารถของ AI

ข้อจำกัดของการทดสอบทัวริง

ในขณะที่ระบบที่ผ่านการทดสอบทัวริงทำให้เรา บาง หลักฐานที่แสดงว่ามีความฉลาด การทดสอบนี้ไม่ใช่การทดสอบสติปัญญาขั้นเด็ดขาด ปัญหาหนึ่งคือมันสามารถสร้าง "ผลลบลวง" ได้

โมเดลภาษาขนาดใหญ่ในปัจจุบันมักได้รับการออกแบบมาเพื่อประกาศทันทีว่าไม่ใช่มนุษย์ ตัวอย่างเช่น เมื่อคุณถามคำถาม ChatGPT มักจะนำหน้าคำตอบด้วยวลี “as an AI language model” แม้ว่าระบบ AI จะมีความสามารถพื้นฐานในการผ่านการทดสอบทัวริง แต่การเขียนโปรแกรมประเภทนี้จะเข้ามาแทนที่ความสามารถนั้น

การทดสอบยังเสี่ยงต่อ "ผลบวกลวง" บางประเภทด้วย ในฐานะนักปรัชญา เน็ด บล็อค ชี้ให้เห็น ในบทความปี 1981 ระบบสามารถผ่านการทดสอบทัวริงได้ง่ายๆ โดยการเขียนโค้ดแบบฮาร์ดโค้ดพร้อมการตอบสนองแบบมนุษย์ต่ออินพุตใดๆ ที่เป็นไปได้

นอกจากนี้ การทดสอบทัวริงยังเน้นไปที่การรับรู้ของมนุษย์โดยเฉพาะ หากการรับรู้ของ AI แตกต่างจากการรับรู้ของมนุษย์ ผู้ซักถามผู้เชี่ยวชาญจะสามารถค้นหางานบางอย่างที่ AI และมนุษย์มีประสิทธิภาพต่างกัน

เกี่ยวกับปัญหานี้ทัวริงเขียนว่า:

การคัดค้านนี้เป็นข้อคัดค้านที่รุนแรงมาก แต่อย่างน้อยเราก็สามารถพูดได้ว่าหากสามารถสร้างเครื่องจักรเพื่อเล่นเกมเลียนแบบได้อย่างน่าพอใจ เราก็ไม่จำเป็นต้องกังวลกับการคัดค้านนี้

กล่าวอีกนัยหนึ่ง ในขณะที่ผ่านการทดสอบทัวริงถือเป็นหลักฐานที่ดีว่าระบบมีความชาญฉลาด การล้มเหลวก็ไม่ใช่หลักฐานที่ดีว่าระบบเป็น ไม่ ฉลาด.

นอกจากนี้ การทดสอบยังไม่ใช่การวัดที่ดีว่า AI มีสติหรือไม่ พวกเขาสามารถรู้สึกเจ็บปวดและมีความสุขได้หรือไม่ หรือมีความสำคัญทางศีลธรรมหรือไม่ ตามที่นักวิทยาศาสตร์ด้านความรู้ความเข้าใจหลายคนกล่าวไว้ สติสัมปชัญญะเกี่ยวข้องกับกลุ่มความสามารถทางจิตโดยเฉพาะ รวมถึงการมีความทรงจำในการทำงาน ความคิดที่มีลำดับสูงกว่า และความสามารถในการรับรู้สภาพแวดล้อมของตนเอง และจำลองว่าร่างกายของตนเคลื่อนไหวไปรอบๆ อย่างไร

การทดสอบทัวริงไม่ได้ตอบคำถามว่าระบบ AI หรือไม่ มีความสามารถเหล่านี้.

ความสามารถที่เพิ่มขึ้นของ AI

การทดสอบทัวริงขึ้นอยู่กับตรรกะบางอย่าง กล่าวคือ มนุษย์มีความฉลาด ดังนั้นสิ่งใดก็ตามที่สามารถเลียนแบบมนุษย์ได้อย่างมีประสิทธิภาพก็มีแนวโน้มว่าจะมีความฉลาด

แต่ความคิดนี้ไม่ได้บอกอะไรเราเกี่ยวกับธรรมชาติของความฉลาดเลย วิธีอื่นในการวัดความฉลาดของ AI เกี่ยวข้องกับการคิดอย่างมีวิจารณญาณมากขึ้นว่าความฉลาดคืออะไร

ขณะนี้ไม่มีการทดสอบใดที่สามารถวัดปัญญาประดิษฐ์หรือปัญญาของมนุษย์ได้อย่างน่าเชื่อถือ

ในระดับที่กว้างที่สุด เราสามารถนึกถึงความฉลาดได้ว่าเป็น ความสามารถ เพื่อบรรลุเป้าหมายที่หลากหลายในสภาพแวดล้อมที่แตกต่างกัน ระบบที่ชาญฉลาดยิ่งขึ้นคือระบบที่สามารถบรรลุเป้าหมายได้กว้างขึ้นในสภาพแวดล้อมที่กว้างขึ้น

ด้วยเหตุนี้ วิธีที่ดีที่สุดในการติดตามความก้าวหน้าในการออกแบบระบบ AI อเนกประสงค์คือการประเมินประสิทธิภาพในงานต่างๆ นักวิจัยด้านแมชชีนเลิร์นนิงได้พัฒนาเกณฑ์มาตรฐานต่างๆ ที่ทำสิ่งนี้

ตัวอย่างเช่น GPT-4 คือ สามารถตอบถูกได้ 86% ของคำถามเกี่ยวกับความเข้าใจภาษาแบบมัลติทาสก์จำนวนมาก ซึ่งเป็นเกณฑ์มาตรฐานในการวัดผลการทดสอบแบบปรนัยในวิชาวิชาการระดับวิทยาลัยที่หลากหลาย

แถมยังทำคะแนนได้ดีอีกด้วย ตัวแทนBenchซึ่งเป็นเครื่องมือที่สามารถวัดความสามารถของโมเดลภาษาขนาดใหญ่ในการประพฤติตนเป็นตัวแทนได้ เช่น การท่องเว็บ การซื้อสินค้าออนไลน์ และการแข่งขันในเกม

การทดสอบทัวริงยังเกี่ยวข้องหรือไม่

การทดสอบทัวริงเป็นการวัดการเลียนแบบ – ความสามารถของ AI ในการจำลองพฤติกรรมของมนุษย์ แบบจำลองภาษาขนาดใหญ่เป็นผู้ลอกเลียนแบบโดยผู้เชี่ยวชาญ ซึ่งขณะนี้ได้สะท้อนให้เห็นถึงศักยภาพของแบบจำลองเหล่านี้ในการผ่านการทดสอบทัวริงแล้ว แต่ความฉลาดไม่เหมือนกับการเลียนแบบ

มีสติปัญญาหลายประเภทพอๆ กับเป้าหมายที่ต้องทำให้สำเร็จ วิธีที่ดีที่สุดในการทำความเข้าใจความฉลาดของ AI คือการติดตามความคืบหน้าในการพัฒนาความสามารถที่สำคัญต่างๆ

ในเวลาเดียวกัน สิ่งสำคัญคือเราจะไม่ "เปลี่ยนเสาประตู" อยู่เรื่อยเมื่อมีคำถามว่า AI มีความชาญฉลาดหรือไม่ เนื่องจากความสามารถของ AI ได้รับการปรับปรุงอย่างรวดเร็ว ผู้วิพากษ์วิจารณ์แนวคิดเกี่ยวกับความฉลาดของ AI มักจะค้นหางานใหม่ๆ ที่ระบบ AI อาจต้องดิ้นรนเพื่อให้สำเร็จอยู่ตลอดเวลา เพียงแต่พบว่าได้ก้าวกระโดดไปแล้ว อุปสรรคอีกอย่างหนึ่ง.

ในการตั้งค่านี้ คำถามที่เกี่ยวข้องไม่ได้อยู่ที่ว่าระบบ AI มีความชาญฉลาดหรือไม่ แต่ถามให้ชัดเจนกว่านั้นคือ อะไร ชนิด สติปัญญาที่พวกเขาอาจมีสนทนา

ไซมอน โกลด์สตีน, รองศาสตราจารย์, สถาบันปรัชญา Dianoia, Australian Catholic University, มหาวิทยาลัยคาทอลิคออสเตรเลีย และ คาเมรอน โดเมนิโก เคิร์ก-เจียนนินี, ผู้ช่วยศาสตราจารย์วิชาปรัชญา, มหาวิทยาลัยรัตเกอร์ส

บทความนี้ตีพิมพ์ซ้ำจาก สนทนา ภายใต้ใบอนุญาตครีเอทีฟคอมมอนส์ อ่าน บทความต้นฉบับ.