AI สามารถจองร้านอาหารหรือนัดหมายผมได้ แต่อย่าคาดหวังการสนทนาเต็มรูปแบบ แน่นอนว่าผู้ช่วย AI ของคุณสามารถจองการนัดหมายให้คุณได้ แต่การสนทนาที่มีความหมายล่ะ Shutterstock/บาส Nastassia

Google เมื่อเร็ว ๆ นี้ เปิดตัว AI พูดล่าสุดที่เรียกว่าดูเพล็กซ์ ดูเพล็กซ์ดูเหมือนคนจริง สมบูรณ์ด้วยการหยุด "อืม" และ "อ๊ะ"

ยักษ์ใหญ่ด้านเทคโนโลยีกล่าวว่าสามารถพูดคุยกับผู้คนทางโทรศัพท์เพื่อทำการนัดหมายและตรวจสอบเวลาเปิดทำการของธุรกิจได้

Duplex กำหนดเวลานัดหมายร้านทำผม Google445 KB (ดาวน์โหลด)

ในการสนทนาที่บันทึกไว้ซึ่งเล่นในงานเปิดตัวของ Google นั้นสนทนาอย่างราบรื่นกับมนุษย์ที่ปลายทางผู้รับ ซึ่งดูเหมือนไม่รู้ตัวเลยว่าพวกเขาไม่ได้พูดคุยกับบุคคลอื่น

ดูเพล็กซ์เรียกร้านอาหาร Google399 KB (ดาวน์โหลด)

สายเหล่านี้ออกจาก ผู้ชมที่มุ่งเน้นเทคโนโลยีที่ Google แสดงอาการหอบและเชียร์. ในตัวอย่างนี้ AI เข้าใจด้วยซ้ำว่าคนที่กำลังคุยด้วยรู้สึกสับสน และสามารถติดตามการสนทนาต่อไปและตอบสนองอย่างเหมาะสมเมื่อได้รับแจ้งว่าไม่ต้องจอง


กราฟิกสมัครสมาชิกภายในตัวเอง


การเพิ่มขึ้นของผู้ช่วย AI

หากคุณเคยใช้ผู้ช่วยเสียงที่มีอยู่ในปัจจุบัน เช่น หน้าแรกของ Google, Siri ของ Apple หรือ Amazon Echoความยืดหยุ่นนี้อาจทำให้คุณประหลาดใจ ผู้ช่วยเหล่านี้คือ ลำบากอย่างฉาวโฉ่ เพื่อใช้สำหรับสิ่งอื่นนอกเหนือจากคำขอมาตรฐาน เช่น โทรหาผู้ติดต่อ เล่นเพลง ค้นหาเว็บอย่างง่าย หรือตั้งการเตือนความจำ

เมื่อเราพูดคุยกับผู้ช่วยรุ่นปัจจุบันเหล่านี้ เราตระหนักอยู่เสมอว่าเรากำลังพูดคุยกับ AI และเรามักจะปรับแต่งสิ่งที่เราพูดตามนั้น ในแบบที่เราหวังว่าจะเพิ่มโอกาสในการทำให้มันใช้งานได้สูงสุด

แต่คนที่คุยกับดูเพล็กซ์ไม่มีความคิด พวกเขาลังเล ย้อนรอย ข้ามคำ และแม้กระทั่งเปลี่ยนข้อเท็จจริงระหว่างประโยค ดูเพล็กซ์ไม่พลาดแม้แต่จังหวะเดียว ดูเหมือนจะเข้าใจสิ่งที่เกิดขึ้นจริงๆ


อ่านเพิ่มเติม: ลำโพงอัจฉริยะอาจเป็นจุดเปลี่ยนสำหรับระบบอัตโนมัติภายในบ้าน


อนาคตมาถึงเร็วกว่าที่ใคร ๆ คาดไว้หรือไม่? โลกกำลังจะเต็มไปด้วยผู้ช่วย AI ออนไลน์ (และทางโทรศัพท์) ที่พูดคุยอย่างมีความสุขและทำทุกอย่างเพื่อเราหรือไม่? หรือแย่กว่านั้น จู่ๆ เราก็จะถูกล้อมรอบด้วย AI ที่ชาญฉลาดด้วยความคิดและความคิดของตัวเองที่อาจรวมเราเป็นมนุษย์หรือไม่?

คำตอบคือ "ไม่" แน่นอน เพื่อให้เข้าใจถึงสาเหตุ การตรวจสอบอย่างรวดเร็วว่าอะไรเป็นตัวขับเคลื่อน AI เช่นนี้

ดูเพล็กซ์: มันทำงานอย่างไร

นี่คือสิ่งที่ ระบบ AI ดูเพล็กซ์ ดูเหมือน.

เสียงที่เข้ามาจะถูกประมวลผลผ่านระบบ ASR สิ่งนี้สร้างข้อความที่วิเคราะห์ด้วยข้อมูลบริบทและอินพุตอื่น ๆ เพื่อสร้างข้อความตอบกลับที่อ่านออกเสียงผ่านระบบข้อความเป็นคำพูด (TTS) Google

ระบบจะรับ "อินพุต" (แสดงทางด้านซ้าย) ซึ่งเป็นเสียงของบุคคลที่กำลังคุยโทรศัพท์ เสียงจะผ่านการรู้จำเสียงพูดอัตโนมัติ (ASR) และแปลงเป็นข้อความ (คำที่เขียน) ASR เป็นระบบ AI ขั้นสูง แต่เป็นระบบที่ใช้กันทั่วไปในผู้ช่วยเสียงที่มีอยู่แล้ว

จากนั้นระบบจะสแกนข้อความเพื่อกำหนดประเภทของประโยค (เช่น คำทักทาย ประโยคคำถาม หรือคำแนะนำ) และดึงข้อมูลสำคัญๆ ข้อมูลสำคัญจะกลายเป็นส่วนหนึ่งของบริบท ซึ่งเป็นการป้อนข้อมูลพิเศษที่ช่วยให้ระบบมีข้อมูลล่าสุดเกี่ยวกับสิ่งที่ได้กล่าวไปแล้วในการสนทนา

จากนั้นข้อความจาก ASR และบริบทจะถูกส่งไปยังหัวใจของ Duplex ซึ่งเรียกว่า Artificial Neural Network (ANN)

ในแผนภาพด้านบน ANN จะแสดงโดยวงกลมและเส้นที่เชื่อมเข้าด้วยกัน ANN ถูกจำลองอย่างหลวม ๆ ในสมองของเราซึ่งมีเซลล์ประสาทหลายพันล้านเซลล์เชื่อมต่อกันเป็นเครือข่ายขนาดใหญ่

ยังไม่มีสมอง

ANN นั้นง่ายกว่าสมองของเรามาก สิ่งเดียวที่คนนี้พยายามทำคือจับคู่คำที่ป้อนเข้ากับคำตอบที่เหมาะสม ANN เรียนรู้โดยการแสดงสำเนาบทสนทนานับพันของผู้คนที่ทำการจองร้านอาหาร

ด้วยตัวอย่างที่เพียงพอ จะเรียนรู้ว่าประโยคอินพุตประเภทใดที่ควรคาดหวังจากบุคคลที่กำลังคุยด้วย และคำตอบประเภทใดที่จะให้สำหรับแต่ละคน

จากนั้นข้อความตอบกลับที่ ANN สร้างจะถูกส่งไปยังซินธิไซเซอร์แปลงข้อความเป็นคำพูด (TTS) ซึ่งจะแปลงเป็นคำพูดที่เล่นต่อบุคคลทางโทรศัพท์

อีกครั้งที่ซินธิไซเซอร์ TTS นี้เป็น AI ขั้นสูง ในกรณีนี้ ซินธิไซเซอร์ของ TTS นั้นล้ำหน้ากว่าในโทรศัพท์ของคุณ เพราะฟังดูแทบจะแยกไม่ออกจากเสียงปกติใดๆ

นั่นคือทั้งหมดที่มีให้ แม้ว่าระบบจะล้ำสมัย แต่หัวใจของระบบจริงๆ แล้วเป็นเพียงกระบวนการจับคู่ข้อความเท่านั้น แต่คุณอาจถามว่า ถ้ามันง่ายขนาดนั้น ทำไมเราไม่ทำเมื่อก่อนล่ะ?

คำตอบที่ได้เรียนรู้

ความจริงก็คือภาษามนุษย์และสิ่งอื่น ๆ ส่วนใหญ่ในโลกแห่งความเป็นจริงนั้นแปรปรวนและไม่เป็นระเบียบเกินกว่าจะจัดการได้ดีโดยคอมพิวเตอร์ทั่วไป แต่ปัญหาประเภทนี้เหมาะสำหรับ AI

โปรดทราบว่าผลลัพธ์ที่ AI สร้างขึ้นนั้นขึ้นอยู่กับการสนทนาที่แสดงในขณะที่กำลังเรียนรู้

ซึ่งหมายความว่าต้องมีการฝึกอบรม AI ที่แตกต่างกันเพื่อทำการจองประเภทต่างๆ ตัวอย่างเช่น AI ตัวหนึ่งสามารถจองร้านอาหารและอีกเครื่องหนึ่งสามารถจองการนัดหมายผมได้

นี่เป็นสิ่งจำเป็นเนื่องจากประเภทของคำถามและคำตอบอาจแตกต่างกันมากสำหรับการจองประเภทต่างๆ นี่เป็นวิธีที่ Duplex สามารถทำได้ดีกว่าผู้ช่วยเสียงทั่วไปมาก ซึ่งจำเป็นต้องจัดการกับคำขอหลายประเภท

ดังนั้นตอนนี้จึงควรเป็นที่ชัดเจนว่าเราจะไม่ได้สนทนาแบบเป็นกันเองกับผู้ช่วย AI ของเราในเร็วๆ นี้ อันที่จริง AIs ปัจจุบันของเราทั้งหมดนั้นไม่มีอะไรมากไปกว่าตัวจับคู่รูปแบบ พวกเขาไม่เข้าใจสิ่งที่พวกเขาได้ยิน สิ่งที่พวกเขาดู หรือสิ่งที่พวกเขาพูด

การจับคู่รูปแบบเป็นสิ่งหนึ่งที่สมองของเราทำ แต่ก็ทำมากกว่านั้นอีกมาก กุญแจสำคัญในการสร้าง AI ที่ทรงพลังยิ่งขึ้นอาจเป็นการไขความลับของสมองให้มากขึ้น เราต้องการที่จะ? นั่นสินะ คำถามอื่น.สนทนา

เกี่ยวกับผู้เขียน

Peter Stratton นักวิจัยหลังปริญญาเอก มหาวิทยาลัยควีนส์แลนด์

บทความนี้ตีพิมพ์ซ้ำจาก สนทนา ภายใต้ใบอนุญาตครีเอทีฟคอมมอนส์ อ่าน บทความต้นฉบับ.