พูดคุยกับฉันคอมพิวเตอร์: การควบคุมด้วยเสียงกำลังปิด

หากพัสดุที่ไม่คาดคิดเริ่มปรากฏขึ้นที่ประตูของคุณ คุณอาจต้องการพูดคุยกับหนึ่งในอุปกรณ์อัจฉริยะของคุณ

เมื่อต้นเดือนนี้ เด็ก XNUMX ขวบในดัลลัสถามครอบครัวของเธอว่า Amazon ก้อง ลำโพงอัจฉริยะสำหรับบ้านตุ๊กตา และ Alexa ผู้ช่วยเสมือน Siri ของ Amazon ได้ทันที สั่งมาที่บ้าน.

รายการข่าวทางโทรทัศน์ของซานดิเอโกหยิบเรื่องขึ้นมาและพูดซ้ำโดยไม่ได้ตั้งใจเมื่อผู้ประกาศข่าวคนหนึ่งแสดงความคิดเห็นว่า “ฉันรักเด็กหญิงตัวเล็ก ๆ ที่พูดว่า 'Alexa สั่งให้ฉันสร้างบ้านตุ๊กตา'” เมื่อได้ยินสิ่งนี้ อุปกรณ์ Amazon อื่นๆ อีกหลายเครื่องในบ้านทั่วซานดิเอโก พยายามซื้อบ้านตุ๊กตาเพิ่ม.

รายงานข่าว CW6 San Diego เกี่ยวกับการซื้อบ้านตุ๊กตาโดยบังเอิญของ Alexa

{youtube}oI2KLIULjXc{/youtube}

เรื่องราวอาจฟังดูคุ้นหูสำหรับทุกคนที่พยายามสนทนากับ Siri ของ Apple หรือ Cortana ของ Microsoft อุปกรณ์ของเราค่อนข้างดีในการฟังเรา แต่นั่นไม่ได้หมายความว่าอุปกรณ์จะเข้าใจเสมอไป

เมื่อเร็ว ๆ นี้ นักวิจัยของ Microsoft ระบุว่าสิ่งนี้เป็นปัญหาที่อาจเกิดขึ้นกับอินเทอร์เฟซการพูดคุยในปัจจุบัน: พวกเขาถูกวางตลาดในฐานะผู้ช่วยที่ "ฉลาด" ด้วยมุขตลกที่ชาญฉลาดและความรู้ทางโลก แต่พวกเขามักจะทำให้เราหงุดหงิดเพราะขาดสามัญสำนึก


กราฟิกสมัครสมาชิกภายในตัวเอง


ใน การศึกษาขนาดเล็กนักวิจัยพบว่าคนที่ยังคงพูดคุยกับผู้ช่วยดิจิทัลตลอดเวลาคือคนที่เริ่มต้นด้วยความคาดหวังต่ำที่สุด

อินเทอร์เฟซเสียงทำอะไรได้จริง?

เมื่อคุณพูดกับอินเทอร์เฟซเสียง จะต้อง:

  • "ได้ยิน" เสียงของคุณและแยกความแตกต่างจากเสียงพื้นหลัง
  • ค้นหาว่าแต่ละคำเริ่มต้นและสิ้นสุดที่ใด โดยไม่สนใจ "อืม" และ "อ่า" ของคุณ
  • จับคู่เสียงของแต่ละคำกับคำในพจนานุกรม เลือกคำที่เหมาะสมจากบริบทหากมี โฮโมโฟน
  • แปลความหมายให้ถูกต้องทั้งประโยค
  • สร้างการตอบสนองที่มีความหมายและเป็นประโยชน์ที่ตรงกับคำขอของคุณ

สิ่งเหล่านี้เป็นความท้าทายทางเทคนิคที่ซับซ้อน และบริษัทเทคโนโลยีต่างๆ มีความก้าวหน้าในด้านต่างๆ

Google Now สามารถตอบสนองต่อคำขอที่หลากหลายได้ดี เนื่องจากจะได้รับประโยชน์จากข้อมูลมากมายของ Google เกี่ยวกับเว็บ และกิจกรรมส่วนตัวของคุณ หากคุณใช้บริการของ Google

Amazon Echo นั้นดีเป็นพิเศษในการฟังคำขอของคุณจากทั่วทั้งห้องที่มีเสียงดัง ต้องขอบคุณอาร์เรย์ไมโครโฟนระยะไกลที่ตัดเสียงรบกวน แน่นอนว่าการซื้อผ่าน Amazon ก็ดีเช่นกัน

ในช่วงไม่กี่ปีที่ผ่านมา อินเทอร์เฟซเสียงสามารถเข้าใจคำพูดในชีวิตประจำวันหรือคำพูดที่ "เป็นธรรมชาติ" ได้ดีขึ้นมาก แทนที่จะใช้เฉพาะคำสั่งที่ใช้คำพูดที่เฉียบแหลมและระมัดระวัง พวกเขายังคงจัดการกับคำถามง่ายๆ ได้ดีกว่า เช่น "ใครเล่น Australian Open บ้าง" และมักจะต่อสู้กับคำขอที่ซับซ้อนมากขึ้น เช่น "ใครเล่น Australian Open เป็นครั้งแรกในปีนี้" และการติดตามผล คำถาม เช่น "ฝนจะตกในช่วงรอบชิงชนะเลิศหรือไม่"

สถานการณ์นี้มีความหลากหลายมากขึ้นสำหรับภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ในขณะที่ Siri รองรับภาษาและภาษาถิ่นมากกว่า 40 ภาษา จนถึงขณะนี้ Alexa มีให้บริการในภาษาอังกฤษและเยอรมันเท่านั้น แต่คุณสมบัติทั้งหมดเหล่านี้มีการปรับปรุงอย่างต่อเนื่อง

ที่ส่วนต่อประสานเสียงพูดติดอ่าง

ในไม่ช้าอินเทอร์เฟซเสียงจะเข้ามาแทนที่เทคโนโลยีทั้งหมดของเราตามที่คาดการณ์ไว้ในภาพยนตร์ เธอ? Gartner บริษัทวิจัยเทคโนโลยี มีการคาดการณ์ ว่าในปีหน้า 30% ของการโต้ตอบกับเทคโนโลยีของเราจะเป็นการสนทนาด้วยอินเทอร์เฟซที่เปิดใช้งานเสียง

แต่อินเทอร์เฟซเสียงมีข้อจำกัด และไม่สามารถแก้ไขได้ทั้งหมดด้วยเทคโนโลยีที่ดีกว่า

เสียงเป็นสื่อกลางในการเชื่อมต่อกับเทคโนโลยีในภาพยนตร์ของ Spike Jonze เรื่อง Her

{youtube}ne6p6MfLBxc{/youtube}

มลพิษทางเสียงเป็นอุปสรรคสำคัญอย่างหนึ่ง อุปกรณ์ของคุณแยกแยะสิ่งที่คุณพูดจากเสียงรบกวนรอบข้างได้หรือไม่ เทคโนโลยีสามารถช่วยในเรื่องนั้นได้ รวมถึงการลดเสียงรบกวน การจดจำเสียงในแบบของคุณ และการอ่านริมฝีปาก

แต่สิ่งที่เกี่ยวกับเสียงพื้นหลังที่คุณสร้างขึ้นสำหรับผู้อื่นโดยการพูดคุยกับอุปกรณ์สมาร์ทของคุณ ลองนึกภาพคนนั่งข้างคุณในสำนักงาน หรือบนเครื่องบิน กำลังคุยกับ Siri ขณะที่คุณกำลังพยายามอ่าน และคุณจะเห็นว่าทำไมอินเทอร์เฟซเสียงจึงไม่เป็นที่ยอมรับในสังคมเสมอไป

ปัญหาอีกชุดหนึ่งมาจากความต้องการทางจิตของอินเทอร์เฟซเสียง การเรียนรู้การใช้ระบบเสียงอาจเป็นเรื่องยาก โดยเฉพาะอย่างยิ่งหากไม่มีหน้าจอ เช่นเดียวกับ Amazon Echo

หากคุณเคยโทรหาธนาคารหรือบริษัทโทรศัพท์ คุณคงรู้ดีถึงความมีสมาธิและความเบื่อหน่ายที่เกิดจากการฟังรายการเสียงที่สังเคราะห์ขึ้นจากตัวเลือกทั้งหมดของคุณในขณะที่คุณรอตัวเลือกที่คุณต้องการและพยายามอย่าผสมมันเข้าด้วยกัน ขึ้น. อินเทอร์เฟซแบบกราฟิกแบบดั้งเดิมช่วยหลีกเลี่ยงปัญหานี้ด้วยการแสดงตัวเลือกที่มีให้คุณเห็น และให้คุณแตะตัวเลือกของคุณได้อย่างรวดเร็ว

หลังจากที่คุณได้เรียนรู้คำสั่งเสียงแล้ว การใช้คำสั่งเหล่านี้อาจทำให้เสียสมาธิ นักวิจัยพบว่าคำสั่งเสียง ทำลายรถไฟแห่งความคิดของคุณ มากกว่าเมาส์และคีย์บอร์ด

สิ่งนี้เป็นอันตรายโดยเฉพาะอย่างยิ่งสำหรับอินเทอร์เฟซเสียงในรถยนต์: การศึกษาคู่หนึ่งจากมหาวิทยาลัยยูทาห์พบว่าคนขับถูก ฟุ้งซ่านนานถึง 27 วินาที หลังจากใช้คำสั่งเสียง

มหาวิทยาลัยยูทาห์ / มูลนิธิ AAA เพื่อการวิจัยความปลอดภัยการจราจรเกี่ยวกับความฟุ้งซ่านของคนขับ

{vimeo}108281698{/vimeo}

ค้นหาเสียงของมัน?

ดังนั้นอินเทอร์เฟซเสียงจึงไม่น่าจะเข้าควบคุมได้ทั้งหมด แต่จะพบว่ามีประโยชน์ในชีวิตของเรา สิ่งเหล่านี้พบได้ทั่วไปในรถยนต์ ซึ่งหวังว่าจะทำให้เสียสมาธิน้อยลงเมื่อเทคโนโลยีพัฒนาขึ้น

ในห้องครัว คุณสามารถขอให้ Alexa พูดเกี่ยวกับสูตรอาหารหรืออัปเดตรายการช้อปปิ้งของคุณในขณะที่มือของคุณกำลังทำอาหารอยู่ ในโลกเสมือนจริงและเสมือนจริง อินเทอร์เฟซเสียงช่วยให้คุณควบคุมระบบได้เมื่อคุณมองไม่เห็นมือของคุณเลย

ในการเรียนภาษาสามารถใช้ฝึกการออกเสียงได้ สิ่งสำคัญที่สุดคือ อินเทอร์เฟซเสียงช่วยให้ผู้ใช้ที่มีความบกพร่องทางการเคลื่อนไหว RSI หรือ dyslexia เอาชนะความพิการของตนได้

อินเทอร์เฟซด้วยเสียงเป็นเทคโนโลยีที่รอคอยมานาน และมีเหตุผลดีๆ ให้คิดว่าถึงเวลาแล้ว เพียงจำไว้ว่าพวกเขาอาจยังไม่ฉลาดอย่างที่คิด และคุณอาจต้องการใส่รหัส PIN สำหรับการซื้อด้วยเสียงหากมีเด็กอยู่ใกล้ๆ

สนทนา

เกี่ยวกับผู้เขียน

Fraser Allison ผู้สมัครระดับปริญญาเอกด้านปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ มหาวิทยาลัยเมลเบิร์น

บทความนี้ถูกเผยแพร่เมื่อวันที่ สนทนา. อ่าน บทความต้นฉบับ.

รายการที่เกี่ยวข้อง

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market และ Amazon