โมเดลการกำหนดเป้าหมายบน Facebook ของ Cambridge Analytica ทำงานอย่างไรคุณสามารถทำโปรไฟล์ออนไลน์ได้แม่นยำแค่ไหน? แอนดรูว์ คราโซวิตกี้/Shutterstock.com

นักวิจัยที่มีผลงานเป็นศูนย์กลางของ การวิเคราะห์ข้อมูล Facebook-Cambridge Analytica และความโกลาหลโฆษณาทางการเมือง ได้เผยว่าวิธีการของเขาได้ผลเหมือนกัน Netflix ใช้แนะนำหนัง.

ในอีเมลถึงฉัน นักวิชาการจากมหาวิทยาลัยเคมบริดจ์ Aleksandr Kogan อธิบายว่าแบบจำลองทางสถิติของเขาประมวลผลข้อมูล Facebook สำหรับ Cambridge Analytica ได้อย่างไร ความแม่นยำที่เขาอ้างว่ามันใช้ได้ผลดีเช่นกัน กำหนดวิธีการกำหนดเป้าหมายผู้มีสิทธิเลือกตั้ง ตามข้อมูลประชากร เช่น เชื้อชาติ อายุ และเพศ

หากได้รับการยืนยัน บัญชีของ Kogan จะหมายถึงการสร้างแบบจำลองดิจิทัลของ Cambridge Analytica ที่ใช้คือ แทบจะเป็นลูกบอลคริสตัลเสมือน บางคนอ้างว่า. ทว่าตัวเลขที่โคแกนให้มา แสดงด้วย อะไรคือ - และไม่ใช่ - เป็นไปได้จริง by การรวมข้อมูลส่วนบุคคล ด้วยแมชชีนเลิร์นนิง เพื่อจุดจบทางการเมือง

เกี่ยวกับข้อกังวลสาธารณะที่สำคัญประการหนึ่ง ตัวเลขของ Kogan แนะนำว่าข้อมูลเกี่ยวกับบุคลิกของผู้ใช้หรือ “Psychographics” เป็นเพียงส่วนเล็กๆ ที่โมเดลกำหนดเป้าหมายพลเมือง มันไม่ใช่โมเดลบุคลิกภาพที่พูดอย่างเคร่งครัด แต่เป็นแบบที่ต้มลงข้อมูลประชากร อิทธิพลทางสังคม บุคลิกภาพ และทุกอย่างอื่น ๆ ลงในก้อนใหญ่ที่มีความสัมพันธ์กัน วิธีการซึมซับทุกความสัมพันธ์และเรียกมันว่าบุคลิกภาพนี้ดูเหมือนจะสร้างเครื่องมือแคมเปญที่มีคุณค่า แม้ว่าผลิตภัณฑ์ที่ขายจะไม่ค่อยเหมือนที่เรียกเก็บเงินก็ตาม


กราฟิกสมัครสมาชิกภายในตัวเอง


คำมั่นสัญญาของการกำหนดเป้าหมายบุคลิกภาพ

จากการเปิดเผยที่ที่ปรึกษาการรณรงค์ของทรัมป์ Cambridge Analytica ใช้ ข้อมูลจากผู้ใช้ Facebook 50 ล้านคน เพื่อกำหนดเป้าหมายการโฆษณาทางการเมืองแบบดิจิทัลระหว่างการเลือกตั้งประธานาธิบดีสหรัฐปี 2016 Facebook มี สูญเสียมูลค่าตลาดหุ้นไปหลายพันล้าน, รัฐบาลบน ทั้งสองด้านของมหาสมุทรแอตแลนติก มี เปิดการสอบสวนและพึ่งเกิด การเคลื่อนไหวทางสังคม กำลังเรียกผู้ใช้ให้ #DeleteFacebook.

แต่คำถามสำคัญยังไม่ได้รับคำตอบ: Cambridge Analytica สามารถกำหนดเป้าหมายข้อความแคมเปญไปยังพลเมืองอย่างมีประสิทธิภาพตามลักษณะบุคลิกภาพของพวกเขาหรือไม่ - หรือแม้แต่ "ปีศาจภายใน” ตามที่บริษัทผู้แจ้งเบาะแสกล่าวหา?

ถ้าใครรู้ว่า Cambridge Analytica ทำอะไรกับข้อมูลจำนวนมหาศาลใน Facebook ก็คงจะเป็น Aleksandr Kogan และ Joseph Chancellor มันเป็น การเริ่มต้น Global Science Research ที่รวบรวมข้อมูลโปรไฟล์จาก ผู้ใช้ Facebook 270,000 คนและเพื่อนหลายสิบล้านคน โดยใช้แอปทดสอบบุคลิกภาพที่เรียกว่า “thisisyourdigitallife”

เป็นส่วนหนึ่งของ การวิจัยของฉันเอง เน้นความเข้าใจ เรียนรู้เครื่อง วิธีการและ หนังสือเล่มต่อไปของฉัน อภิปรายว่าบริษัทดิจิทัลใช้รูปแบบการแนะนำเพื่อสร้างกลุ่มเป้าหมายอย่างไร ฉันมีลางสังหรณ์ว่าแบบจำลองของโคแกนและนายกรัฐมนตรีทำงานอย่างไร

ฉันก็เลยส่งอีเมลไปถามโคแกน โคแกนยังคงเป็น นักวิจัยจากมหาวิทยาลัยเคมบริดจ์; ผู้ร่วมงานของเขา อธิการบดีตอนนี้ทำงานที่ Facebook. Kogan ตอบในการแสดงมารยาททางวิชาการที่โดดเด่น

การตอบสนองของเขาต้องมีการแกะกล่องและภูมิหลังบางอย่าง

จากรางวัล Netflix สู่ Psychometrics

ย้อนกลับไปในปี 2006 เมื่อยังเป็นบริษัทที่ให้บริการดีวีดีทางไปรษณีย์ Netflix ได้เสนอ a เงินรางวัล 1 ล้าน ให้กับทุกคนที่พัฒนาวิธีการทำนายอันดับภาพยนตร์ของผู้ใช้ได้ดีกว่าที่บริษัทมีอยู่แล้ว คู่แข่งชั้นนำที่น่าประหลาดใจคือ an นักพัฒนาซอฟต์แวร์อิสระโดยใช้นามแฝง Simon Funkซึ่งวิธีการพื้นฐานถูกรวมเข้าไว้ในรายการของทีมชั้นนำทั้งหมด Funk ได้ดัดแปลงเทคนิคที่เรียกว่า “การสลายตัวของค่าเอกพจน์” สรุปการให้คะแนนภาพยนตร์ของผู้ใช้เป็น ชุดของปัจจัยหรือส่วนประกอบ – โดยพื้นฐานแล้วชุดของหมวดหมู่ที่อนุมานโดยจัดลำดับตามความสำคัญ แอสฟังค์ อธิบายไว้ในบล็อกโพสต์,

“ตัวอย่างเช่น หมวดหมู่อาจแสดงถึงภาพยนตร์แอคชั่น โดยมีภาพยนตร์ที่มีแอ็คชั่นอยู่ด้านบนเป็นจำนวนมาก และภาพยนตร์ที่ช้าอยู่ด้านล่าง และผู้ใช้ที่ชอบภาพยนตร์แอคชั่นอยู่ด้านบน และผู้ที่ชอบดูหนังช้าที่ ล่าง."

ปัจจัยคือหมวดหมู่เทียม ซึ่งไม่เหมือนกับหมวดหมู่ที่มนุษย์คิดขึ้นเสมอไป NS ปัจจัยที่สำคัญที่สุดใน Netflix รุ่นแรกๆ ของ Funk ถูกกำหนดโดยผู้ใช้ที่รักภาพยนตร์อย่าง “Pearl Harbor” และ “The Wedding Planner” ในขณะที่เกลียดภาพยนตร์อย่าง “Lost in Translation” หรือ “Eternal Sunshine of the Spotless Mind” โมเดลของเขาแสดงให้เห็นว่าแมชชีนเลิร์นนิงสามารถค้นหาความสัมพันธ์ระหว่างกลุ่มคนและกลุ่มภาพยนตร์ที่มนุษย์เองจะไม่มีวันมองเห็นได้อย่างไร

วิธีการทั่วไปของ Funk ใช้ปัจจัยที่สำคัญที่สุด 50 หรือ 100 ปัจจัยสำหรับทั้งผู้ใช้และภาพยนตร์เพื่อคาดเดาอย่างเหมาะสมว่าผู้ใช้ทุกคนจะให้คะแนนภาพยนตร์ทุกเรื่องอย่างไร วิธีนี้มักเรียกกันว่า การลดขนาด หรือการแยกตัวประกอบของเมทริกซ์ไม่ใช่เรื่องใหม่ นักวิจัยรัฐศาสตร์ได้แสดงให้เห็นว่า เทคนิคที่คล้ายกันโดยใช้ข้อมูลการโหวตแบบโรลคอล สามารถทำนายคะแนนเสียงของสมาชิกสภาคองเกรสได้อย่างแม่นยำถึงร้อยละ 90 ในทางจิตวิทยา “บิ๊กห้าแบบจำลองยังถูกใช้ทำนายพฤติกรรมด้วยการรวมกลุ่มคำถามบุคลิกภาพที่มีแนวโน้มจะได้รับคำตอบในทำนองเดียวกัน

ถึงกระนั้น โมเดลของ Funk ก็มีความก้าวหน้าอย่างมาก: ช่วยให้เทคนิคนี้ทำงานได้ดีกับชุดข้อมูลขนาดใหญ่ แม้กระทั่งชุดข้อมูลที่มีข้อมูลที่ขาดหายไปจำนวนมาก เช่น ชุดข้อมูลของ Netflix ซึ่งผู้ใช้ทั่วไปให้คะแนนภาพยนตร์เพียงไม่กี่โหลจากจำนวนภาพยนตร์นับพันเรื่องของบริษัท ห้องสมุด. กว่าทศวรรษหลังจากการประกวด Netflix Prize สิ้นสุดลง วิธีการที่ใช้ SVD,หรือ แบบจำลองที่เกี่ยวข้องสำหรับข้อมูลโดยนัยยังคงเป็นเครื่องมือที่เหมาะสำหรับเว็บไซต์จำนวนมากในการคาดเดาสิ่งที่ผู้ใช้จะอ่าน ดู หรือซื้อ

โมเดลเหล่านี้สามารถทำนายสิ่งอื่นๆ ได้เช่นกัน

Facebook รู้ว่าคุณเป็นรีพับลิกันหรือไม่

ในปี 2013 นักวิจัยจากมหาวิทยาลัยเคมบริดจ์ Michal Kosinski, David Stillwell และ Thore Graepel ได้ตีพิมพ์บทความเรื่อง พลังการทำนายของข้อมูล Facebookโดยใช้ข้อมูลที่รวบรวมผ่านการทดสอบบุคลิกภาพออนไลน์ การวิเคราะห์เบื้องต้นของพวกเขาเกือบจะเหมือนกับที่ใช้ในรางวัล Netflix โดยใช้ SVD เพื่อจัดหมวดหมู่ทั้งผู้ใช้และสิ่งที่พวกเขา "ชอบ" เป็นปัจจัย 100 อันดับแรก

กระดาษพบว่าแบบจำลองปัจจัยที่ทำกับ Facebook ของผู้ใช้ "ชอบ" เพียงอย่างเดียวคือ แม่นยำ 95 เปอร์เซ็นต์ ในการแยกความแตกต่างระหว่างผู้ตอบแบบสำรวจขาวดำ ร้อยละ 93 แยกแยะความแตกต่างระหว่างผู้ชายกับผู้หญิง และแม่นยำ 88 เปอร์เซ็นต์ในการแยกแยะคนที่ระบุว่าเป็นชายเกย์จากชายที่ระบุว่าเป็นชายแท้ มันสามารถแยกแยะรีพับลิกันจากพรรคเดโมแครตได้อย่างถูกต้อง 85 เปอร์เซ็นต์ของเวลา มันยังมีประโยชน์แม้ว่าจะไม่แม่นยำเท่าสำหรับ การทำนายคะแนนของผู้ใช้ ในการทดสอบบุคลิกภาพ “บิ๊กไฟว์”

มี ประชาชนโวย ตอบสนอง; ภายในไม่กี่สัปดาห์ Facebook มี ทำให้ผู้ใช้ไลค์เป็นส่วนตัว โดยค่าเริ่มต้น

Kogan และ Chancellor ซึ่งเป็นนักวิจัยของมหาวิทยาลัยเคมบริดจ์ในขณะนั้นก็เริ่มใช้ข้อมูล Facebook สำหรับการกำหนดเป้าหมายการเลือกตั้งซึ่งเป็นส่วนหนึ่งของความร่วมมือกับ SCL ซึ่งเป็นบริษัทแม่ของ Cambridge Analytica Kogan เชิญ Kosinski และ Stillwell เข้าร่วมโครงการของเขา แต่มัน ไม่ได้ผล. มีรายงานว่า Kosinski สงสัยว่า Kogan และ Chancellor อาจมี วิศวกรรมย้อนกลับรูปแบบ "ไลค์" ของ Facebook สำหรับ Cambridge Analytica Kogan ปฏิเสธเรื่องนี้โดยกล่าวว่าโครงการของเขา “สร้างโมเดลของเราทั้งหมด โดยใช้ข้อมูลของเราเอง รวบรวมโดยใช้ซอฟต์แวร์ของเราเอง”

Kogan และ Chancellor ทำอะไรกันแน่?

เมื่อฉันติดตามความคืบหน้าของเรื่องราว เห็นได้ชัดว่า Kogan และ Chancellor ได้รวบรวมข้อมูลของพวกเขาเองมากมายผ่านแอพ thisisyourdigitallife แน่นอน พวกเขาสามารถสร้างแบบจำลอง SVD ที่คาดการณ์ได้เช่นเดียวกับที่มีในงานวิจัยที่ตีพิมพ์ของ Kosinski และ Stillwell

ดังนั้นฉันจึงส่งอีเมลถึง Kogan เพื่อถามว่านั่นคือสิ่งที่เขาทำหรือเปล่า ค่อนข้างแปลกใจของฉันเขาเขียนกลับมา

“เราไม่ได้ใช้ SVD อย่างแน่นอน” เขาเขียนโดยสังเกตว่า SVD อาจมีปัญหาเมื่อผู้ใช้บางคนมี “ไลค์” มากกว่าคนอื่นๆ แต่ Kogan อธิบายว่า “เทคนิคนี้เป็นสิ่งที่เราพัฒนาขึ้นเองจริง ๆ … มันไม่ใช่สิ่งที่เป็นสาธารณสมบัติ” โดยไม่ต้องลงรายละเอียด Kogan อธิบายวิธีการของพวกเขาว่าเป็น "หลายขั้นตอน เหตุการณ์ร่วม เข้าใกล้."

อย่างไรก็ตาม ข้อความของเขายังคงยืนยันว่าแนวทางของเขาคล้ายกับ SVD หรือวิธีการแยกตัวประกอบเมทริกซ์อื่นๆ เช่น ในการแข่งขัน Netflix Prize และโมเดล Facebook ของ Kosinki-Stillwell-Graepel การลดมิติข้อมูลของ Facebook เป็นแกนหลักของโมเดลของเขา

มันแม่นยำแค่ไหน?

Kogan แนะนำว่ารูปแบบที่แน่นอนที่ใช้นั้นไม่สำคัญมากนัก สิ่งที่สำคัญคือความแม่นยำของการคาดคะเน ตาม Kogan "ความสัมพันธ์ระหว่างคะแนนที่คาดการณ์กับคะแนนจริง … อยู่ที่ประมาณ [30 เปอร์เซ็นต์] สำหรับมิติบุคลิกภาพทั้งหมด" โดยการเปรียบเทียบคะแนน Big Five ก่อนหน้าของบุคคลนั้นเกี่ยวกับ แม่นยำ 70 ถึง 80 เปอร์เซ็นต์ ในการทำนายคะแนนเมื่อสอบใหม่

การเรียกร้องความถูกต้องของ Kogan ไม่สามารถตรวจสอบได้โดยอิสระแน่นอน และใครก็ตามที่อยู่ท่ามกลางเรื่องอื้อฉาวที่มีชื่อเสียงดังกล่าวอาจมีแรงจูงใจที่จะพูดน้อยถึงการมีส่วนร่วมของเขาหรือเธอ ในของเขา ปรากฎตัวใน CNNKogan อธิบายกับ Anderson Cooper ที่ไม่เชื่อมากขึ้นเรื่อยๆ ว่าอันที่จริง โมเดลเหล่านี้ทำงานได้ไม่ดีนัก

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan ตอบคำถามเกี่ยวกับ CNN

ในความเป็นจริง Kogan อ้างว่ามีความแม่นยำเล็กน้อย แต่น่าเชื่อถือ Kosinski, Stillwell และ Graepel รายงานผลลัพธ์ที่เปรียบเทียบได้หรือดีกว่าเล็กน้อย เนื่องจากมีหลายอย่าง วิชาการอื่นๆ ใช้รอยเท้าดิจิทัลเพื่อทำนายบุคลิกภาพ (แม้ว่าการศึกษาบางส่วนจะมีข้อมูลมากกว่าแค่ "ไลค์" ของ Facebook เป็นเรื่องน่าประหลาดใจที่ Kogan และ Chancellor จะประสบปัญหาในการออกแบบโมเดลที่เป็นกรรมสิทธิ์ของตนเอง หากโซลูชันที่วางจำหน่ายทั่วไปดูเหมือนจะมีความแม่นยำเช่นเดียวกัน

ที่สำคัญ ความแม่นยำของแบบจำลองเกี่ยวกับคะแนนบุคลิกภาพช่วยให้สามารถเปรียบเทียบผลลัพธ์ของ Kogan กับงานวิจัยอื่นๆ ได้ แบบจำลองที่เผยแพร่ซึ่งมีความแม่นยำเทียบเท่าในการทำนายบุคลิกภาพทั้งหมดนั้นแม่นยำกว่ามากในการเดาข้อมูลประชากรและตัวแปรทางการเมือง

ตัวอย่างเช่น แบบจำลอง Kosinski-Stillwell-Graepel SVD ที่คล้ายคลึงกันนั้นแม่นยำถึง 85 เปอร์เซ็นต์ในการคาดเดาความเกี่ยวข้องของปาร์ตี้ แม้จะไม่ได้ใช้ข้อมูลโปรไฟล์อื่นใดนอกจากการชอบก็ตาม แบบจำลองของ Kogan มีความแม่นยำเทียบเท่าหรือดีกว่า การเพิ่มข้อมูลเพียงเล็กน้อยเกี่ยวกับเพื่อนหรือข้อมูลประชากรของผู้ใช้อาจช่วยเพิ่มความแม่นยำได้มากกว่า 90 เปอร์เซ็นต์ การคาดเดาเกี่ยวกับเพศ เชื้อชาติ รสนิยมทางเพศ และลักษณะอื่นๆ ก็น่าจะถูกต้องมากกว่า 90 เปอร์เซ็นต์เช่นกัน

การเดาเหล่านี้จะดีเป็นพิเศษสำหรับผู้ใช้ Facebook ที่มีการใช้งานมากที่สุด - ผู้คนที่โมเดลใช้เพื่อกำหนดเป้าหมายเป็นหลัก ผู้ใช้ที่มีกิจกรรมให้วิเคราะห์น้อยมักจะไม่อยู่บน Facebook อยู่ดี

เมื่อ Psychographics ส่วนใหญ่เป็นข้อมูลประชากร

การรู้วิธีสร้างแบบจำลองช่วยอธิบายข้อความที่ขัดแย้งกันอย่างเห็นได้ชัดของ Cambridge Analytica เกี่ยวกับ บทบาท - หรือ ขาดมัน - การสร้างโปรไฟล์บุคลิกภาพและจิตวิทยานั้นเล่นในการสร้างแบบจำลอง พวกเขาทั้งหมดสอดคล้องกับสิ่งที่ Kogan อธิบายในทางเทคนิค

โมเดลอย่าง Kogan จะให้ค่าประมาณสำหรับตัวแปรทุกตัวที่มีในกลุ่มผู้ใช้ทุกกลุ่ม นั่นหมายความว่ามันจะโดยอัตโนมัติ ประเมินคะแนนบุคลิกภาพบิ๊กไฟว์ สำหรับผู้มีสิทธิเลือกตั้งทุกคน แต่คะแนนบุคลิกภาพเหล่านี้เป็นผลลัพธ์ของโมเดล ไม่ใช่ข้อมูลที่ป้อน โมเดลทั้งหมดรู้ดีว่า Facebook บางคนชอบและผู้ใช้บางคนมักจะถูกจัดกลุ่มเข้าด้วยกัน

ด้วยโมเดลนี้ Cambridge Analytica สามารถพูดได้ว่าเป็นการระบุบุคคลที่เปิดรับประสบการณ์ต่ำและมีอาการทางประสาทสูง แต่รูปแบบเดียวกันซึ่งมีการคาดการณ์เหมือนกันทุกประการสำหรับผู้ใช้ทุกคน สามารถอ้างได้อย่างแม่นยำว่าระบุชายรีพับลิกันที่มีอายุมากกว่าที่มีการศึกษาน้อย

ข้อมูลของ Kogan ยังช่วยชี้แจงความสับสนว่า Cambridge Analytica จริง ๆ แล้วลบขุมของมัน ของข้อมูล Facebook เมื่อโมเดลสร้างจากข้อมูล เหมือนจะยังหมุนเวียนอยู่และแม้กระทั่ง กำลังพัฒนาต่อไป.

สนทนาจุดรวมของแบบจำลองการลดขนาดคือการแสดงข้อมูลในรูปแบบที่ง่ายกว่าทางคณิตศาสตร์ เหมือนกับว่า Cambridge Analytica ถ่ายภาพที่มีความละเอียดสูงมาก ปรับขนาดให้เล็กลง แล้วจึงลบต้นฉบับ ภาพถ่ายยังคงอยู่ – และตราบใดที่แบบจำลองของ Cambridge Analytica มีอยู่ ข้อมูลก็มีประสิทธิภาพเช่นกัน

เกี่ยวกับผู้เขียน

Matthew Hindman รองศาสตราจารย์ด้านสื่อและกิจการสาธารณะ มหาวิทยาลัย George Washington

บทความนี้ถูกเผยแพร่เมื่อวันที่ สนทนา. อ่าน บทความต้นฉบับ.

หนังสือที่เกี่ยวข้อง

at ตลาดภายในและอเมซอน