เพื่อนของคุณบน Twitter อาจทำให้คุณไม่เปิดเผยตัวตนได้อย่างไร

ขณะที่คุณท่องอินเทอร์เน็ต ผู้โฆษณาออนไลน์ติดตาม เกือบทุกไซต์ที่คุณเยี่ยมชมรวบรวมข้อมูลเกี่ยวกับนิสัยและความชอบของคุณ เมื่อคุณเยี่ยมชมเว็บไซต์ข่าว พวกเขาอาจเห็นว่าคุณเป็นแฟนของนิยายบาสเก็ตบอล โอเปร่า และปริศนา แล้วจึงเลือกโฆษณาที่เหมาะกับรสนิยมของคุณ

ผู้โฆษณาใช้ข้อมูลนี้เพื่อสร้างประสบการณ์ที่เป็นส่วนตัวสูง แต่โดยทั่วไปแล้วพวกเขาจะไม่รู้ว่าคุณเป็นใคร พวกเขาสังเกตเฉพาะเส้นทางดิจิทัลของคุณ ไม่ใช่ตัวตนของคุณ ดังนั้นคุณอาจรู้สึกว่าคุณยังคงรักษาความเป็นนิรนามไว้ได้ในระดับหนึ่ง

แต่ในบทความที่ฉันเขียนร่วมกัน กับ Ansh Shukla, Sharad Goel และ Arvind Narayananเราแสดงให้เห็นว่าบันทึกการท่องเว็บที่ไม่ระบุชื่อเหล่านี้มักจะเชื่อมโยงกับข้อมูลประจำตัวในโลกแห่งความเป็นจริง

เพื่อทดสอบแนวทางของเรา เราได้สร้าง เว็บไซต์ ที่ซึ่งผู้คนสามารถบริจาคประวัติการสืบค้นเพื่อวัตถุประสงค์ในการศึกษานี้ จากนั้นเราพยายามดูว่าเราสามารถเชื่อมโยงประวัติของพวกเขากลับไปยังโปรไฟล์ Twitter ของพวกเขาได้หรือไม่โดยใช้ข้อมูลที่เปิดเผยต่อสาธารณะเท่านั้น เจ็ดสิบสองเปอร์เซ็นต์ของผู้ที่เราพยายามปกปิดชื่อถูกระบุอย่างถูกต้องว่าเป็นผู้สมัครอันดับต้น ๆ ในผลการค้นหา และ 81 เปอร์เซ็นต์เป็นหนึ่งในผู้สมัคร 15 อันดับแรก

ความเป็นส่วนตัว2 2 8ภาพหน้าจอของเว็บไซต์ deanonymization

ตามความรู้ของเรา นี่คือการสาธิตการลบชื่อที่ไม่ระบุชื่อในวงกว้างที่สุดในปัจจุบัน เนื่องจากได้เลือกผู้ใช้ที่ถูกต้องจากผู้ใช้ Twitter ที่เป็นไปได้หลายร้อยล้านคน นอกจากนี้ วิธีการของเรากำหนดให้มีเพียงบุคคลที่คลิกลิงก์ที่ปรากฏในฟีดโซเชียลมีเดีย ไม่ใช่ว่าพวกเขาโพสต์เนื้อหาใด ๆ ดังนั้นแม้แต่ผู้ที่ระมัดระวังเกี่ยวกับสิ่งที่พวกเขาแบ่งปันบนอินเทอร์เน็ตก็ยังเสี่ยงต่อการโจมตีนี้


กราฟิกสมัครสมาชิกภายในตัวเอง


วิธีการทำงาน

ในระดับสูง วิธีการของเราอยู่บนพื้นฐานของการสังเกตง่ายๆ แต่ละคนมีโซเชียลเน็ตเวิร์กที่มีความโดดเด่นสูง ซึ่งประกอบด้วยครอบครัวและเพื่อนที่โรงเรียน ที่ทำงาน และช่วงต่างๆ ของชีวิต ด้วยเหตุนี้ ชุดลิงก์ในฟีด Facebook และ Twitter ของคุณจึงมีความโดดเด่นอย่างมาก การคลิกลิงก์เหล่านี้จะทิ้งร่องรอยไว้ในประวัติการเข้าชมของคุณ

เมื่อดูจากชุดของหน้าเว็บที่แต่ละคนเข้าชม เราสามารถเลือกฟีดโซเชียลมีเดียที่คล้ายคลึงกัน ให้รายชื่อผู้สมัครที่อาจสร้างประวัติการท่องเว็บนั้น ในลักษณะนี้ เราสามารถเชื่อมโยงอัตลักษณ์ในโลกจริงของบุคคลเข้ากับชุดลิงก์ที่เกือบสมบูรณ์ที่พวกเขาเคยเยี่ยมชม ซึ่งรวมถึงลิงก์ที่ไม่เคยโพสต์บนไซต์โซเชียลมีเดียใดๆ

การดำเนินการตามกลยุทธ์นี้เกี่ยวข้องกับความท้าทายหลักสองประการ อย่างแรกคือตามทฤษฎี: คุณจะหาปริมาณว่าฟีดโซเชียลมีเดียที่เจาะจงมีความคล้ายคลึงกับประวัติการท่องเว็บที่กำหนดได้อย่างไร วิธีง่ายๆ วิธีหนึ่งคือการวัดส่วนของลิงก์ในประวัติการเข้าชมที่ปรากฏในฟีดด้วย วิธีนี้ใช้ได้ผลดีในทางปฏิบัติ แต่เกินจริงความคล้ายคลึงกันสำหรับฟีดขนาดใหญ่ เนื่องจากมีลิงก์มากกว่า เราใช้แนวทางอื่นแทน เราวางโมเดลพฤติกรรมการท่องเว็บที่มีสไตล์และน่าจะเป็นไปได้ จากนั้นจึงคำนวณความเป็นไปได้ที่ผู้ใช้ด้วยฟีดโซเชียลมีเดียจะสร้างประวัติการท่องเว็บที่สังเกตได้ จากนั้นเราเลือกฟีดโซเชียลมีเดียที่มีแนวโน้มมากที่สุด

ความท้าทายที่สองเกี่ยวข้องกับการระบุฟีดที่คล้ายกันมากที่สุดในแบบเรียลไทม์ ที่นี่เราหันไปใช้ Twitter เนื่องจากฟีด Twitter (ตรงกันข้ามกับ Facebook) ส่วนใหญ่เป็นสาธารณะ อย่างไรก็ตาม แม้ว่าฟีดจะเป็นสาธารณะ แต่เราไม่สามารถสร้างสำเนา Twitter ในพื้นที่ซึ่งเราสามารถเรียกใช้การสืบค้นของเราได้ เราใช้เทคนิคต่างๆ เพื่อลดพื้นที่ในการค้นหาลงอย่างมาก จากนั้นเราจะรวมเทคนิคการแคชกับการรวบรวมข้อมูลเครือข่ายตามต้องการเพื่อสร้างฟีดของผู้สมัครที่มีแนวโน้มมากที่สุด ในชุดตัวเลือกที่ลดลงนี้ เราใช้การวัดความคล้ายคลึงของเราเพื่อสร้างผลลัพธ์สุดท้าย จากประวัติการเรียกดู โดยปกติเราสามารถดำเนินการทั้งหมดนี้ได้ภายใน 60 วินาที

วิธีการของเรานั้นแม่นยำกว่าสำหรับผู้ที่ท่องเว็บ Twitter อย่างกระตือรือร้นมากขึ้น ผู้เข้าร่วม 100% ที่คลิกลิงก์ XNUMX ลิงก์ขึ้นไปบน Twitter สามารถจับคู่กับข้อมูลระบุตัวตนได้

หลายบริษัทมีแหล่งข้อมูลในการติดตามเพื่อดำเนินการโจมตีเช่นนี้ แม้จะไม่ได้รับความยินยอมจากผู้เข้าร่วมก็ตาม เราพยายามลบชื่อผู้เข้าร่วมการทดลองแต่ละคนโดยใช้เพียงบางส่วนของประวัติการท่องเว็บที่บริษัทติดตามบางแห่งมองเห็นได้ (เนื่องจากบริษัทมีเครื่องมือติดตามในหน้าเหล่านั้น) เราพบว่าหลายบริษัทมีแหล่งข้อมูลในการระบุผู้เข้าร่วมได้อย่างถูกต้อง

ความเป็นส่วนตัว 2 8การศึกษาการปกปิดชื่ออื่น ๆ

การศึกษาอื่น ๆ อีกหลายชิ้นได้ใช้รอยเท้าที่เปิดเผยต่อสาธารณะเพื่อทำให้ข้อมูลละเอียดอ่อนไม่เปิดเผยชื่อ

บางทีการศึกษาที่มีชื่อเสียงที่สุดตามแนวเหล่านี้อาจดำเนินการโดย Latanya สวีนีย์ ที่มหาวิทยาลัยฮาร์วาร์ดในปี 2002 เธอค้นพบว่า 87 เปอร์เซ็นต์ของชาวอเมริกันสามารถระบุตัวตนได้โดยไม่ซ้ำกัน ตามรหัสไปรษณีย์ เพศ และวันเดือนปีเกิดร่วมกัน คุณลักษณะทั้งสามนี้มีอยู่ในทั้งข้อมูลการลงทะเบียนผู้มีสิทธิเลือกตั้งสาธารณะ (ซึ่งเธอซื้อมาในราคา 20 เหรียญสหรัฐ) และข้อมูลทางการแพทย์ที่ไม่ระบุชื่อ โดยการเชื่อมต่อแหล่งข้อมูลเหล่านี้ เธอพบเวชระเบียนของผู้ว่าการแมสซาชูเซตส์

ใน 2006, Netflix จัดการแข่งขัน เพื่อปรับปรุงคุณภาพของการแนะนำภาพยนตร์ พวกเขาเผยแพร่ชุดข้อมูลการจัดอันดับภาพยนตร์ของผู้คนที่ไม่เปิดเผยชื่อ และเสนอเงิน 1 ล้านดอลลาร์ให้กับทีมซึ่งสามารถปรับปรุงอัลกอริทึมการแนะนำได้ 10 เปอร์เซ็นต์ นักวิทยาศาสตร์คอมพิวเตอร์ อารวินท์นรานันท์ และ วิทาลี ชมาติคอฟ สังเกตว่าภาพยนตร์ที่ผู้คนดูมีความโดดเด่นมาก และคนส่วนใหญ่ในชุดข้อมูลสามารถระบุตัวตนได้โดยไม่ซ้ำกันโดยอิงจากชุดย่อยเล็กๆ ของภาพยนตร์ของพวกเขา กล่าวอีกนัยหนึ่งจากการเลือกภาพยนตร์ Netflix และบทวิจารณ์ IMDB นักวิจัยสามารถระบุได้ว่าใครคือผู้ใช้ Netflix ที่แท้จริง

ด้วยการเพิ่มขึ้นของโซเชียลมีเดีย ผู้คนจำนวนมากขึ้นเรื่อย ๆ กำลังแบ่งปันข้อมูลที่ดูเหมือนไม่มีพิษภัย แต่จริงๆ แล้วเปิดเผยข้อมูลส่วนบุคคลจำนวนมาก การศึกษานำโดย มิชาล โคซินสกี้ ที่มหาวิทยาลัยเคมบริดจ์ ใช้ Facebook ชอบทำนายคน รสนิยมทางเพศ มุมมองทางการเมือง และลักษณะบุคลิกภาพ.

อีกทีมนำโดย กิลเบิร์ต วอนดราเซค ที่มหาวิทยาลัยเทคโนโลยีเวียนนา ได้สร้าง "เครื่อง deanonymization" ขึ้นเพื่อพิจารณาว่าผู้คนกลุ่มใดเป็นส่วนหนึ่งของเครือข่ายสังคมออนไลน์ Xing และใช้ข้อมูลนี้เพื่อค้นหาว่าพวกเขาเป็นใคร เนื่องจากกลุ่มที่คุณเป็นส่วนหนึ่งของมักจะเพียงพอที่จะระบุตัวตนได้อย่างเฉพาะเจาะจง คุณ.

คุณสามารถทำอะไรได้บ้าง

การโจมตีเหล่านี้ส่วนใหญ่ป้องกันได้ยาก เว้นแต่คุณจะหยุดใช้อินเทอร์เน็ตหรือมีส่วนร่วมในชีวิตสาธารณะ

แม้ว่าคุณจะหยุดใช้อินเทอร์เน็ต บริษัทต่างๆ ก็ยังสามารถรวบรวมข้อมูลเกี่ยวกับคุณได้ หากเพื่อนของคุณหลายคนอัปโหลดรายชื่อติดต่อทางโทรศัพท์ไปยัง Facebook และหมายเลขของคุณอยู่ในรายชื่อผู้ติดต่อทั้งหมด Facebook ก็สามารถคาดเดาเกี่ยวกับตัวคุณได้ แม้ว่าคุณจะไม่ได้ใช้บริการของพวกเขาก็ตาม

วิธีที่ดีที่สุดในการป้องกันอัลกอริธึมที่ทำให้ไม่เปิดเผยชื่อเหมือนของเราคือการจำกัดกลุ่มคนที่มีสิทธิ์เข้าถึงข้อมูลการท่องเว็บที่ไม่ระบุตัวตนของคุณ ส่วนขยายเบราว์เซอร์เช่น Ghostery บล็อกตัวติดตามบุคคลที่สาม นั่นหมายความว่า แม้ว่าบริษัทที่คุณกำลังเยี่ยมชมเว็บไซต์จะรู้ว่าคุณกำลังเยี่ยมชมพวกเขา แต่บริษัทโฆษณาที่แสดงโฆษณาบนหน้าของพวกเขาจะไม่สามารถรวบรวมข้อมูลการท่องเว็บของคุณและรวบรวมจากหลายๆ เว็บไซต์ได้

หากคุณเป็นผู้ดูแลเว็บ คุณสามารถช่วยปกป้องผู้ใช้ของคุณได้โดยให้พวกเขาเรียกดูไซต์ของคุณโดยใช้ HTTPS. การท่องเว็บโดยใช้ HTTP ช่วยให้ผู้โจมตีได้รับประวัติการท่องเว็บของคุณโดยการดมกลิ่นการรับส่งข้อมูลในเครือข่าย ซึ่งทำให้พวกเขาสามารถโจมตีได้ เว็บไซต์หลายแห่งได้เปลี่ยนไปใช้ HTTPS แล้ว เมื่อเราทดสอบการไม่ระบุชื่อซ้ำจากมุมมองของผู้ดมกลิ่นการรับส่งข้อมูลในเครือข่าย ผู้เข้าร่วมเพียง 31 เปอร์เซ็นต์เท่านั้นที่สามารถระบุตัวตนได้

อย่างไรก็ตาม มีน้อยมากที่คุณสามารถทำได้เพื่อป้องกันตัวเองจากการโจมตีแบบ deanonymization และบางทีแนวทางปฏิบัติที่ดีที่สุดคือการปรับความคาดหวังของคนๆ หนึ่ง ไม่มีอะไรเป็นส่วนตัวในยุคดิจิทัลนี้

เกี่ยวกับผู้เขียน

เจสสิก้า ซู, Ph.D. เป็นนักศึกษาที่ Stanford, มหาวิทยาลัย Stanford

บทความนี้ถูกเผยแพร่เมื่อวันที่ สนทนา. อ่าน บทความต้นฉบับ.

หนังสือที่เกี่ยวข้อง

at ตลาดภายในและอเมซอน