วิธีที่ Twitter ช่วยให้นักวิทยาศาสตร์มองเห็นความสุขและสุขภาพของมนุษย์

นับตั้งแต่เปิดตัวสู่สาธารณะเมื่อ 10 ปีที่แล้ว Twitter ถูกใช้เป็นแพลตฟอร์มโซเชียลเน็ตเวิร์กในหมู่เพื่อนฝูง บริการส่งข้อความโต้ตอบแบบทันทีสำหรับผู้ใช้สมาร์ทโฟน และเครื่องมือส่งเสริมการขายสำหรับองค์กรและนักการเมือง

แต่ยังเป็นแหล่งข้อมูลที่ทรงคุณค่าสำหรับนักวิจัยและนักวิทยาศาสตร์ เช่น ตัวฉันเอง ที่ต้องการศึกษาว่ามนุษย์รู้สึกอย่างไรและทำงานอย่างไรภายในระบบสังคมที่ซับซ้อน

ด้วยการวิเคราะห์ทวีต เราสามารถสังเกตและรวบรวมข้อมูลเกี่ยวกับปฏิสัมพันธ์ทางสังคมของผู้คนนับล้าน "ในป่า" นอกการทดลองในห้องปฏิบัติการที่มีการควบคุม

ทำให้เราสามารถพัฒนาเครื่องมือสำหรับตรวจสอบ อารมณ์ร่วมของประชากรจำนวนมากหา สถานที่ที่มีความสุขที่สุดในสหรัฐอเมริกา และอื่น ๆ อีกมากมาย

แล้ว Twitter กลายเป็นแหล่งข้อมูลเฉพาะสำหรับนักวิทยาศาสตร์ทางสังคมเชิงคอมพิวเตอร์ได้อย่างไร? และอะไรทำให้เราค้นพบ?


กราฟิกสมัครสมาชิกภายในตัวเอง


ของขวัญที่ยิ่งใหญ่ที่สุดของ Twitter สำหรับนักวิจัย

วันที่ 15 กรกฎาคม 2006 Twittr (ดังที่ทราบในสมัยนั้น) สาธารณชน เปิดตัว เป็น “บริการมือถือที่ช่วยให้กลุ่มเพื่อนตีกลับความคิดแบบสุ่มด้วย SMS” ความสามารถในการส่งข้อความกลุ่มอักขระฟรี 140 ตัวกระตุ้นให้ผู้ใช้กลุ่มแรกจำนวนมาก (รวมถึงตัวฉันเองด้วย) ใช้แพลตฟอร์มนี้

เมื่อเวลาผ่านไปจำนวนผู้ใช้ ระเบิด: จาก 20 ล้านในปี 2009 เป็น 200 ล้านในปี 2012 และ 310 ล้านในปัจจุบัน แทนที่จะสื่อสารกับเพื่อนโดยตรง ผู้ใช้เพียงแค่บอกผู้ติดตามว่าพวกเขารู้สึกอย่างไร ตอบสนองต่อข่าวในเชิงบวกหรือเชิงลบ หรือเรื่องตลก

สำหรับนักวิจัย ของขวัญที่ใหญ่ที่สุดของ Twitter คือการให้ข้อมูลเปิดจำนวนมาก Twitter เป็นหนึ่งในเครือข่ายสังคมออนไลน์รายใหญ่รายแรกๆ ที่ให้ตัวอย่างข้อมูลผ่านสิ่งที่เรียกว่า Application Programming Interfaces (APIs) ซึ่งช่วยให้นักวิจัยสามารถสืบค้น Twitter สำหรับทวีตบางประเภท (เช่น ทวีตที่มีคำบางคำ) รวมถึงข้อมูลเกี่ยวกับผู้ใช้ .

สิ่งนี้นำไปสู่การระเบิดของโครงการวิจัยที่ใช้ประโยชน์จากข้อมูลนี้ วันนี้ การค้นหา "Twitter" ของ Google Scholar สร้างการเข้าชมได้ XNUMX ล้านครั้ง เทียบกับ XNUMX ล้านครั้งสำหรับ "Facebook" ความแตกต่างนั้นโดดเด่นเป็นพิเศษเนื่องจาก Facebook มีคร่าวๆ ผู้ใช้มากกว่า Twitter ถึงห้าเท่า (และแก่กว่าสองปี)

นโยบายข้อมูลที่เอื้อเฟื้อเผื่อแผ่ของ Twitter นำไปสู่การประชาสัมพันธ์บริษัทฟรีที่ยอดเยี่ยมอย่างไม่ต้องสงสัย เนื่องจากการศึกษาทางวิทยาศาสตร์ที่น่าสนใจได้รับการคัดเลือกจากสื่อกระแสหลัก

เรียนสุขกายสุขใจ

ด้วยข้อมูลการสำรวจสำมะโนประชากรแบบดั้งเดิมที่ช้าและมีราคาแพงในการรวบรวม ฟีดข้อมูลแบบเปิด เช่น Twitter มีศักยภาพที่จะให้หน้าต่างแบบเรียลไทม์เพื่อดูการเปลี่ยนแปลงในประชากรจำนวนมาก

มหาวิทยาลัยเวอร์มอนต์ ห้องทดลองเรื่องการคำนวณ ก่อตั้งขึ้นในปี 2006 และศึกษาปัญหาด้านคณิตศาสตร์ประยุกต์ สังคมวิทยา และฟิสิกส์ ตั้งแต่ปี 2008 Story Lab ได้รวบรวมทวีตนับพันล้านรายการผ่านฟีด "Gardenhose" ของ Twitter ซึ่งเป็น API ที่สตรีมตัวอย่างแบบสุ่ม 10 เปอร์เซ็นต์ของทวีตสาธารณะทั้งหมดแบบเรียลไทม์

ฉันใช้เวลาสามปีที่ Computational Story Lab และโชคดีที่ได้เป็นส่วนหนึ่งของการศึกษาที่น่าสนใจมากมายโดยใช้ข้อมูลนี้ ตัวอย่างเช่น เราพัฒนา a เฮดโนมิเตอร์ ที่วัดความสุขของ Twittersphere แบบเรียลไทม์ โดยเน้นที่ทวีตระบุตำแหน่งทางภูมิศาสตร์ที่ส่งจากสมาร์ทโฟน เราสามารถ แผนที่ สถานที่ที่มีความสุขที่สุดในสหรัฐอเมริกา บางทีเราก็พบว่า ฮาวายจะเป็นรัฐที่มีความสุขที่สุด และ Napa ที่ปลูกองุ่นให้เป็นเมืองที่มีความสุขที่สุด สำหรับ 2013 

แผนที่ทวีตระบุตำแหน่งทางภูมิศาสตร์ 13 ล้านครั้งในสหรัฐฯ จากปี 2013 ซึ่งแต่งแต้มด้วยความสุข โดยสีแดงแสดงถึงความสุข และสีน้ำเงินแสดงถึงความเศร้า PLOS ONE ผู้เขียนจัดให้แผนที่ทวีตของสหรัฐฯ ที่มีการระบุตำแหน่งทางภูมิศาสตร์ 13 ล้านครั้งในปี 2013 แต่งแต้มด้วยความสุข โดยสีแดงแสดงถึงความสุข และสีน้ำเงินแสดงถึงความเศร้า PLoS ONE, ผู้เขียนจัดให้.การศึกษาเหล่านี้มีการใช้งานที่ลึกซึ้งยิ่งขึ้น: การใช้คำใน Twitter สัมพันธ์กับข้อมูลประชากรช่วยให้เราเข้าใจรูปแบบทางสังคมและเศรษฐกิจในเมืองต่างๆ ตัวอย่างเช่น เราสามารถเชื่อมโยงการใช้คำกับปัจจัยด้านสุขภาพ เช่น โรคอ้วน ดังนั้นเราจึงสร้าง พจนานุกรมคำศัพท์ เพื่อวัด "เนื้อหาแคลอรี่" ของโพสต์โซเชียลมีเดีย ทวีตจากภูมิภาคใดภูมิภาคหนึ่งที่กล่าวถึงอาหารแคลอรีสูงเพิ่ม "เนื้อหาแคลอรี่" ของภูมิภาคนั้น ในขณะที่ทวีตที่กล่าวถึงกิจกรรมการออกกำลังกายลดเมตริกของเรา เราพบว่ามาตรการง่ายๆ นี้ สัมพันธ์กับตัวชี้วัดด้านสุขภาพและความเป็นอยู่ที่ดีอื่นๆ. กล่าวอีกนัยหนึ่ง ทวีตสามารถให้ภาพรวมในช่วงเวลาที่กำหนดของสุขภาพโดยรวมของเมืองหรือภูมิภาค

ด้วยการใช้ข้อมูล Twitter ที่มีมากมาย เรายังสามารถ ดูรูปแบบการเคลื่อนไหวประจำวันของผู้คนในรายละเอียดที่ไม่เคยมีมาก่อน. ในทางกลับกัน การทำความเข้าใจรูปแบบการเคลื่อนไหวของมนุษย์มีความสามารถในการเปลี่ยนแปลงแบบจำลองโรค ซึ่งเป็นการเปิดสาขาใหม่ของ ระบาดวิทยาดิจิทัล.

สำหรับการศึกษาอื่นๆ เราพิจารณาว่าผู้เดินทางแสดงความสุขบน Twitter มากกว่าผู้ที่อยู่ที่บ้านหรือไม่ (คำตอบ: พวกเขาแสดง) และหาก คนที่มีความสุขมักจะอยู่ด้วยกันในโซเชียลเน็ตเวิร์ก (อีกครั้งที่พวกเขาทำ). อย่างแท้จริง, แง่บวกดูเหมือนจะถูกหลอมรวมเป็นภาษาของตัวเองในแง่ที่เรามีคำที่เป็นบวกมากกว่าคำเชิงลบ สิ่งนี้ไม่ได้เกิดขึ้นเพียงแค่บน Twitter แต่ในสื่อต่างๆ (เช่น หนังสือ ภาพยนตร์และหนังสือพิมพ์) และภาษาต่างๆ

การศึกษาเหล่านี้ – และอีกหลายพันคนที่คล้ายกันจากทั่วโลก – เกิดขึ้นได้ด้วย Twitter เท่านั้น

อีก 10 ปีข้างหน้า

แล้วเราจะเรียนรู้อะไรจาก Twitter ในอีก 10 ปีข้างหน้าได้บ้าง?

งานที่น่าตื่นเต้นที่สุดบางส่วนในปัจจุบันเกี่ยวข้องกับการเชื่อมต่อข้อมูลโซเชียลมีเดียกับแบบจำลองทางคณิตศาสตร์เพื่อทำนายปรากฏการณ์ระดับประชากร เช่น การระบาดของโรค นักวิจัยประสบความสำเร็จในการเพิ่มโมเดลโรคด้วยข้อมูล Twitter เพื่อพยากรณ์โรคไข้หวัดใหญ่ โดยเฉพาะอย่างยิ่ง ไข้หวัดใหญ่ Outlook แพลตฟอร์มที่พัฒนาโดยมหาวิทยาลัยภาคตะวันออกเฉียงเหนือและสถาบันเพื่อการแลกเปลี่ยนทางวิทยาศาสตร์

ยังคงมีความท้าทายจำนวนหนึ่ง ข้อมูลโซเชียลมีเดียได้รับผลกระทบจาก "อัตราส่วนสัญญาณต่อสัญญาณรบกวน" ที่ต่ำมาก กล่าวอีกนัยหนึ่ง ทวีตที่เกี่ยวข้องกับการศึกษาหนึ่งๆ มักจะถูกกลบด้วย “เสียงรบกวน” ที่ไม่เกี่ยวข้อง

ดังนั้นเราต้องมีสติอย่างต่อเนื่องในสิ่งที่ได้รับการขนานนามว่า “ความโอหังข้อมูลขนาดใหญ่” เมื่อพัฒนาวิธีการใหม่ๆ และไม่มั่นใจในผลลัพธ์ของเรา การเชื่อมต่อนี้ควรเป็นจุดมุ่งหมายเพื่อสร้างการคาดการณ์ "กล่องแก้ว" ที่ตีความได้จากข้อมูลเหล่านี้ (ซึ่งต่างจากการคาดการณ์ "กล่องดำ" ซึ่งอัลกอริทึมถูกซ่อนไว้หรือไม่ชัดเจน)

ข้อมูลโซเชียลมีเดียมักถูกวิพากษ์วิจารณ์ว่ามีขนาดเล็ก ตัวอย่างที่ไม่เป็นตัวแทน ของประชากรในวงกว้าง หนึ่งในความท้าทายที่สำคัญสำหรับนักวิจัยคือการหาวิธีจัดการกับข้อมูลเบ้ดังกล่าวในแบบจำลองทางสถิติ ในขณะที่ ผู้คนใช้โซเชียลมีเดียมากขึ้นทุกปีเราต้องพยายามทำความเข้าใจอคติในข้อมูลนี้ต่อไป ตัวอย่างเช่น ข้อมูลยังคงมีแนวโน้มที่จะแสดงถึงบุคคลที่อายุน้อยกว่าโดยเสียค่าใช้จ่ายจากประชากรที่มีอายุมากกว่า

หลังจากที่พัฒนาวิธีการแก้ไขอคติที่ดีขึ้นแล้ว นักวิจัยจะสามารถคาดการณ์ได้อย่างมั่นใจอย่างเต็มที่จากทวีต

เกี่ยวกับผู้เขียน

Lewis Mitchell อาจารย์ด้านคณิตศาสตร์ประยุกต์ มหาวิทยาลัยแอดิเลด

บทความนี้ถูกเผยแพร่เมื่อวันที่ สนทนา. อ่าน บทความต้นฉบับ.

หนังสือที่เกี่ยวข้อง

at ตลาดภายในและอเมซอน