คอมพิวเตอร์ช่วยนักชีววิทยาไขความลับของชีวิตได้อย่างไร

เมื่อลำดับจีโนมมนุษย์ที่มีตัวอักษรยาว XNUMX พันล้านตัวถูกจัดลำดับ เราก็รีบเข้าไปใน "omics” ยุคการวิจัยทางชีววิทยา ขณะนี้นักวิทยาศาสตร์กำลังแข่งกันเพื่อจัดลำดับจีโนม (ยีนทั้งหมด) หรือโปรตีโอม (โปรตีนทั้งหมด) ของสิ่งมีชีวิตต่างๆ และในกระบวนการนี้กำลังรวบรวมข้อมูลจำนวนมหาศาล

ตัวอย่างเช่น นักวิทยาศาสตร์สามารถใช้เครื่องมือ "omics" เช่น การจัดลำดับดีเอ็นเอเพื่อแซวว่ายีนของมนุษย์ตัวใดได้รับผลกระทบจากการติดเชื้อไวรัสไข้หวัดใหญ่ แต่เนื่องจากจีโนมมนุษย์มียีนทั้งหมดอย่างน้อย 25,000 ยีน จำนวนยีนที่เปลี่ยนแปลงไปแม้จะอยู่ภายใต้สถานการณ์ง่ายๆ เช่นนี้ก็อาจมีจำนวนเป็นพันๆ ตัว

แม้ว่าการหาลำดับและการระบุยีนและโปรตีนจะทำให้พวกมันมีชื่อและสถานที่ แต่ก็ไม่ได้บอกเราว่าพวกมันทำอะไร เราต้องเข้าใจว่ายีน โปรตีน และ . เหล่านี้เป็นอย่างไร ทุกสิ่งในระหว่าง โต้ตอบในกระบวนการทางชีววิทยาต่างๆ

ทุกวันนี้ แม้แต่การทดลองขั้นพื้นฐานก็ยังให้ผลข้อมูลขนาดใหญ่ และหนึ่งในความท้าทายที่ใหญ่ที่สุดคือการคลี่คลายผลลัพธ์ที่เกี่ยวข้องจากเสียงรบกวนเบื้องหลัง คอมพิวเตอร์กำลังช่วยเราเอาชนะภูเขาข้อมูลนี้ แต่พวกมันยังสามารถก้าวไปไกลกว่านั้นได้ ช่วยให้เราตั้งสมมติฐานทางวิทยาศาสตร์และอธิบายกระบวนการทางชีววิทยาใหม่ๆ สาระสำคัญของวิทยาศาสตร์ข้อมูลช่วยให้การวิจัยทางชีววิทยาที่ทันสมัย

คอมพิวเตอร์เพื่อการกู้ภัย

คอมพิวเตอร์มีคุณสมบัติเฉพาะตัวในการจัดการชุดข้อมูลขนาดใหญ่ เนื่องจากสามารถติดตามเงื่อนไขที่สำคัญทั้งหมดที่จำเป็นสำหรับการวิเคราะห์ได้พร้อมกัน


กราฟิกสมัครสมาชิกภายในตัวเอง


แม้ว่าพวกเขา สามารถสะท้อนความผิดพลาดของมนุษย์ได้ มันถูกตั้งโปรแกรมไว้ คอมพิวเตอร์สามารถจัดการกับข้อมูลจำนวนมากได้อย่างมีประสิทธิภาพ และไม่เอนเอียงไปทางสิ่งที่คุ้นเคย อย่างที่มนุษย์สืบสวนอาจเป็นได้

คอมพิวเตอร์ยังสามารถสอนให้ค้นหารูปแบบเฉพาะในชุดข้อมูลทดลอง – แนวคิดที่เรียกว่าการเรียนรู้ของเครื่อง ซึ่งเสนอครั้งแรกในปี 1950 โดยเฉพาะอย่างยิ่งโดยนักคณิตศาสตร์ ทัวริงอลัน. อัลกอริทึมที่เรียนรู้รูปแบบจากชุดข้อมูลสามารถขอให้ทำการคาดคะเนตามข้อมูลใหม่ที่ไม่เคยพบมาก่อน

แมชชีนเลิร์นนิงได้ปฏิวัติการวิจัยทางชีววิทยา เนื่องจากตอนนี้เราสามารถใช้ชุดข้อมูลขนาดใหญ่และขอให้คอมพิวเตอร์ช่วยทำความเข้าใจชีววิทยาพื้นฐาน

ฝึกคอมพิวเตอร์ให้คิดโดยการจำลองกระบวนการของสมอง

เราใช้แมชชีนเลิร์นนิงที่น่าสนใจประเภทหนึ่ง เรียกว่า โครงข่ายประสาทเทียม (ANN) ในห้องแล็บของเราเอง สมองเป็นเครือข่ายของเซลล์ประสาทที่เชื่อมต่อกันอย่างสูง ซึ่งสื่อสารโดยการส่งพัลส์ไฟฟ้าผ่านการเดินสายประสาท ในทำนองเดียวกัน ANN จะจำลองเครือข่ายเซลล์ประสาทในคอมพิวเตอร์ขณะที่เปิดและปิดเพื่อตอบสนองต่อสัญญาณของเซลล์ประสาทอื่นๆ

ด้วยการใช้อัลกอริธึมที่เลียนแบบกระบวนการของเซลล์ประสาทจริง เราสามารถทำให้เครือข่ายเรียนรู้ที่จะแก้ปัญหาได้หลายประเภท Google ใช้ ANN อันทรงพลังเพื่อชื่อเสียงในตอนนี้ โครงการฝันลึก ที่ซึ่งคอมพิวเตอร์สามารถจำแนกและสร้างภาพได้

กลุ่มของเราศึกษาระบบภูมิคุ้มกัน โดยมีเป้าหมายคือ คิดค้นวิธีรักษามะเร็งแบบใหม่. เราใช้แบบจำลองการคำนวณของ ANN เพื่อศึกษารหัสโปรตีนพื้นผิวสั้นที่เซลล์ภูมิคุ้มกันของเราใช้เพื่อตรวจสอบว่ามีสิ่งแปลกปลอมต่อร่างกายของเราหรือไม่ และด้วยเหตุนี้จึงควรถูกโจมตี หากเราเข้าใจมากขึ้นว่าเซลล์ภูมิคุ้มกันของเรา (เช่น ทีเซลล์) แยกความแตกต่างระหว่างเซลล์ปกติ/เซลล์ปกติและเซลล์ผิดปกติ/ภายนอกอย่างไร เราสามารถออกแบบวัคซีนและการรักษาที่ดีขึ้นได้

เราได้ค้นหาแคตตาล็อกรหัสโปรตีนนับพันที่เปิดเผยต่อสาธารณชนซึ่งระบุโดยนักวิจัยในช่วงหลายปีที่ผ่านมา เราแบ่งชุดข้อมูลขนาดใหญ่นี้ออกเป็นสองชุด: รหัสโปรตีนในตัวเองปกติที่ได้มาจากเซลล์ของมนุษย์ที่แข็งแรง และรหัสโปรตีนผิดปกติที่ได้มาจากไวรัส เนื้องอก และแบคทีเรีย จากนั้นเราก็เปลี่ยนไปใช้โครงข่ายประสาทเทียมที่พัฒนาขึ้นในห้องปฏิบัติการของเรา

เมื่อเราป้อนรหัสโปรตีนลงใน ANN แล้ว อัลกอริทึมก็สามารถระบุได้ ความแตกต่างพื้นฐาน ระหว่างรหัสโปรตีนปกติและผิดปกติ เป็นเรื่องยากสำหรับคนที่จะติดตามปรากฏการณ์ทางชีววิทยาประเภทนี้ - มีรหัสโปรตีนหลายพันรหัสเพื่อวิเคราะห์ในชุดข้อมูลขนาดใหญ่ ต้องใช้เครื่องจักรในการต่อสู้กับปัญหาที่ซับซ้อนเหล่านี้และกำหนดชีววิทยาใหม่

การคาดการณ์ผ่านการเรียนรู้ของเครื่อง

การประยุกต์ใช้แมชชีนเลิร์นนิงทางชีววิทยาที่สำคัญที่สุดคือประโยชน์ในการคาดการณ์ตามข้อมูลขนาดใหญ่ การคาดคะเนด้วยคอมพิวเตอร์สามารถเข้าใจข้อมูลขนาดใหญ่ ทดสอบสมมติฐาน และประหยัดเวลาอันมีค่าและทรัพยากร

ตัวอย่างเช่น ในสาขาชีววิทยา T-cell ของเรา การรู้ว่ารหัสโปรตีนของไวรัสตัวใดที่กำหนดเป้าหมายมีความสำคัญต่อการพัฒนาวัคซีนและการรักษา แต่มีรหัสโปรตีนจำนวนมากจากไวรัสตัวใดตัวหนึ่งซึ่งมีราคาแพงมากและยากที่จะทดสอบแต่ละตัว

แต่เราฝึกอบรมโครงข่ายประสาทเทียมเพื่อช่วยให้เครื่องเรียนรู้ลักษณะทางชีวเคมีที่สำคัญทั้งหมดของรหัสโปรตีนสองประเภท - ปกติกับผิดปกติ จากนั้นเราขอให้แบบจำลอง "ทำนาย" ว่ารหัสโปรตีนของไวรัสใหม่ใดคล้ายกับหมวดหมู่ "ผิดปกติ" และ T-cells สามารถมองเห็นได้และด้วยเหตุนี้ระบบภูมิคุ้มกัน เราทดสอบแบบจำลอง ANN กับโปรตีนไวรัสต่างๆ ที่ไม่เคยมีการศึกษามาก่อน

เหมือนกับนักเรียนที่ขยันขันแข็งที่ต้องการเอาใจครู โครงข่ายประสาทสามารถระบุรหัสโปรตีนที่กระตุ้นทีเซลล์ส่วนใหญ่ภายในไวรัสนี้ได้อย่างแม่นยำ เรายังทดลองทดสอบรหัสโปรตีนที่ตั้งค่าสถานะเพื่อตรวจสอบความถูกต้องของการคาดคะเนของ ANN การใช้แบบจำลองโครงข่ายประสาทเทียมนี้ นักวิทยาศาสตร์สามารถทำได้ ทำนายได้อย่างรวดเร็ว รหัสโปรตีนสั้นที่สำคัญทั้งหมดจากไวรัสที่เป็นอันตรายและทดสอบเพื่อพัฒนาการรักษาหรือวัคซีน แทนที่จะคาดเดาและทดสอบทีละรายการ

การใช้การเรียนรู้ของเครื่องอย่างชาญฉลาด

ต้องขอบคุณการกลั่นกรองอย่างต่อเนื่อง วิทยาศาสตร์ข้อมูลขนาดใหญ่และการเรียนรู้ของเครื่องจึงมีความจำเป็นมากขึ้นเรื่อย ๆ สำหรับการวิจัยทางวิทยาศาสตร์ทุกประเภท ความเป็นไปได้ในการใช้คอมพิวเตอร์เพื่อฝึกฝนและทำนายทางชีววิทยานั้นแทบจะไม่มีที่สิ้นสุด ตั้งแต่การหาว่าไบโอมาร์คเกอร์ตัวใดดีที่สุดสำหรับการตรวจหาโรค ไปจนถึงการทำความเข้าใจว่าทำไมเท่านั้น ผู้ป่วยบางรายได้รับประโยชน์จากการรักษามะเร็งโดยเฉพาะการขุดชุดข้อมูลขนาดใหญ่โดยใช้คอมพิวเตอร์ได้กลายเป็นเส้นทางที่มีคุณค่าสำหรับการวิจัย

แน่นอนว่ามีข้อจำกัด ปัญหาที่ใหญ่ที่สุดของวิทยาศาสตร์ข้อมูลขนาดใหญ่คือตัวข้อมูลเอง หากข้อมูลที่ได้รับจากการศึกษา -omics มีข้อผิดพลาดในตอนเริ่มต้นหรืออิงจากวิทยาศาสตร์ที่ไม่ค่อยดี เครื่องจักรจะได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่ไม่ดี - นำไปสู่ ทำนายไม่ดี. นักเรียนดีเท่าครูเท่านั้น

เนื่องจากคอมพิวเตอร์ไม่มีความรู้สึก (ยัง) พวกเขาสามารถค้นหารูปแบบขึ้นมาได้แม้ในขณะที่ไม่มีอยู่ ก่อให้เกิดข้อมูลที่ไม่ดีและวิทยาศาสตร์ที่ไม่สามารถทำซ้ำได้อีกครั้ง

และนักวิจัยบางคนได้หยิบยกข้อกังวลว่าคอมพิวเตอร์จะกลายเป็น กล่องดำของข้อมูล สำหรับนักวิทยาศาสตร์ที่ไม่เข้าใจการยักย้ายถ่ายเทและอุบายที่พวกเขาดำเนินการในนามของพวกเขาอย่างชัดเจน

แม้จะมีปัญหาเหล่านี้ ประโยชน์ของข้อมูลขนาดใหญ่และเครื่องจักรจะยังคงทำให้พวกเขาเป็นพันธมิตรที่มีค่าในการวิจัยทางวิทยาศาสตร์ ด้วยการคำนึงถึงคำเตือน เราจึงพร้อมที่จะเข้าใจชีววิทยาผ่านสายตาของเครื่องจักร

เกี่ยวกับผู้เขียนสนทนา

Sri Krishna ผู้สมัครระดับปริญญาเอก การออกแบบทางชีวภาพ โรงเรียนวิศวกรรมระบบชีวภาพและสุขภาพ มหาวิทยาลัยรัฐแอริโซนา และ Diego Chowell นักศึกษาปริญญาเอกสาขาคณิตศาสตร์ประยุกต์ มหาวิทยาลัยรัฐแอริโซนา

บทความนี้ถูกเผยแพร่เมื่อวันที่ สนทนา. อ่าน บทความต้นฉบับ.


หนังสือที่เกี่ยวข้อง:

at ตลาดภายในและอเมซอน