المعلوماتية والإحصاء في علم الوراثة هو مجال بحوث متعدد التخصصات يستخدم أحدث التقنيات في علم المورثات وعلم الوراثة الكمية والعلوم الحاسوبية والمعلوماتية الحيوية والإحصاء لتطوير وتطبيق طرق فعالة حسابياً وإحصائياً لتصنيف المخلوقات الحية المختلفة من خلال التقنية الحيوية ذات النطاق الواسع والمتزايد باستمرار، حيث يتم تصنيفها من خلال المعلومات الوراثية للجينات أو الوظائف المشتركة إلى مجموعات حسب: أنماطها الوراثية أو وظائفها وتفاعلاتها الحيوية أو مجموعة الأمراض والنمط الظاهري المشترك بينها. وغالبًا ما يشار إلى هذا العلم بـعلم الوراثة التقني وهو أحد فروع علم التقنية الحيوية.
تحديد الأنماط الفردية
خلال العقدين الأخرين كان هنالك إقبال كبير لفهم التركيب الوراثي وتشكل المورثات لمختلف الفصائل والأجناس من المخلوقات الحية بما في ذلك التركيب الوراثي للإنسان، حيث ساعد بشكل كبير استخدام التقنيات المتعددة في تعقب ومتابعة السلاسل الوراثية للجينات وقرائتها و التي تتطور بدورها بشكل سريع وملحوظ، ولكن لا تزال هذه التقنيات محدودة، حيث تزيد الحاجة للطرق الحسابية والإحصائية للكشف عن الأخطاء في تلك التقنيات ومعالجتها وتجميع أجزاء من المعلومات الجزئية الوراثية من تقنيات متابعة وقراءة السلاسل الوراثية للجينات ومعرفة أنماطها الجينية.
يتم معرفة النمط الفردي للمخلوقات الحية من خلال تسلسل النيوكليوتيدات (A ، G ، T ، C) على طول الكروموسوم الواحد فيها مثل الانسان لدية 23 زوجًا من الكروموسومات أو الذرة الصفراء التي تحتوي على 10 أزواج من الكروموسومات. ولكن باستخدام التكنولوجيا الحالية من الصعب الفصل بين زوجين من الكروموسوم ما ينتج عنه نمط فردي مركب يطلق على هذا النوع معلومات النمط الفردي الوراثي في كل نيوكليوتيد، الهدف من تلك الدراسات هو العثور على نمطين فرديين متنوعين في ضوء المعلومات الوراثية المدمجة. تعد معرفة الأنواع الفردية مهمة للغاية وليس فقط لأنها تعطي صورة كاملة عن مورثات الأفراد فحسب، ولكنها تساعد أيضًا في العمليات الجينية المعلوماتية الأخرى مثل الفرضية حيث يعد من المحفزات البيولوجية الهامة.
بالنسبة للكائنات ثنائية الكروموسوم مثل الإنسان والذرة، وهو ان لكل واحد منهما نسختين من الكروموسوم كل نسخة حصل عليها من أحد الأبوين وهذة النسختين متشابهة للغاية من بعضها البعض. النمط الفردي هو تسلسل النيوكليوتيدات في الكروموسوم، احياناً تكون مشكلة تحديد النمط الفردي في اختلاف النيوكليوتيدات في احد الكروموسومان المتماثلان. من الناحية التقنية، بالنسبة للجينات التي تحتوي على مواقع اختلاف للنيوكليوتيدات قد ينتج عنه نوعان مختلفان من الأنماط، لذلك تركز مشكلة تحديد النمط الفردي على إيجاد وتحديد الأنماط الفردية الأكثر احتمالية بفعالية من خلال النظر إلى النمط الوراثي المتوقع لها. و لمزيد من المعلومات، راجع النمط الفردي الموروث .
التنبؤ بالنيوكليدات الفردية في الأنماط الجينية من خلال الفرضيات
على الرغم من أن مورثات المخلوقات الحية حقيقية النواة تحتوي على ملايين الأشكال المتعددة للنيوكليوتيدات (تشكل النيوكليدات الفردية single nucleotide polymorphisms) ، فإن مصفوفات النمط الجيني يتم تحديدها مسبقًا للكشف فقط عن شفرة جينية واحدة، حيث يتم توقع المعلومات أو الشفرات الاخرى المفقودة باستخدام تحليل الفرضيات الوراثية، الآن أصبح ظهور العلامات غير الموروثة جزءًا أساسيًا من الدراسات الوراثية والجينية. يستخدم طريقة تحديد اختلال الارتباط المتوازن (linkage disequilibrium) لمعرفة الأنماط الفردية بالرجوع إلى منصات معرفية معرفة مسبقاً مثل: HapMap و 1000 Genomes Projects للتنبؤ بأنماط وراثية في الشفرات المفقودة أو الغير مورثه. أتاحت هذه الطرق للعلماء إجراء تحليل دقيق لكل من معلومات التشكل الوراثي المتعدد الأشكال والعلامات غير الموروثة التي يتم التنبؤ بها حسابيًا. لقد ثبت أن دراسات التتبع للتشكيل الوراثي أو الاختلاف الوراثي [1] مفيدة جداً في تحليل الفرضيات وفي تطوير المعرفة في اكتشاف الجينات الحاملة للأمراض، ومن الجدير بالذكر أن استخدام الفرضيات الجينية في التحليل الوراثي ساهم ايضاً في تسهيل جمع البيانات بين الدراسات الوراثية والجينات التي تستخدم كمنصات لمعرفة الأنماط الجينية المختلفة في تجاربها، فمثلا على الرغم من وجود 415 مليون نوع من المتغيرات الوراثية الشائعة والنادرة في مورثات الإنسان، إلا أن مصفوفات النمط الجيني المستخدمة حالياً مثل Affymetrix و Illumina مصفوفات صغيرة يمكنها فقط فحص ما يصل إلى 2.5 مليون تشكل من النيوكليدات الفردية single nucleotide polymorphisms. لذلك يعتبر تحليل الفرضيات الجينية اتجاهًا بحثيًا مهمًا، حيث تكمن أهميته في تحديد الأساليب والمنصات لإدخال بيانات النمط الجيني عالية الجودة باستخدام الأنماط الوراثية الموجودة والمنصات المرجعية من الموارد المتاحة للعامة مثل مشروع HapMap الدولي ومشروع 1000 Genomes. بالنسبة للانسان نجح تحليل الفرضيات الوراثية في تحديد أنماط وراثية متوقعة في العديد من الأعراق بما في ذلك الأوروبيين [2] والأميركيين الأفارقة، و [3] بالنسبة للأنواع الأخرى مثل النباتات يعد تحليل الفرضيات الوراثية عملية مستمرة تستخدم منصات مرجعية مثل الذرة. [4]
يوجد العديد من الطرق المختلفة المتبعة في تحليل فرضيات التركيب الوراثي، هنالك ثلاث طرق منها هي الأكثر استخدامًا : Mach و [5] Impute [6] و Beagle ، [7] تستخدم هذه الطرق الثلاث نماذج ماركوف اللوغارثمية المخفية كمحور أساسي لتقدير التوزيع المتواتر في النمط الفردي. تعد Mach و Impute2 من أكثر الطرق كثافة من الناحية الحسابية بالمقارنة مع Beagle. كما تعتمد كل من Impute و Mach على تطبيقات مختلفة لنواتج مشروطة أو باستخدام نموذج الـ Parent Adult Child ،حيث يعتمد Beagle على تجميع النماذج الفردية للمنصة المرجعية في المجموعات لكل تشكل في النيوكليوتيد الواحد لتكوين نموذج مجموعة النمط الفردي الذي يتيح لها تغيير عدد الكتل في كل تشكل في النيوكليوتيد الواحد ديناميكيًا مما يجعلها أسرع حسابيًا من Mach و Impute2.
لمزيد من المعلومات، راجع الفرضيات (علم الوراثة) .
التحليل الواسع لربط المورثات
على مدار السنوات القليلة الماضية أصبحت دراسات الارتباط على نطاق المورثات (Genome-wide Association Analysis) أداة قوية لاستكشاف الأساس الوراثي للأمراض الشائعة، حيث حسّنت فهمنا للأساس الجيني للعديد من الصفات المعقدة . [8] single-nucleotide polymorphism التقليدي وهو تعدد الأشكال أحادي النوكليوتيدات في دراسة ارتباط المورثات وهي الطريقة الأكثر شيوعًا للعثور على متغيرات تسلسل الحمض النووي المرتبطة بالسمات، حيث يتم التحقق من الارتباطات بين المتغيرات الواحدة أو أكثر من الأنماط الظاهرية المثيرة للاهتمام من خلال دراسة الأفراد الذين لديهم أنماط ظاهرية مختلفة وفحص الأنماط الوراثية الخاصة بهم في موضع محدد لكل (تشكل أحادي النيوكليدات single nucleotide polymorphisms) للفرد الواحد، من ثم يتم الإبلاغ عن التكرار المتعدد في (تشكل النيوكليدات الفردية) و الذي يعد أحد المتغيرات الخاصة وهو الأكثر شيوعًا إحصائيًا في تحليل الأفراد الذين ينتمون إلى مجموعة ظاهرية واحدة وهذا التحليل مرتبط بالنمط الظاهري. ومع ذلك فإن معظم الأمراض الشائعة المعقدة تنطوي على مساهمات صغيرة على مستوى الفصيلة من مواقع الجينات المتعددة. لدراسة وتحديد تأثير الاختلافات الطفيفة في ارتباط المورثات على نطاق واسع تعتمد الدراسات التقليدية منها على زيادة حجم العينة فمثلاً لاكتشاف التأثير الذي يمثله 0.1٪ من التباين الكلي في النمط الظاهري للفرد تحتاج هذه الدراسات التقليدية إلى أخذ عينات من حوالي 30,000 فرد. بالرغم من أن تطوير تقنيات النمط الجيني ذات الإنتاجية العالية أدى إلى خفض التكلفة وتحسين كفاءة النمط الجيني ولكن للقيام بمثل هذه الدراسة الواسعة النطاق لا يزال عالي التكلفة المادية ويحتاج المزيد من الوقت. في الآونة الأخيرة تم اقتراح طرق تحليل ارتباط المورثات باستخدام الاختبارات القائمة على الجينات [9] والتي تستند إلى حقيقة أن الاختلافات في ترميز البروتين والمناطق التنظيمية المجاورة لها على الأرجح ذات صلة وظيفية. تتمتع هذه الطرق بميزة أنها تستطيع حساب المتغيرات الوظيفية المستقلة المتعددة داخل الجين، مع إمكانية زيادة القدرة على تحديد الجينات المرتبطة بالأمراض أو السمات. أيضا فإن توقع علامات اختلاف غير نمطية باستخدام المنصات المرجعية المعروفة (مثل HapMap ومشروع 1000 Genomes) يتنبأ بأنماط وراثية في علامات مفقودة أو غير نمطية مما يسمح للمرء بإجراء تقييم دقيق للأدلة المتعلقة بالارتباط عند علامات وراثية ليست مباشرة (بمضاف لها علامات جينية دالة ) وقد ثبت انها تحسن من نتائج الدراسات لارتباط المورثات للكشف عن المحفزات الجينية المرتبطة بالمرض.
لمزيد من المعلومات، راجع دراسة الارتباط المورثات على نطاق واسع
الأمراض الإحصائية ذات العلاقة بالتحليل الافتراضي
في هذا العصر الذي يحتوي على كمية كبيرة من البيانات الجينية والمورثات، يمثل التمثيل الدقيق والتفاعل الإحصائي في البيانات الحيوية والجينية أو المورثات بشكل عام، أساسًا حيويًا في تصميم التدخلات والحلول العلاجية للعديد من الأمراض المعقدة. من المعروف أن الخلل الجيني الطفيف قد يجعلنا عرضة للعديد من الأمراض. نحن نتجه نحو عصر التحليل الوراثي الشخصي والطب الوراثي الشخصي الذي يتطلب تنبؤات دقيقة لمخاطر الأمراض التي تسببها العوامل الوراثية التي يحملها هذا الفرد. تعتبر الطرق الحسابية والإحصائية لتحديد الاختلافات الوراثية من بناء نماذج ذكية لدراسة وتحليل الارتباط المورثات واسع النطاق ضرورة ملحة لعلاج العديد من الأمراض. والتحديات الرئيسية التي تواجهها هذه الدراسات هي : (1) تتضمن معظم الأمراض المعقدة إسهامات صغيرة أو ضئيلة من عدة عوامل وراثية توضح فقط جزءًا ضئيلًا من التباين الجيني العام الذي يعزى إلى العوامل الوراثية. (2) البيانات الوراثية معقدة للغاية بطبيعتها لذا فإن التعقيدات الأساسية للنظم الحيوي (مثل اختلال الترابط وعدم التجانس الوراثي) تحتاج إلى إدراجها في النماذج الإحصائية لدراسة المحفزات المسببة للمرض. تنطوي فرص الإصابة بالعديد من الأمراض الشائعة مثل السرطان وأمراض المناعة الذاتية وأمراض القلب والأوعية الدموية على تفاعلات معقدة بين جينات متعددة والعديد من العوامل البيئية الداخلية والخارجية. لا يمكن أن تؤدي الدراسات السابقة لارتباط محفزات المرض الوراثية إلى نتائج مهمة بسبب عدم وجود تفاعلات إحصائية في النماذج الرياضية التي توضح أسباب المرض، وبالتالي فإن المخاطر الكامنة وراء العديد من الأمراض والاضطرابات الوراثية لا تزال مجهولة. تظهر الطرق الحسابية مثل [10] [11] [12] [13] [14] [15] لنمذجة وتحديد الاختلافات الجينية والجينات الكامنة وراء ظهور المرض إمكانية عالية وواعدة لتحسين طرق العلاج وتحسين حالة المريض، وفهم التفاعلات واستخدام أساليب علاجية أفضل بناءً عليها.
المراجع
- Hao, Ke; Chudin, Eugene; McElwee, Joshua; Schadt, Eric E (2009). "Accuracy of genome-wide imputation of untyped markers and impacts on statistical power for association studies". BMC Genetics. 10: 27. doi:10.1186/1471-2156-10-27. PMID 19531258.
- Nothnagel, M; Ellinghaus, D; Schreiber, S; Krawczak, M; Franke, A (2009). "A comprehensive evaluation of SNP genotype imputation". Human Genetics. 125 (2): 163–71. doi:10.1007/s00439-008-0606-5. PMID 19089453.
- Chanda, P; Yuhki, N; Li, M; Bader, JS; Hartz, A; Boerwinkle, E; Kao, WH; Arking, DE (2012). "Comprehensive evaluation of imputation performance in African Americans". Journal of Human Genetics. 57 (7): 411–21. doi:10.1038/jhg.2012.43. PMID 22648186.
- Hickey, John M.; Crossa, Jose; Babu, Raman; De Los Campos, Gustavo (2012). "Factors Affecting the Accuracy of Genotype Imputation in Populations from Several Maize Breeding Programs". Crop Science. 52 (2): 654. doi:10.2135/cropsci2011.07.0358.
- "Mach". مؤرشف من الأصل في 22 سبتمبر 2014.
- "Impute2". مؤرشف من الأصل في 27 سبتمبر 2018.
- "Beagle". مؤرشف من الأصل في 22 يونيو 2019.
- McCarthy, MI; Abecasis, GR; Cardon, LR; Goldstein, DB; Little, J; Ioannidis, JP; Hirschhorn, JN (2008). "Genome-wide association studies for complex traits: Consensus, uncertainty and challenges". Nature Reviews Genetics. 9 (5): 356–69. doi:10.1038/nrg2344. PMID 18398418.
- Chanda, Pritam; Huang, Hailiang; Arking, Dan E.; Bader, Joel S. (2013). Veitia, Reiner Albert (المحرر). "Fast Association Tests for Genes with FAST". PLoS ONE. 8 (7): e68585. doi:10.1371/journal.pone.0068585. PMID 23935874.
- Chanda, P; Zhang, A; Brazeau, D; Sucheston, L; Freudenheim, JL; Ambrosone, C; Ramanathan, M (2007). "Information-theoretic metrics for visualizing gene-environment interactions". American Journal of Human Genetics. 81 (5): 939–63. doi:10.1086/521878. PMID 17924337.
- Chanda, Pritam; Sucheston, Lara; Liu, Song; Zhang, Aidong; Ramanathan, Murali (2009). "Information-theoretic gene-gene and gene-environment interaction analysis of quantitative traits". BMC Genomics. 10: 509. doi:10.1186/1471-2164-10-509. PMID 19889230.
- Chanda, P.; Sucheston, L.; Zhang, A.; Brazeau, D.; Freudenheim, J. L.; Ambrosone, C.; Ramanathan, M. (2008). "AMBIENCE: A Novel Approach and Efficient Algorithm for Identifying Informative Genetic and Environmental Associations with Complex Phenotypes". Genetics. 180 (2): 1191–210. doi:10.1534/genetics.108.088542. PMID 18780753.
- "MDR". مؤرشف من الأصل في 29 أغسطس 2019.
- Shang, Junliang; Zhang, Junying; Sun, Yan; Zhang, Yuanke (2013). "EpiMiner: A three-stage co-information based method for detecting and visualizing epistatic interactions". Digital Signal Processing. 24: 1–13. doi:10.1016/j.dsp.2013.08.007.
- "BOOST". مؤرشف من الأصل في 29 أغسطس 2019.