الرئيسيةعريقبحث

محاذاة التسلسلات


☰ جدول المحتويات


في المعلوماتية_الحيوية، محاذاة تسلسل هي وسيلة لترتيب تسلسل الحمض النووي DNA، والجيش الملكي RNA النيبالي، أو ا البروتين لتحديد مناطق للتشابه التي قد تكون نتيجة للعلاقات الوظيفية أو الهيكلية أوالتطورية بين التسلسل. عادة يتم تمثيل تسلسل تمت محاذاته من بقايا النوكليوتيدات أو الأحماض الأمينية كالصفوف داخل مصفوفة. يتم إدراج الفجوات بين ا المخلفات حيث أن يتم محاذاة الأحرف المتطابقة أو المتشابهة في أعمدة متعاقبة. كما تستخدم التحالفات تسلسل لتسلسل غير البيولوجية، مثل تلك موجودة في اللغات الطبيعية أو في البيانات المالية. [1]

التفسير

إذا تسلسلين في محاذاة اشتركوا بسلف مشترك، يمكن تفسير عدم التطابق كنقطة الطفرات أو كنقطة تحول والثغرات indels أو الفجوات ك indels (أي، الطفرات الإدراج أو الحذف( أدخلت في الأنساب أحدهما أو كليهما في الوقت نظراً لأنها تختلف عن بعضها البعض. في محاذاة تسلسل البروتين يمكن تفسير درجة التشابه بين الأحماض الأمينية التي تحتل مكانة خاصة في التسلسل كمقياسا تقريبيا لكيفية المحافظة على منطقة بعينها أو تسلسل عزر (محفظ) بين الأنساب. نظراً لغياب بدائل، أو وجود استبدالات متحفظة جداً فقط (أي الاستعاضة عن الأحماض الأمينية السلاسل الجانبية التي لها الخصائص البيوكيميائية مماثلة) في منطقة معينة من التسلسل، توحي أن هذه المنطقة لها أهمية هيكلية أو وظيفية. على الرغم من أن قواعد النوكليوتيدات الحمض النووي والجيش الملكي النيبالي أكثر مماثلة لبعضها البعض من الأحماض الأمينية يمكن الإشارة الي ان الأزواج اللتي تحافظ على نفس الأساس لها دور وظيفي أو هيكلي مماثل. [2]

طرق المحاذاة

يمكن محاذاة تسلسلات قصيرة جداً أو مشابهة جداً باليد. ومع ذلك، تتطلب معظم المشاكل الأكثر أهمية المحاذاة المطولة، والمتغيره أو التسلسلات المتعددة التي لا يمكن أن تكون محاذاة فقط عن طريق الجهد البشري. بدلاً من ذلك، يتم تطبيق المعرفة البشرية في بناء خوارزميات (طرق) لإنتاج محاذاة تسلسلات عالية الجودة، وأحيانا في ضبط النتائج النهائية التي تعكس الأنماط التي يصعب على ها تمثيل حسابياً (خاصة في حالة تسلسل النوكليوتيدات. النهج الحسابية لمحاذاة تسلسلا عموما تنقسم إلى فئتين: التحالفات العالمية والتحالفات المحلية.حساب محاذاة عالمية هو نموذج التحسين العالمي حيث أن "قوات" المحاذاة تمتد على طول جميع سلاسل الاستعلام. على النقيض من ذلك، المحاذات المحلية تحدد مناطق تشابه في تسلسلات طويلة، غالباً ما تكون متباينة على نطاق واسع . التحالفات المحلية غالباً ما تكون الأفضل، ولكن يمكن أن تكون أكثر صعوبة للحساب بسبب التحدي الإضافي المتمثل في تحديد مناطق التشابه.مجموعة متنوعة من خوارزميات حسابية تم تطبيقها على مشكلة محاذاة التسلسل غالبا ما تكون بطيئة ولكن رسميا تصحح أساليب مثل البرمجة الديناميكية . وتشمل هذه أيضا خوارزميات الكشف عن مجريات الأمور ، وكفاءة أو احتمالي طرق مصممة للبحث في قاعدة بيانات واسعة النطاق، التي لا تضمن للعثور على مطابقات أفضل. [3]

التمثيلات

عادة يتم تمثيل المحاذات سواء بيانيا وفي تنسيق النص. في تقريبا كل تمثيلات محاذاة التسلسلات، التسلسلات مكتوبة في صفوف مرتبة حيث تظهر بقايا المنحازة في أعمدة متعاقبة. في تنسيقات النص، يتم الإشارة إلى محاذاة الأعمدة التي تحتوي على أحرف مطابقة أو مماثلة بنظام من الرموز المحافظة. كما في الصورة أعلاه، يتم استخدام رمز العلامة النجمية أو الأنابيب لإظهار الهوية بين عمودين; رموز أخرى أقل شيوعاً تشمل نقطتين لاستبدال المحافظ وفترة زمنية لاستبدال المحافظ جزئيا. كما تستخدم العديد من برامج التصور اللون لعرض معلومات عن خصائص عناصر التسلسل الفردية؛ في تسلسل الحمض النووي والجيش الملكي النيبالي، وهذا يساوي في تعيين كل النوكليوتيدات اللون الخاص بها. في التحالفات البروتين، مثل واحد في الصورة أعلاه، غالباً ما يتم استخدام اللون للإشارة إلى خصائص الأحماض الأمينية التي تساعد في الحكم على المحافظة على استبدال حمض أميني معين. كثيرا من المتسلسلات الصف الأخير في كل عمود هو غالباً ما يوافق المحاذاة للتسلسل ؛ ويمثل تسلسل الآراء أيضا في كثير من الأحيان بتنسيق رسومي (بياني) مع شعار تسلسل الذي يتوافق مع حجم كل النوكليوتيدات أو حرف من الأحماض الأمينية يتوافق مع درجته من الحفظ .محاذاة التسلسلات يمكن تخزينها في مجموعة متنوعة من النصوص معتمدة على تنسيقات الملفات كثير منها وضعت أصلاًبالاقتران مع برنامج المحاذاة المحددة، أو تنفيذ. معظم الأدوات المستندة إلى ويب تسمح لعدد محدود من تنسيقات الإدخال والإخراج، مثل تنسيق FASTA و بنك الجينات والإخراج غير قابلة للتحرير بسهولة. عدة برامج التحويل التي تقدم الرسومات و/أو واجهات سطر الأوامر تكون متوفرة، مثل READSEQ و EMBOSS . وهناك أيضا العديد من حزم البرمجة التي توفر وظيفة التحويل، مثل BioPerl و BioRuby . [4]

المحاذات العالمية والمحلية

التحالفات العالمية، التي تحاول إلي محاذاة كل بقايا في كل تسلسل، مفيدة للغاية عندما التسلسل في مجموعة الاستعلام متشابه ومتساوي تقريبا في الحجم. وهذا لا يعني التحالفات العالمية لا يمكن أن تنتهي في الثغرات. تقنية محاذاة عامة عالمية هو خوارزمية Needleman–Wunsch ، الذي يرتكز على البرمجة الديناميكية. التحالفات المحلية أكثر فائدة لمتواليات متباينة يشتبه في أنها تحتوي على مناطق التشابه أو زخارف تسلسل مماثلة ضمن سياقها تسلسل أكبر.خوارزمية Smith–Waterman algorithm أسلوب محاذاة محلية غالبا يستند إلى البرمجة الديناميكية .أساليب الهجين، المعروفة باسم شبه عامة أو أساليب "معارة (قصيرة للعالمية-المحلية)، في محاولة للعثور على أفضل محاذاة تتضمن بداية ونهاية واحدة أو سلسلة أخرى. يمكن أن يكون هذا مفيداً بشكل خاص عندما يتراكب مع الجزء المصب من تسلسل واحد مع الجزء التمهيدي من تسلسل الأخرى. في هذه الحالة، لا المحاذاة العالمية ولا المحلية ملائمة تماما: محاذاة عالمية ستحاول فرض المحاذاة تمتد إلى ما وراء منطقة التداخل، بينما محاذاة محلية قد لا تغطي كامل منطقة التداخل.حالة أخرى حيث ان المحاذاة المهجنة أو الشبه عالمية مفيدة للغاية حيث في حالة تسلسل واحد قصير (على سبيل المثال سلسلة جينات) والآخر طويل جداً (على سبيل المثال تسلسل كروموسوم). وفي هذه الحالة، يجب أن تكون محاذاة تسلسل قصيرة على الصعيد العالمي ولكن المحاذاة المحلية صممت لسلسلة طويلة.

رسم توضيحي: شكل توضيحي للتحالفات العالمية والمحلية، مما يدل على نوعية التحالفات العالمية التي يمكن أن تحدث إذا كان تسلسل متشابهة غير كاف 'تتخللها'

[3][5]

تعدد تسلسل المحاذاة

تعدد تسلسل المحاذاة هي امتداد لمحاذاة العشوائية لدمج أكثر من اثنين من سلاسل في وقت واحد. تحاول أساليب المحاذاة المتعددة لمحاذاة كل تسلسل في مجموعة استعلام معين.غالباً ما تستخدم التحالفات في تحديد المناطق المحفوظة المتسلسلة عبر مجموعة من تسلسل افترض أن تكون ذات تطويريا. يمكن استخدام حفظ الافكار المتسلسلة بالاقتران مع المعلومات الهيكلية و الميكانيكية لتحديد المواقع النشطة الحفاز للإنزيمات  : تستخدم أيضا التحالفات للمساعدة في إقامة العلاقات التطورية بتشييدها أشجار النشوء والتطور .من الصعب علي المحاذاة المتسلسلة المتعددة ان تنتج ومعظم مشاكل التركيبات تؤدي إلى مشاكل التحسين التوافقي مسألة NP الكاملة و على الرغم من ذلك، الأداة المساعدة لهذه التحالفات في المعلوماتية الحيوية قد أدى إلى تطوير مجموعة متنوعة من أساليب مناسبة لمحاذاة تسلسلات ثلاثة أو أكثر. [6][7]

البرمجة الديناميكية

أسلوب البرمجة الديناميكية المطبقة نظرياً إلى أي عدد من تسلسل؛ ومع ذلك، نظراً لأنها مكلفة حسابياً في الوقت و الذاكرة ، هو نادراً ما تستخدم لأكثر من ثلاث أو أربع متواليات في أبسط أشكاله. هذا الأسلوب يتطلب بناء ما يعادل ن الأبعاد من المصفوفة تسلسل، التي تكونت من تسلسلين، حيث n هو رقم تسلسل في الاستعلام. أولاً يتم استخدام البرمجة الديناميكية القياسية على جميع أزواج من سلاسل الاستعلام وثم يتم ملء 'الفضاء محاذاة' بالنظر في التطابقات المحتملة أو الثغرات في المناصب المتوسطة، في نهاية المطاف بناء محاذاة أساسا بين كل اثنين-تسلسل المحاذاة. على الرغم من أن هذه التقنية مكلفة حسابياً، الضمانة للحل الأمثل العالمية مفيدة في الحالات التي يلزم فيها تكون محاذاة بدقة تسلسل عدد قليل فقط.طريقة واحدة لتخفيض المطالب الحسابية من البرمجة الديناميكية الذي يعتمد على "مجموع أزواج" دالة الهدف تم تنفيذه في مجموعة برمجيات MSA [8]

الطرق التقدمية

تولد الطرق التقدمية، هرمية, , شجرة محاذاة تسلسل متعددة أولاً بمحاذاة أكثر تسلسل متماثل ثم إضافة متواليات أو مجموعات أقل صلة للمحاذة حتى مجموعة الاستعلام بالكامل قد أدمجت في الحل. تستند الشجرة الاولوية واصفا صلة التسلسل المقارنات العشوائية التي قد تتضمن المحاذاة العشوائية إرشادي أساليب مماثلة ل FASTA . تعتمد على اختيار تسلسل 'ذات الصلة الأكثر' نتائج محاذاة التدريجي وبالتالي يمكن أن تكون حساسة لعدم الدقة في التحالفات العشوائية الأولية بالإضافة إلى ذلك تزن . معظم أساليب محاذاة التسلسل المتعددة لمجموعة استعلام وفقا لارتباطهما، مما يقلل من احتمال سوء الاختيار من تسلسل الأولية وبالتالي يحسن من دقة المحاذاة يستخدم العديد من الاختلافات التنفيذ التدريجي كلوستال لمحاذاة تسلسل متعددة، بناء شجرة النشوء والتطور، وكمدخل للتنبؤ بنية البروتين . T-Coffee هو البديل لأسلوب التدريجي أبطأ ولكن أكثر دقة. [9][10][11][12]

الطرق التكرارية

تحاول الطرق التكرارية باعتماد كبير علي تحسين دقة التحالفات العشوائية الأولية والتي هي نقطة ضعف الطرق التقدمية تحسن الطرق التكرارية دالة الهدف بناء على طريقة هدف المحاذاة المحددة عن طريق تعيين محاذاة العالمية الأولى ومن ثم إعادة ترتيب تسلسل المجموعات الفرعية . ثم يتم إعادة تنظيم المجموعات نفسها بالانحياز لتنتج التكرار التالي لتعدد تسلسل المحاذاة يتم مراجعة تحديد تسلسل المجموعات الفرعية ودالة الهدف بطرق مختلفة. [13]

ايجاد العناصر

ايجاد العناصر معروف أيضا بأسم تحليل الشخصية وهو بناء تحالفات عالمية متعددة التسلسل التي تسعى إلى محاذاة العناصر المتسلسلة قصيرة الحفاظ بين متواليات في المجموعة الاستعلام. و هذا عادة ما يتم اولا عن طريق بناء محاذاة عالمية عامة متسلسلة متعددة وبعد ذلك يتم عزل مناطق عالية الحفظ وتستخدم لبناء مجموعة من المصفوفات الشخصية . يتم ترتيب المصفوفة الشخصية لكل منطقة محفوظة ولكن ترددها تعداد لكل من الأحماض الأمينية أو النوكليوتيدات في كل موضع مشتقة من توزيع شخصية المنطقة المحفوظة بدلا من توزيع بدلاً من توزيع تجريبية بصورة عامة . ثم يتم استخدام مصفوفات الشخصية لبحث متواليات أخرى لتواجد عناصر مميزة وفي هذه الحالات يحتوي مجموعة البيانات الأصلية علي عدد قليل لتطبيع توزيعات الشخصية الممثلة للعناصر .و تضاف pseudocounts من متواليات أو فقط متواليات ذات الصلة عالية.

تقنيات مستوحاة من علوم الحاسب الآلي

تم تطبيق مجموعة متنوعة من خوارزميات التحسين العامة الذي تستخدم عادة في علوم الكمبيوتر على مشكلة تعددة تسلسل المحاذاة.وقد استخدمت نماذج ماركوف المخفية لإنتاج عشرات الاحتمالات لعائلة مكونة من تحالفات تسلسل متعددة المجموعة; علي رغم اساليب HMMالقائمة مبكرا في استعلام معين قد أنتجت أداء محبطا.و وجدت التطبيقات الحديثة ان لها فعالية خاصة في كشف التسلسلات المتصلة عن بعد لأنهم أقل عرضة للضوضاء التي تم إنشاؤها بواسطة استبدال المحافظة أو شبه المحافظة . كما تم استخدام الخوارزميات الجينية ومحاكاة القوة في تحسين تعدد عشرات تسلسل المحاذاة كما يحكم بوظيفة الهدف مثل طريقة مجموع من أزواج ويمكن الاطلاع علي تفاصيل أكثر اكتمالا وحزم البرمجيات في المقالة الرئيسية بمحاذاة التسلسل المتعددة . تحويل The Burrows Wheeler تم تطبيقها بنجاح لقراءة المحاذاة السريعة باختصار في الادوات الشعبية مثل .Bowtie and BWA

[14]

المراجع

  1. Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (الطبعة 2nd). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.  .
  2. Ng PC, Henikoff S (May 2001). "Predicting deleterious amino acid substitutions". Genome Res. 11 (5): 863–74. doi:10.1101/gr.176601. PMC . PMID 11337480.
  3. PMID 22032267 (ببمد 22032267)
    Citation will be completed automatically in a few minutes. Jump the queue or expand by hand
  4. Schneider TD, Stephens RM (1990). "Sequence logos: a new way to display consensus sequences". Nucleic Acids Res. 18 (20): 6097–6100. doi:10.1093/nar/18.20.6097. PMC . PMID 2172928. مؤرشف من الأصل في 12 مايو 2020.
  5. Brudno M, Malde S, Poliakov A, Do CB, Couronne O, Dubchak I, Batzoglou S (2003). "Glocal alignment: finding rearrangements during alignment". Bioinformatics. Suppl 1 (90001): i54–62. doi:10.1093/bioinformatics/btg1005. PMID 12855437. مؤرشف من الأصل في 12 مايو 2020.
  6. Elias, Isaac (2006). "Settling the intractability of multiple alignment". J Comput Biol. 13 (7): 1323–1339. doi:10.1089/cmb.2006.13.1323. PMID 17037961. مؤرشف من الأصل في 13 ديسمبر 2019.
  7. Wang L, Jiang T. (1994). "On the complexity of multiple sequence alignment". J Comput Biol. 1 (4): 337–48. doi:10.1089/cmb.1994.1.337. PMID 8790475. مؤرشف من الأصل في 13 ديسمبر 2019.
  8. Lipman DJ, Altschul SF, Kececioglu JD (1989). "A tool for multiple sequence alignment". Proc Natl Acad Sci USA. 86 (12): 4412–5. doi:10.1073/pnas.86.12.4412. PMC . PMID 2734293. مؤرشف من الأصل في 10 سبتمبر 2017.
  9. Higgins DG, Sharp PM (1988). "CLUSTAL: a package for performing multiple sequence alignment on a microcomputer". Gene. 73 (1): 237–44. doi:10.1016/0378-1119(88)90330-7. PMID 3243435. مؤرشف من الأصل في 14 فبراير 2019.
  10. Thompson JD, Higgins DG, Gibson TJ. (1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice". Nucleic Acids Res. 22 (22): 4673–80. doi:10.1093/nar/22.22.4673. PMC . PMID 7984417. مؤرشف من الأصل في 23 سبتمبر 2016.
  11. Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD. (2003). "Multiple sequence alignment with the Clustal series of programs". Nucleic Acids Res. 31 (13): 3497–500. doi:10.1093/nar/gkg500. PMC . PMID 12824352. مؤرشف من الأصل في 27 أبريل 2020.
  12. Notredame C, Higgins DG, Heringa J. (2000). "T-Coffee: A novel method for fast and accurate multiple sequence alignment". J Mol Biol. 302 (1): 205–17. doi:10.1006/jmbi.2000.4042. PMID 10964570. مؤرشف من الأصل في 17 أكتوبر 2019.
  13. Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). "Comprehensive study on iterative algorithms of multiple sequence alignment". Comput Appl Biosci. 11 (1): 13–8. doi:10.1093/bioinformatics/11.1.13. PMID 7796270. مؤرشف من الأصل في 21 فبراير 2009.
  14. Karplus K, Barrett C, Hughey R. (1998). "Hidden Markov models for detecting remote protein homologies". Bioinformatics. 14 (10): 846–856. doi:10.1093/bioinformatics/14.10.846. PMID 9927713. مؤرشف من الأصل في 12 مايو 2020.

موسوعات ذات صلة :