في المعلوماتية الحيوية ، يحدث خطأ في قراءة الحمض النووي عندما يغير مجمّع التسلسل قاعدة حمض نووي واحدة لقاعدة مختلفة. ثم تُستخدم القراءات من أداة تجميع التسلسل لإنشاء رسم بياني (دي بروجين جراف) يُستخدم بطرق مختلفة للعثور على أخطاء القراءة.
نظرة عامة
من طريقة تكوين رسم بياني دي بروين، يمكننا أن نرى أن هناك إمكانية لـ 4 أضعاف عقد مختلفة لعمل ترتيبات الجينوم. يمكن تقليل عدد العقد المستخدمة لإنشاء الرسم البياني من خلال النظر فقط في عدد k-mers الموجود في سلسلة الحمض النووي المهمة. بالنظر إلى التسلسل الأول ، يمكننا تحديد العقد ذات الحجم 7 أو 7 أمتار ، والتي ستكون في الرسم البياني. هذه 7-mers ثم إنشاء الرسم البياني هو مبين في الشكل 1.
الرسم البياني الموضح في الشكل 1 هو نسخة بسيطة للغاية لما يمكن أن يبدو عليه الرسم البياني ... يتكون هذا الرسم البياني من خلال أخذ آخر 6 عناصر من 7-mer وربطها بالعقدة التي تكون عناصرها الستة الأولى متماثلة. الشكل 1 هو أبسط رسم بياني لـ Bru Brun ، حيث أن كل عقدة بها مسار واحد بالضبط و مخرج واحد. في معظم الأحيان ، سترى على الأرجح رسمًا بيانيًا حيث يوجد أكثر من حافة موجهة إلى عقدة و / أو أكثر من حافة واحدة تترك عقدة. يحدث هذا بسبب طريقة اتصال العقد. ترتبط العقد بالحواف التي تشير إلى العقد إذا كانت عناصر k-1 الأخيرة من k-mer التي تبحث عنها تتطابق مع عناصر k-1 الأولى لأي عقدة. هذا يسمح لتكوين رسم بياني ذو حواف متعددة. تحدث هذه الرسوم البيانية الأكثر تعقيدًا بسبب إما قراءة الأخطاء أو الاختلافات في سلاسل DNA. كلا السببين يجعل من الصعب تحديد البنية الصحيحة للحمض النووي ، وما الذي يسبب الاختلافات. نظرًا لأن معظم فروع الحمض النووي ستشتمل على الأرجح على أخطاء القراءة والاختلافات ، يأمل العلماء في استخدام عملية تجميع يمكنها دمج العقد في الرسم البياني عندما تكون متصلة بشكل لا لبس فيه بعد تنظيف الرسم البياني للرؤوس والحواف التي تم إنشاؤها بواسطة الأخطاء.
رأس وفقاعات
عندما يتم تكوين رسم بياني من بيانات متسلسلة ، فإن أخطاء القراءة تشكل رأس وفقاعات. الرأس هو المكان الذي حدث فيه خطأ أثناء عملية التسلسل وتسبب في إنهاء الرسم البياني قبل الأوان ويتضمن كلا من k-mers الصحيحين وغير الصحيحين. تتشكل الفقاعة أيضًا عند حدوث خطأ أثناء عملية قراءة التسلسل ؛ ومع ذلك ، أينما حدث الخطأ ، هناك مسار لقراءات k-mer لإعادة الاتصال مع الرسم البياني الرئيسي والاستمرار كما لو لم يحدث شيء على الإطلاق. عندما تكون هناك رأس وفقاعات موجودة في رسم بياني دي بروين تم تشكيلها من البيانات ، فقد تتم إزالتها فقط إذا حدث خطأ ما الذي تسبب في ظهور الطرف أو الفقاعة. عندما يستخدم العلماء الجينوم المرجعي ، يمكنهم بسهولة وبسهولة تحديد مكان وجود النصائح من خلال مقارنة الرسم البياني للجينوم المرجعي والرسم البياني للتسلسل. في حالة عدم وجود جينوم مرجعي ، يتم التخلص من هذه النصائح عن طريق تتبع الفروع إلى الخلف حتى يتم العثور على نقطة من الغموض. ثم تتم إزالة هذه النصائح فقط إذا كان الفرع الذي يحتوي على الطرف أقصر من طول الحد الأدنى المحدد. عملية إزالة الفقاعات أكثر تعقيدًا قليلاً. أول ما يجب القيام به هو تحديد بداية الفقاعة. من هناك ، يتم اتباع كل مسار من بداية الفقاعة حتى نقطة إعادة الاتصال. يمكن أن تكون نقطة إعادة الاتصال مختلفة لكل مسار. نظرًا لوجود مسارات بأطوال مختلفة من عقدة البداية ، تتم إزالة المسار الذي يحتوي على تغطية أقل.
مثال
نظرًا لتسلسل من أي طول ، فإن الخطوة الأولى التي يجب القيام بها هي إدخال التسلسل في برنامج التسلسل ، وتسلسله ، وقراءة زوج الأساس (bp) بقراءة معينة. نظرًا لعدم وجود برنامج تسلسلي دقيق تمامًا ، ستكون هناك دائمًا بعض القراءات التي تحتوي على أخطاء. أكثر طرق التسلسل شيوعًا هي طريقة البندقية ، وهي الطريقة الأكثر استخدامًا في التسلسل 2. بمجرد تحديد الطريقة ، يجب عليك تحديد طول قراءة bp التي ترغب في إرجاعها. في حالة التسلسل 2 ، قام بإرجاع قراءة 7-bp مع كل الأخطاء التي حدثت أثناء العملية المذكورة باللون الأحمر.
بمجرد الحصول على القراءات ، يتم تجزئتها إلى k-mers. ثم يتم تسجيل k-mers في جدول مع عدد المرات التي ظهر فيها كل k-mer في القراءات. في هذا المثال ، تم تجزئة كل قراءة إلى 4 أمتار ، وإذا حدث خطأ ، فقد سجل باللون الأحمر. ثم تم تسجيل جميع الـ 4 mers ، بترددها في الجدول التالي.
بعد ذلك ، ستشكل كل خلية فردية في الجدول عقدة ، مما يسمح بتكوين رسم بياني لـ Bru Brun من kers. في الشكل 2 ، يتم تحديد الامتدادات الخطية ثم يتم تشكيل رسم بياني آخر ، الشكل 3 ، حيث أصبحت الامتدادات الخطية عقدة واحدة ، بحجم k-mer مختلف ، مما يسمح برسم بياني أكثر إيجازًا. في هذا الرسم البياني المبسط ، من السهل تحديد العديد من النصائح والفقاعات ، كما هو مبين في الشكل 4. ويمكن بعد ذلك إزالة هذه الفقاعات والنصائح ، حيث يمكننا تحديد أنها تشكلت من أخطاء في قراءة bp ، مما يوفر لنا بنية الرسم البياني يجب أن تعكس بدقة وبشكل كامل التسلسل الأصلي. إذا اتبعت الرسم البياني دي بروين الموضح في الشكل 5 ، فسترى أن التسلسل الذي تم تشكيله يتوافق بالفعل مع تسلسل الحمض النووي الوارد في التسلسل 2.
مقارنة اثنين من فروع الحمض النووي
عند مقارنة شريطين من الحمض النووي ، يتم استخدام الرسوم البيانية دي بروين الملونة بشكل متكرر لتحديد الأخطاء. هذه الأخطاء ، في كثير من الأحيان الأشكال ، تسبب فقاعات ، على غرار تلك المذكورة أعلاه ، لتشكيل. يوجد حاليًا أربع خوارزميات رئيسية تستخدم لتعميم البيانات وتحديد الفقاعات. تقوم الخوارزميات الأربعة بتمديد الرسوم البيانية لـ دي بروين عن طريق السماح للعقد والحواف الموجودة في الرسم البياني بتلوين العينات التي تم رصدها منها
استدعاء فقاعة
يُعرف الاستخدام الأبسط لرسومات دي بروين الملونة باسم خوارزمية استدعاء الفقاعات. تبدو هذه الخوارزمية وفقاعات للجينوم التي تختلف عن الأصل ، وتحدد موقعها. يجب أن تكون هذه الفقاعات "نظيفة" ، أو مجرد انحراف عن الجينوم المرجعي ، ولكن لا يمكن أن يكون سببها حذف قواعد الحمض النووي. يمكن أن يكون لهذه الخوارزمية معدلات إيجابية عالية خاطئة نظرًا لوجود صعوبة في فصل الفقاعات الناتجة عن التكرار والمتغيرة ؛ ومع ذلك ، غالبًا ما يكون هناك جينوم مرجعي للمساعدة في تحسين الموثوقية. يساعد الجينوم المرجعي أيضًا في اكتشاف المتغيرات وهو ضروري للكشف عن المواقع المتغيرة. اكتشف العلماء مؤخرًا طريقة لاستخدام خوارزمية استدعاء الفقاعة مع اكتشاف تباين أرقام النسخ للسماح بفرصة الكشف غير المتحيز لهذه الاختلافات في المستقبل
مسار الاختلاف
عند النظر إلى المتغيرات المعقدة ، هناك احتمال ضئيل للغاية في أن يصنعوا تلوثًا نظيفًا. نظرًا لأن هذا هو الحال في أغلب الأحيان ، تكون خوارزمية اختلاف المسار مفيدة ، خاصة عند النظر في مكان حدوث الحذف ويكون المتغير معقدًا إلى درجة أنه مقيد بالأليل المرجعي. عندما تكون هناك فقاعة ، يتم استخدام خوارزمية تباعد المسار بشكل متكرر وتسمح للفقاعات المكتشفة بالحذف في إجراء منتظم للغاية. تحدد الخوارزمية أولاً كل نقطة اختلاف. ثم من كل نقطة من نقاط الاختلاف ، يتم تتبع السلاسل التي تشكل الفقاعة للعثور على المكان الذي يرتبط فيه المساران بعد العقد n. في حالة انضمام المسارين ، تتم إزالة المسار ذي التغطية الأقل وتخزينه في ملف.
تحليل عينة متعددة
يؤدي استخدام عينات متعددة إلى تحسين القدرة ومعدل الاكتشاف الخاطئ للكشف عن المتغيرات. في أبسط الحالات ، يتم دمج العينات في مجموعة من لون واحد ويتم تحليل البيانات كما هو موضح سابقًا. ومع ذلك ، من خلال الحفاظ على ألوان منفصلة لكل مجموعة عينة ، تقدم معلومات إضافية حول كيفية تكوين الفقاعات ، سواء عن طريق الخطأ أو عن طريق التكرار ، نفسها. في عام 1997 ، قام قسم تطوير التكنولوجيا في Genzyme Genetics في فرامنجهام ، ماساتشوستس بتطوير نهج جديد يوفر طفرة في التعامل مع الفقاعات باستخدام اختبار التشخيص متعدد الأليل المحدد (MASDA). يجمع هذا البرنامج بين نقطة النقطة الأمامية وتهجين التحقيق المتزامن المعقّد والكشف المباشر عن الطفرة للمساعدة في حل المشكلة المزدوجة لتحليل العينات المتعددة.
البنية الوراثية
يمكن استخدام الرسوم البيانية الملونة لـ Bru Brun لتكوين أي عينة من الحمض النووي في مكان معروف ، حتى عندما تكون التغطية أقل من كافية للتجميع المتغير. الخطوة الأولى لهذه العملية هي بناء رسم بياني للأليل المرجعي ، المتغيرات والبيانات المعروفة من العينة. ثم تقوم الخوارزمية بحساب احتمالية كل نمط جيني وحسابات بنية الرسم البياني ، سواء في التسلسل المحلي أو على نطاق الجينوم. ثم يعمم هذا على أنواع أليلية متعددة ويساعد على تكوين التركيب الوراثي ومتغيرات مركبة. يتم استخدام هذه الخوارزمية بشكل متكرر ، حيث لا توجد فقاعات مشكلة للتعامل معها. يساعد هذا أيضًا بشكل مباشر في العثور على المشكلات الأكثر تعقيدًا في الجينات بشكل مباشر أكثر من أي من الخوارزميات الثلاث المذكورة سابقًا.