هذه المقالة هي عن مجموعة برامج فاستا. لأجل صيغة الملف, أنظر صيغة فاستا. فاستا هو مجموعة برامج الحمض النووي والتراصف التسلسلي للبروتين وصفت لأوّل مرّة (FASTP) من قبل دايفيد ج.ليبمان وويليام ر.بيرسون في عام 1985.[1]
التاريخ
برنامج FASTP الأصلي تمّ تصميمه لبحوث التشابه التسلسلي للبروتين. أضاف فاستا القدرة لعمل الحمض النووي: بحوث الحمض النووي, البروتين المترجم: بحوث الحمض النووي, ويوفّر أيضاً برنامج تعديل أكثر تطوّراً لتقييم الاهمية الإحصائيّة.[2] هناك العديد من البرامج في هذه المجموعة التّي تسمح باصطفاف سلاسل البروتين وسلاسل الحمض النووي.
الاستخدام
فاستا تعني "سريع-دائماً", وتؤيّد "سريع بأكمله", لأنها تعمل بأيّ أبجديّة, امتداد ل"فاستا-ب" (بروتين) و"فاستا- ن" (نوكليوتيدات) صفّ. مجموعة فاستا الحاليّة تتضمّن برامج للبروتين: البروتين, الحمض النووي: الحمض النووي, البروتين: الحمض النووي المترجم (مع تحوّلات الوظيفة), وعمليات بحث الببتيد المنظّمة وغير المنظّمة. الإصدارات الحديثة من مجموعة فاستا تتضمّن خوارزميّات بحث مترجمة خاصّة الّتي تعالج بشكل صحيح أخطاء تحولات الوظيفة (الّتي لا تعالجها عمليات بحث الوظائف الستّة المترجمة) عند مقارنة النكليوتيد إلى بيانات سلسلة البروتين. بالإضافة إلى طرق البحث الإرشاديّة السّريعة, مجموعة فاستا SSEARCH، التطبيق الأمثل لخوارزمية سميث واترمان. التركيز الأهمّ للمجموعة هو حساب إحصائيّات التشابه الدّقيقة, بحيث يستطيع علماء الأحياء أن يحكموا فيما إذا كان من المرجّح أنّ الصفّ حدث عن طريق الصدفة, أوفيما إذا يمكن استخدامها لاستنتاج التناظر.مجموعة فاستا متاحة من fasta.bioch.virginia.edu. واجهة شبكة الانترنت لتقديم تسلسل لإدارة بحث لمعهد المعلوماتية الأوروبي قواعد البيانات على الإنترنت متوافرة أيضاً باستخدام برامج فاستا. صيغة ملف فاستا المستخدمة كمدخل لهذه البرامج تستعمل الآن بشكل كبير من قبل أدوات بحث قاعدة بيانات بتسلسل آخر (مثل أداة بحث الاصطفاف المحلية الأساسية) وبرامج اصطفاف التسلسل (كلوستال، تي-كوفي ,الخ).
طريقة البحث
فاستا يأخذ سلسلة النكليوتيد أو الحمض الأميني المعينة ويبحث قاعدة بيانات السلسلة المقابلة باستخدام التراصف التسلسلي المحلي لإيجاد نظائر لسلاسل قاعدة بيانات مماثلة. برنامج فاستا يتبع طريقة إرشادية على نطاق واسع التّي يساهم في السّرعة العالية لتنفيذها. إنه يلاحظ أوليّاً نمط ضربات الكلمة, نظائر كلمة إلى كلمة بطول معيّن, وتعيين النظائر المحتملة قبل إنجاز البحث المحسّن الأكثر مضيعة للوقت باستخدام خوارزمية نمط سميث واترمان. الحجم المأخوذ بعين الاعتبار, معطى من قبل ktup البارامتر, يتحكّم بحساسية وسرعة البرنامج. زيادة قيمة ktup ينقص عدد الضربات الخلفية الّتي يتمّ العثور عليها. من ضربات الكلمة الّتي تُرجع البرنامج يبحث عن القطاعات الّتي تحتوي على مجموعة من الضربات القريبة. ثمّ يتحقّق من هذه القطاعات لنظير محتمل.
هناك بعض الاختلافات بين fastn و fastp وفقاً لنوع التسلسلات المستخدمة لكن كلاهما يستخدمان أربع خطوات ويحسبان ثلاث درجات لوصف وصياغة نتائج التشابه التسلسلي.وهذه هي:
- تحديد المناطق ذات الكثافة الأعلى في كل مقارنة تسلسل. بأخذ ktup لمساواة 1 أو 2.
- في هذه الخطوة جميع أو مجموعة من المطابقات بين تسلسلين توجد باستخدام جدول المقابلة. قيمة ktup تحدّد كم عدد المطابقات المتعاقبة المطلوبة لنظير ليتمّ إعلانه. وبالتالي أقلّ قيمة ktup: البحث الأكثر حساسية.
Ktup=2 يؤخذ كثيراً من قبل المستعملين لسلاسل البروتين و Ktup=4 أو 6 لسلاسل النكليوتيدات. الأليغو نكليوتيدات القصيرة غالباً يتمّ تشغيلها مع Ktup=1. ثمّ يجد البرنامج جميع المناطق المحلية المماثلة, ممثّلاً كأقطار بطول محدّد في الرسم البياني, بين التسلسلين الاثنين من خلال عدّ مطابقات Ktup وإعاقة عدم المطابقات المعترضة. بهذه الطريقة, المناطق المحلية ذات الكثافة الأعلى المكافئة بقطر معزولة عن الضربات الخلفية. لسلاسل البروتين قيم قوالب مصفوفة بدائل الحمض الأميني تستخدم لتسجيل نظائر ktup. هذا يضمن أنّ مجموعات من المتطابقات بأعداد عالية من التشابه تساهم أكثر للنتيجة القطرية المحلّية من المتطابقات بأعداد منخفضة من التشابه. سلاسل النكليوتيد تستخدم مصفوفة المتطابقة للغاية نفسها. أفضل 10 مناطق محليّة مختارة من جميع الأقطار مجتمعة يتمّ حفظها بعد ذلك.
- إعادة تفحص المناطق المأخوذة باستخدام مصفوفات التسجيل. تشذيب نهايات المنطقة لتشمل فقط تلك التي تساهم بالنتيجة الأعلى.
إعادة تفحص المناطق العشرة المأخوذة. هذه المرة باستخدام مصفوفات التسجيل المرتبطة أثناء إعادة التسجيل للسماح بنقل متطابقات أقصر من قيمة ktup. أيضاً أثناء إعادة تسجيل الاستبدالات المقاومة التي تساهم في المحافظة على نقاط التشابه يتمّ اتخاذها. رغم أنّ سلاسل البروتين تستخدم مصفوفات قوالب مصفوفة بدائل الحمض الأميني، لتسجيل المصفوفات على أساس الحدّ الأدنى لعدد تغييرات القاعدة المطلوبة لاستبدال محدّد, على المتطابقات وحدها, أو على قياس بديل للتشابه مثل النقطة القابلة للتغير، يمكن استخدامها أيضاً مع البرنامج. لكل من هذه المناطق القطريّة المعاد تفحصها بهذه الطريقة, المنطقة الثانوية بالدرجة القصوى يتمّ تعيينها. المتطابقات الأوليّة التي وجدت في الخطوة الأولى يتمّ استخدامها لترتيب تسلسل المكتبة. الدرجة الأعلى يشار إليها بدرجة nit1.
- في التراصف إذا تمّ العثور على عدة مناطق أولية بأعداد أكبر من قيمة القطع, التحقّق ما إذا كان يمكن ضمّ المناطق الأولية المشذّبة لتشكيل تراصف تقريبي مع فجوات. حساب درجة التشابه الّتي هي مجموع المناطق المنضمّة تعاقب 20 نقطة لكلّ فجوة. درجة التشابه الأولية هذه (initn) تستخدم لتصنيف السلاسل المكتبية. درجة المنطقة المفردة الأولية الأفضل وجدت في الخطوة 2تمّ ذكرها (init1).
هنا البرنامج يحسب التراصف المثالي للمناطق الأولية كمجموعة من المناطق المتوافقة بالدرجة القصوى. هذا التراصف المثالي للمناطق الأولية يمكن حسابه بسرعة باستخدام خوارزمية البرمجة الديناميكية. الدرجة الناتجة initn تستخدم لتصنيف السلاسل المكتبية. عملية الانضمام هذه تزيد الحساسيّة ولكن تنقص الانتقائيّة. قيمة الفرق المحسوبة بعناية هي بالتالي تستخدم للتحكم بمكان تنفيذ هذه الخطوة, القيمة الّتي تكون تقريباً ذات انحراف معياري واحد فوق معدّل الدرجة المتوقّع من سلاسل غير مرتبطة في المكتبة. تسلسل استفسار 200-بقايا مع ktup2 يستخدم قيمة 28.
- استخدام خوارزمية سميث واترمان الموحّدة لحساب الدرجة المثالية للتراصف.
هذه الخطوة تستخدم خوارزمية سميث واترمان الموحّدة لإحداث الدرجة المحسّنة (opt) لكل تراصف من تسلسل الاستفسار إلى تسلسل قاعدة البيانات (المكتبي). إنّه يأخذ مجموعة من 32 بقايا تركّزت على منطقة init1 من الخطوة 2 لحساب التراصف المثالي. بعد أن يتمّ فحص جميع السلاسل يقوم البرنامج بتعيين موقع الدرجات الأوليّة لكل تسلسل قاعدة بيانات في الرسم البياني، ويحسب الأهمية الإحصائيّة لدرجة "opt". لسلاسل البروتين, التراصف النهائي ينتج باستخدام تراصف سميث واترمان كامل. لسلاسل الحمض النووي DNA، يتمّ تجهيز تراصف موحّد.
انظر أيضاً
المراجع
- Lipman, DJ; Pearson, WR (1985). "Rapid and sensitive protein similarity searches". Science. 227 (4693): 1435–41. doi:10.1126/science.2983426. PMID 2983426.
- {{cite journal |pmid=3162770 |year=1988 |title=Improved tools for biological sequence comparison |volume=85 |issue=8 |pages=2444–8 |pmc=280013 |journal=Proceedings of the National Academy of Sciences of the United States of America |doi=10.1073/pnas.85.8.2444 |last1=Pearson |first1=WR |last2=Lipman |first2=DJ}}