الرئيسيةعريقبحث

تنسيق السمات العامة


☰ جدول المحتويات


إن تنسيق السمات العامة (شكل اكتشاف الجينات ، نسق المعالم العامة ، GFF) هو تنسيق ملف يستخدم لوصف الجينات والميزات الأخرى لتسلسلات الدنا والرنا والبروتين. ملحق اسم الملف المقترن بمثل هذه الملفات هو .GFF ونوع المحتوى المرتبط بهما هو text / x-gff3

هناك إصداران لتنسيق ملف GFF في الاستخدام العام:

  • تنسيق عام Feature Format الإصدار 2.2 بشكل خاص في متغير GTF الخاص به
  • الإصدار العام لتنسيق الميزات الإصدار 3 (مشروع تواجد الوجود المتسلسل)

اصدارات GFF :

ان GFF الإصدار 2 (إلى جانب متغير GTF الأكثر شيوعًا) عددًا من القصور ، ولا سيما أنه لا يمكن إلا أن تمثل التسلسلات الهرمية ميزة من مستويين و وبالتالي لا يمكن التعامل مع التسلسل الهرمي من ثلاثة مستويات من الجين → نسخة → exon. يعالج GFF3 هذا وأوجه القصور الأخرى. على سبيل المثال ، يدعم العديد من المستويات الهرمية تعسفيًا ، ويعطي معان محددة لعلامات معينة في حقل السمات.

الهيكل العام GFF

جميع تنسيقات GFF (GFF2 و GFF3 و GTF) هي ملفات مجدولة مع 9 حقول في كل سطر ، مفصولة بعلامات تبويب. جميعهم يشاركون نفس البنية للحقول السبعة الأولى ، بينما يختلفون في محتوى وشكل الحقل التاسع. 


إصدارات GFF


الحقل الثامن: طور مميزات CDS ببساطة ، CDS تعني "تسلسل CoDing". يتم تعريف المعنى الدقيق للمصطلح بعلم تسلسل (SO). وفقا لمواصفات GFF3

 بالنسبة لميزات "CDS" ، تشير الطور إلى المكان الذي تبدأ فيه الميزة بالإشارة إلى إطار القراءة. المرحلة هي واحدة من الأعداد الصحيحة 0 ، 1 ، أو 2 ، تشير إلى عدد القواعد التي يجب إزالتها من بداية هذه الميزة للوصول إلى القاعدة الأولى من الكودون التالي.

في ملفات GFF ، يمكن تضمين معلومات وصفية إضافية وتتبع بعد ## التوجيه. يمكن لهذه المعلومات الوصفية تفصيل إصدار GFF ، أو منطقة التسلسل ، أو الأنواع (يمكن العثور على قائمة كاملة لأنواع البيانات الوصفية في مواصفات علم التسلسل التتابعي).

  • لتحقق من صحة يستضيف مشروع modENCODE أداة تحقق GFF3 عبر الإنترنت ذات حدود سخية تبلغ 286.10 ميجابايت و 15 مليون سطر. تحتوي مجموعة برامج Genome Tools على أداة gff3validator يمكن استخدامها دون اتصال للتحقق من صحة ملفات GFF3 ومراتبها. خدمة التحقق عبر الإنترنت متوفرة أيضًا.

References


موسوعات ذات صلة :