إن تنسيق السمات العامة (شكل اكتشاف الجينات ، نسق المعالم العامة ، GFF) هو تنسيق ملف يستخدم لوصف الجينات والميزات الأخرى لتسلسلات الدنا والرنا والبروتين. ملحق اسم الملف المقترن بمثل هذه الملفات هو .GFF ونوع المحتوى المرتبط بهما هو text / x-gff3
هناك إصداران لتنسيق ملف GFF في الاستخدام العام:
- تنسيق عام Feature Format الإصدار 2.2 بشكل خاص في متغير GTF الخاص به
- الإصدار العام لتنسيق الميزات الإصدار 3 (مشروع تواجد الوجود المتسلسل)
اصدارات GFF :
ان GFF الإصدار 2 (إلى جانب متغير GTF الأكثر شيوعًا) عددًا من القصور ، ولا سيما أنه لا يمكن إلا أن تمثل التسلسلات الهرمية ميزة من مستويين و وبالتالي لا يمكن التعامل مع التسلسل الهرمي من ثلاثة مستويات من الجين → نسخة → exon. يعالج GFF3 هذا وأوجه القصور الأخرى. على سبيل المثال ، يدعم العديد من المستويات الهرمية تعسفيًا ، ويعطي معان محددة لعلامات معينة في حقل السمات.
الهيكل العام GFF
جميع تنسيقات GFF (GFF2 و GFF3 و GTF) هي ملفات مجدولة مع 9 حقول في كل سطر ، مفصولة بعلامات تبويب. جميعهم يشاركون نفس البنية للحقول السبعة الأولى ، بينما يختلفون في محتوى وشكل الحقل التاسع.
إصدارات GFF
الحقل الثامن: طور مميزات CDS ببساطة ، CDS تعني "تسلسل CoDing". يتم تعريف المعنى الدقيق للمصطلح بعلم تسلسل (SO). وفقا لمواصفات GFF3
بالنسبة لميزات "CDS" ، تشير الطور إلى المكان الذي تبدأ فيه الميزة بالإشارة إلى إطار القراءة. المرحلة هي واحدة من الأعداد الصحيحة 0 ، 1 ، أو 2 ، تشير إلى عدد القواعد التي يجب إزالتها من بداية هذه الميزة للوصول إلى القاعدة الأولى من الكودون التالي.
في ملفات GFF ، يمكن تضمين معلومات وصفية إضافية وتتبع بعد ## التوجيه. يمكن لهذه المعلومات الوصفية تفصيل إصدار GFF ، أو منطقة التسلسل ، أو الأنواع (يمكن العثور على قائمة كاملة لأنواع البيانات الوصفية في مواصفات علم التسلسل التتابعي).
- لتحقق من صحة يستضيف مشروع modENCODE أداة تحقق GFF3 عبر الإنترنت ذات حدود سخية تبلغ 286.10 ميجابايت و 15 مليون سطر. تحتوي مجموعة برامج Genome Tools على أداة gff3validator يمكن استخدامها دون اتصال للتحقق من صحة ملفات GFF3 ومراتبها. خدمة التحقق عبر الإنترنت متوفرة أيضًا.