تجميع التسلسلات

في المعلوماتية الحيوية، تحاول خوارزميات تجميع التسلسل تجميع المتواليات البيولوجية المرتبطة بطريقة أو بأخرى. يمكن أن تكون التسلسلات إما من أصل جيني أو "نسخي" (ESTs) أو أصل البروتين. بالنسبة للبروتينات، يتم تجميع التسلسلات المتماثلة عادة في الأسر. بالنسبة لبيانات EST، يكون التجميع مهمًا لتسلسل المجموعات التي تنشأ من نفس الجين قبل تجميع ESTs لإعادة بناء الرنا المرسال الأصلي.

تستخدم بعض خوارزميات التجميع المجموعات ذات الارتباط الواحد، مما يؤدي إلى إغلاق تتابعي للتسلسلات مع تشابه على عتبة معينة. تستخدم UCLUST [1] و CD-HIT [2] خوارزمية جشعة تحدد تسلسلًا تمثيليًا لكل مجموعة وتعيين تسلسلًا جديدًا لتلك المجموعة إذا كان مشابهًا بما فيه الكفاية للممثل ؛ إذا لم تتم مطابقة تسلسل، يصبح التسلسل التمثيلي لمجموعة جديدة. تعتمد درجة التشابه غالبًا على محاذاة التسلسل. غالبًا ما يتم استخدام التجميع التسلسلي لإنشاء مجموعة غير متكررة من التتابعات التمثيلية.

غالبًا ما تكون مجموعات التسلسل مرادفًا لعائلات البروتين (ولكنها ليست متطابقة لها). والهدف من تحديد العديد من مبادرات الجينوميات الهيكلية هو تحديد بنية تمثيلية ثلاثية المستوى لكل مجموعة متتالية.

موسوعات ذات صلة :

موسوعة المعلوماتية الحيوية