تحليل التمييز الخطي هو تعميم لتحليل التمييز لفيشر وهو طريقة تستخدم في الإحصاء والتعرف على الأنماط وتعلم الآلة لإيجاد تركيبة خطية من الصفات التي تصنف أو تفصل صنفان أو أكثر من الأشياء أو الأحداث. التركيبة الناتجة يمكن أن تستخدم كمصنف خطي أو لتخفيض الأبعاد قبل عملية التصنيف اللاحقة (وهو الأمر الأكثر استخداما).
تحليل التمييز الخطي له ارتباط وثيق بتحليل التباين وتحليل الانحدار، حيث أنهم يحاولون التعبير عن متغير تابع معين كتركيبة خطية من مجموعة من الصفات أو القياسات الأخري.[1][2] ومع ذلك فإن تحليل التباين يستخدم متغيرات مستقلة فئوية ومتغير تابع متصل بينما تحليل التمييز لديه متغيرات مستقلة متصلة ومتغير تابع فئوي (على سبيل المثال أسم الصنف).[3] الانحدار اللوجستي والانحدار ذات وحدة احتمال هم أكثر شبها بتحليل التمييز الخطي مقارنة بتحليل التباين، حيث أنهم أيضا يشرحون متغير فئوي عن طريق قيم متغيرات مستقلة مستمرة. تلك الطرق الأخرى هي المفضلة في التطبيقات التي يكون من غير المقبول فيها افتراض أن المتغيرات المستقلة تتبع توزيع طبيعي وهو افتراض أساسي لطريقة تحليل التمييز الخطي.
تحليل التمييز الخطي أيضا له ارتباط وثيق بتحليل العنصر الرئيسي وتحليل العامل حيث أنهم يبحثون عن التراكيب الخطية من المتغيرات التي توضح البيانات بشكل أفضل.[4] تحليل التمييز الخطي تحاول صراحة صياغة الاختلاف بين أصناف البيانات. من ناحية أخرى فإن تحليل العنصر الرئيسي لا تأخذ في أعتبارها أي اختلاف في الأصناف وتحليل العامل تبني تركيبة الصفات بناء على الاختلافات وليس التشابهات. تحليل التمييز يختلف أيضا عن تحليل العامل في أنه ليس طريقة ترابط، حيث أنه يجب الفصل بين المتغيرات المستقلة والمتغيرات التابعة.
يعمل تحليل التمييز الخطي بنجاح عندما تكون قياسات المتغيرات المستقلة لكل مشاهدة متصلة الكميات. عند التعامل مع متغيرات مستقلة فئوية فإن الأسلوب المكافئ هو تحليل التوافق المميز.[5][6]
تحليل التمييز الخطي لصنفين
إذا اعتبرنا مجموعة المشاهدات (تسمى أيضا الصفات أو الميزات أو المتغيرات أو القياسات) لكل عينة من كائن أو حدث ما لصنف معين يسمى y (تسمى مجموعة العينات مجموعة التدريب)، فإن عملية التصنيف تتمحور حول إيجاد متنبئ جيد للصنف y من أي عينة من نفس التوزيع (ليس بالضرورة أن تكون من مجموعة التدريب) اعتمادا على مجموعة المشاهدات فقط.[7]
يعتمد منهج تحليل التمييز الخطي لمواجهة هذه المشكلة على افتراض أن دالتا كثافة الاحتمال الشرطية و موزعتان توزيعا طبيعيا بمتوسط حسابي ومعامل تغاير و على التوالي. بموجب هذا الافتراض فإن الحل البايزي الأمثل يتمثل في التنبؤ بنقاط كأنها من الصنف الثاني إذا كان لوغاريتم نسب الترجيح دون حد فاصل معين يسمى T، حيث:
بدون أي افتراضات أخرى فإن المصنف الناتج يشار إليه على أنه تحليل تمييز تربيعي.
بدلا من ذلك فإن تحليل التمييز الخطي يفترض للتبسيط تساوي التباين (على سبيل المثال أن معاملات التغاير للصنفان متطابقة، لذلك فإن ) وأن معاملات التغاير لديها درجة كاملة. في هذه الحالة فإنه يمكن حذف العديد من المقادير الجبرية من المعادلة:
- لأن مصفوفة هيرميتية
ومعيار القرار السابق يصبح هو الحد الفاصل للضرب القياسي
لحد فاصل ثابت يسمى c، حيث
هذا يعني أن معيار أن يكون المدخل في الصنف y هو ببساطة دالة من تلك التركيبة الخطية للمشاهدات المعروفة .
من المفيد عادة رؤية الاستنتاج في صيغة هندسية: معيار أن يكون في الصنف y هو فقط دالة لإسقاط النقطة في الفضاء متعدد الأبعاد على المتجه (وبالتالي فإننا نهتم بهذا الاتجاه فقط). بعبارة أخرى تكون المشاهدات تابعة لـ y إذا كان المقابل يقع في جانب معين من مستوى فوقي متعامد على . موقع المستوى يعرف بالحد الفاصل c.
تحليل التمييز القانوني لعدد ك أصناف
يبحث تحليل التمييز القانوني عن المحاور (ك - 1 إحداثيات قانونية، ك هو عدد الأصناف) التي تفصل الأنواع بشكل أفضل. تلك الدوال الخطية غير مرتبطة وتعرف الفضاء الأمثل ك − 1 من خلال الأبعاد ن من البيانات التي تفصل المجموعات ك بشكل أفضل. أنظر في الأسفل “تحليل التمييز الخطي متعدد الأصناف” لمزيد من التفاصيل.
التمييز الخطي لفيشر
المصطلحات التمييز الخطي لفيشر و تحليل التمييز الخطي غالبا ما تستخدم بشكل متبادل، على الرغم من أن المقال الأصلي لفيشر [1] في الحقيقة يصف نوع من التمييز مختلف قليلا، حيث أنه لم يفترض بعضا من افتراضات تحليل التمييز الخطي مثل التوزيع الطبيعي للأصناف أو تساوي تغايرها.
بافتراض أن صنفان من المشاهدات لديهما المتوسطان ومعاملا التغاير . فإن التركيبة الخطية للصفات سيكون لديها المتوسطات ومعاملات التباين حيث . عرف فيشر الفصل بين هذين التوزيعين بمعدل التباين بين الأصناف إلى التباين داخل الأصناف:
وهذا المقياس يعتبر مقياس لنسبة الإشارة للضجيج لعملية عنونة الصنف. ويمكن إظهار أن أقصى درجة فصل ممكنة تحدث عند
عندما توفى افتراضات تحليل التمييز الخطي فإن المعادلة السابقة تتساوى مع تحليل التمييز الخطي.
تأكد من ملاحظة أن المتجه هو ناظم سطح المستوى الفائق المميز. على سبيل المثال، في مشكلة ثنائية الأبعاد فإن الخط الأفضل لفصل المجموعتان يكون عمودي على .
عموما، يتم أسقاط نقاط البيانات المراد تمييزها أو فصلها على المتجه ثم يتم اختيار أفضل حد فاصل للبيانات من تحليل التوزيع على هذا المتجه فقط. لا توجد قاعدة عامة لتعيين الحد الفاصل. ومع ذلك، إذا كان أسقاط النقاط من كلا الصنفان يظهران نفس التوزيع تقريبا، فمن الخيارات الجيدة أن يكون الحد الفاصل بين أسقاطات المتوسطان و . وفي هذه الحالة فإن المعامل c في شرط الحد الفاصل يمكن إيجاده مباشرة باستخدام:
- .
طريقة أوتسو هي طريقة قريبة من التمييز الخطي لفيشر، وقد تم عملها لتحويل بكسلات المدرج التكراري لصورة ذات تدرج رمادي إلى الأبيض والأسود وذلك من خلال اختيار حد فاصل أمثل للأبيض والأسود، هذا الحد يقلل التباين داخل الصنف ويعظم التباين بين الأصناف، وذلك داخل/بين التدرجات الرمادية المخصصة لأصناف البكسلات السوداء والبيضاء.
تحليل التمييز الخطي متعدد الأصناف
في حالة وجود أكثر من صنفين، فإن الطريقة المستخدمة لحساب تحليل التمييز لفيشر يمكن مدها لإيجاد الفضاء الجزئي الذي يمكن أن يحتوي على كل تغيرات الأصناف. يعود الفضل في هذا التعميم إلى ك. ر. راو.[8] فبافتراض أن هناك عدد C أصناف، وكل صنف له الوسط الحسابي ونفس معامل التغاير . فإن معامل التبعثر بين التغيرات في الأصناف يمكن الحصول عليه بواسطة معامل تغاير العينة لمتوسطات الأصناف
حيث هو الوسط الحسابي لمتوسطات الأصناف. وفي هذه الحالة يمكن الحصول على معامل الفصل على المتجه من خلال
وهذا يعني أنه عندما يكون المتجه متجه ذاتي من فإن معامل الفصل سيكون مساوي للقيم الذاتية المناظرة له.
إذا كانت قابلة للتقطير فإن مستوى التشتت بين الصفات سيتضمن في فضاء جزئي يمتد عن طريق المتجهات الذاتية المناظرة لأكبر قيمة ذاتية لـ C−1 (حيث هو من درجة C−1 على الأكثر). تلك المتجهات الذاتية تستخدم بشكل رئيسي لتقليل الصفات، كما في طريقة تحليل العنصر الرئيسي. المتجهات الذاتية المناظرة للقيم الذاتية الأصغر سوف تميل لأن تكون أكثر حساسية للاختيار الدقيق لبيانات التدريب، وفي الغالب من الضروري استخدام تسوية كما سيتم وصف ذلك في القسم التالي.
إذا كان المطلوب هو التصنيف بدلا من خفض الأبعاد، فهناك العديد من الطرق البديلة المتاحة. على سبيل المثال، يمكن تقسيم الأصناف، واستخدام تمييز فيشر القياسي أو تحليل التمييز الخطي لتصنيف كل جزء. من الأمثلة المشهورة على ذلك هو "واحد ضد الباقي" حيث يتم وضع نقاط صنف معين في مجموعة واحدة، وكل النقاط الأخرى في مجموعة ثانية، ثم يتم تطبيق تحليل التمييز الخطي. سوف ينتج عن ذلك عدد C مصنفات، والتي يتم دمج نتائجها معا. طريقة مشهورة أخرى هي التصنيف الزوجي، حيث يتم عمل مصنف كل زوج من الأصناف (ينتج C(C − 1)/2 مصنفا)، مع دمج المصنفات الفردية لإنتاج المصنف النهائي.
تحليل التمييز الخطي التزايدي
التنفيذ المعتاد لتحليل التمييز الخطي يتطلب أن تكون كل العينات متاحة مسبقاً. ومع ذلك هناك حالات لا تكون البيانات بأكملها متاحة فيها ويتم قراءة البيانات المدخلة بشكل متدفق. في هذه الحالة من المفضل لعملية استخراج الصفات بواسطة تحليل التمييز الخطي أن تكون قادرة على تحديث الصفات المحسوبة عند قراءة بيانات كل عينة جديدة بدون إعادة تنفيذ الخوارزمية على كل البيانات. على سبيل المثال في كثير من تطبيقات الوقت الحقيقي مثل الروبوتات النقالة أو التعرف على الوجوه الفوري يكون من المهم تحديث الصفات المستخرجة بمجرد الحصول على قراءات جديدة. طريقة استخراج الصفات اعتمادا على تحليل التمييز الخطي التي يمكنها تحديث الصفات بمجرد قراءة بيانات عينات جديدة تسمى خوارزمية تحليل تمييز خطي تزايدي، وهذه الفكرة قد تم دراستها على نطاق واسع خلال العقدين الماضيين.[9] قدم كَتِرجي ورويتشودهاري خوارزمية تحليل تمييز خطي تزايدي ذاتية التنظيم لتحديث الصفات.[10] وفي عمل أخر قدم دِمير وأوزمِهمِت خوارزميات تعلم محلية فورية لتحديث الصفات تزايدياً باستخدام تصحيح الخطأ وقواعد تعلم هِبيان.[11] لاحقا اشتق ألياري وآخرون خوارزميات تزايدية سريعة لتحديث الصفات عند قراءة بيانات عينات جديدة.[9]
استخدام عملي
عملياً متوسطات ومعاملات التغاير الصنف غير معروفة. ومع ذلك يمكن تقديرهم من مجموعة التدريب. يمكن استخدام أياً من تقدير الاحتمال الأقصى أو التقدير البعدي الأقصى بدلا من القيمة الفعلية في المعادلات السابقة. على الرغم من أن تقدير معامل التغاير يمكن اعتباره أمثل بشكلاً ما، لكن ذلك لا يعني أن التمييز الناتج من استبدال هذه القيم سيكون أمثل بأي شكل من الأشكال، حتى مع صحة الافتراض بأن الأصناف موزعة طبيعياً.
يحدث تعقيد أخر في تطبيق تحليل التمييز الخطي وتمييز فيشر على البيانات الحقيقية عندما يتجاوز عدد القياسات لكل عينة عدد العينات لكل صنف.[4] في هذه الحالة فإن تقديرات معامل التغاير ليس لديها درجة كاملة، ولذلك لا يمكن عكسها. هناك العديد من الطرق للتعامل من هذه المشكلة. أحدها هو استخدام معكوس وهمي بدلا من معكوس المصفوفة المعتاد في المعادلة السابقة. ومع ذلك يمكن تحقيق توازن رقمي أفضل بإسقاط المشكلة أولا على فضاء جزئي بامتداد .[12] استراتيجية أخرى للتعامل مع صغر حجم العينة هي استخدام مقدر انكماش لمصفوفة معامل التغاير والتي يمكن التعبير عنها رياضيا بهذه الصيغة:
حيث هو مصفوفة الوحدة و هو معامل كثافة الانكماش أو معامل التسوية. وهذا يقود إلى إطار تحليل التمييز المقنن أو تحليل التمييز الانكماشي.[13]
أيضا في كثير من الحالات العملية لا يكون التمييز الخطي مناسب. تحليل التمييز الخطي وتمييز فيشر يمكن تطويره للاستخدام في عملية التصنيف الغير خطي عن طريق خدعة النواة. وفيها يتم تحويل القراءات الأصلية بشكل فعال إلى فضاء غير خطي ذات بعد أعلى. التصنيف الخطي في هذا الفضاء الغير خطي يكون مساوي للتصنيف الغير خطي في الفضاء الأصلي. أكثر مثال مستخدم لهذا هو تمييز فيشر ذات النواة.
تحليل التمييز الخطي يمكن تعميمها لعمل تحليل تمييز متعدد (أكثر من صنفين)، حيث يصبح c متغير فئوي له N حالات ممكنة، بدلا من أثنين. بالقياس على ذلك إذا كانت كثافات شرط الصنف طبيعية بمعدلات تغاير مشتركة فإن الإحصائية الكافية لـ تكون قيم N إسقاطات (والتي تكون الفضاء الجزئي الممتد بـ N متوسطات) محولة تآلفيا بمعكوس مصفوفة معامل التغاير. هذه الإسقاطات يمكن إيجادها بحل مشكلة القيم الذاتية المعممة، حيث يكون البسط مصفوفة معامل التغاير والمكونة عن طريق معاملة المتوسطات كعينات، ويكون المقام مصفوفة معامل التغاير المشترك. أنظر "تحليل التمييز الخطي متعدد الأصناف" في الأعلى لمزيد من التفاصيل.
التطبيقات
بالإضافة إلى الأمثلة التالية فإن تحليل التمييز الخطي يستخدم في التموضع وإدارة المنتج.
التنبأ بالأفلاس
كان تحليل التمييز الخطي أول طريقة إحصائية تم تطبيقها في التنبأ بالأفلاس (بالأعتماد على النسب المحاسبية والمتغيرات المالية الآخرى) لتقديم تفسير منهجي لدخول الشركات في الإفلاس مقابل النجاة منه. بالرغم من الصعوبات المتمثلة في عدم التوافق المعروف بين النسب المحاسبية وافتراضية التوزيع الطبيعي لتحليل التمييز الخطي فإن نموذج عام 1968 لإدوارد ألتمان ما زال من النماذج المفضلة في التطبيقات العملية.
التعرف على الوجوه
يتم تمثيل كل وجه عند التعرف على الوجوه الحاسوبي بعدد كبير من البكسلات. يستخدم هنا تحليل التمييز الخطي بشكل رئيسي لتقليل عدد الصفات ليصبح التحكم بها أسهل قبل عملية التصنيف. كل بعد جديد هو تركيبة خطية من البكسلات، والتي تمثل قالب. التركيبات الخطية التي تم الحصول عليها باستخدام التمييز الخطي لفيشر تسمى وجوه فيشر، بينما تلك التي تم الحصول عليها باستخدام تحليل العنصر الرئيسي تسمى الوجوه الذاتية.
التسويق
في التسويق، كان تحليل التمييز يستخدم فيما سبق لتحديد العوامل التي تميز الأنواع المختلفة من العملاء والمنتجات على أساس الأستبيانات أو طرق جمع المعلومات الأخرى. يستخدم حاليا الانحدار اللوجستي وطرق أخرى
بشكل أكثر شيوعا.
الدراسات الطبية الحيوية
التطبيق الرئيسي لتحليل التمييز في الطب هو تخمين الحالة الحرجة للمريض والإنذار بنتيجة المرض. على سبيل المثال، أثناء التحليل الاستعادي للأحداث تم تقسيم المرضى إلى مجموعات بناء على خطورة المرض (بسيط ومتوسط وخطير). ثم تم دراسة نتائج التحاليل المعملية والسريرية بغرض اكتشاف المتغيرات المختلفة إحصائيا في المجموعات قيد الدراسة. وباستخدام تلك المتغيرات تم بناء دوال التمييز والتي تساعد في تصنيف الأمراض بشكل فعال للمرضى المستقبليين إلى بسيط ومتوسط وخطير.
تستخدم مفاهيم مشابهة في علم الأحياء بهدف تصنيف وتعريف المجموعات المختلفة للكائنات الحية. على سبيل المثال لتعريف التنميط العاثوي للسلمونيلا الملهبة للأمعاء بالأعتماد على تحويل فورييه لطيف الأشعة تحت الحمراء،[14] أو لاكتشاف المصدر الحيواني للإشريكية القولونية بدراسة عوامل ضراوتها،[15] إلخ.
علم الأرض
يمكن استخدام تحليل التمييز لفصل مناطق التغير. على سبيل المثال، عند اتاحة البيانات المختلفة لمناطق متباينة فإن التحليل التمييز يمكنه اكتشاف الأنماط داخل البيانات وتصنيفها بفاعلية.[16]
انظر أيضاً
- التنقيب في البيانات
- التعلم بواسطة شجرة القرار
- تمييز الأنماط
- بيرسيبترون
المراجع
- Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
- McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience. . MR = 1190469 1190469.
- Analyzing Quantitative Data: An Introduction for Social Researchers, Debra Wetcher-Hendricks, p.288
- Martinez, A. M.; Kak, A. C. (2001). "PCA versus LDA" ( كتاب إلكتروني PDF ). IEEE Transactions on Pattern Analysis and Machine Intelligence. 23 (=2): 228–233. doi:10.1109/34.908974. مؤرشف من الأصل ( كتاب إلكتروني PDF ) في 11 أكتوبر 2008.
- Abdi, H. (2007) "Discriminant correspondence analysis." - تصفح: نسخة محفوظة 21 سبتمبر 2017 على موقع واي باك مشين.
- Perriere, G.; & Thioulouse, J. (2003).
- Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (الطبعة 4th). Springer Verlag. .
- Rao, R. C. (1948). "The utilization of multiple measurements in problems of biological classification". Journal of the Royal Statistical Society, Series B. 10 (2): 159–203. مؤرشف من الأصل في 03 يونيو 2019.
- Aliyari Ghassabeh, Youness; Rudzicz, Frank; Moghaddam, Hamid Abrishami (2015-06-01). "Fast incremental LDA feature extraction". Pattern Recognition. 48 (6): 1999–2012. doi:10.1016/j.patcog.2014.12.012. مؤرشف من الأصل في 14 ديسمبر 2019.
- Chatterjee, C.; Roychowdhury, V.P. (1997-05-01). "On self-organizing algorithms and networks for class-separability features". IEEE Transactions on Neural Networks. 8 (3): 663–678. doi:10.1109/72.572105. ISSN 1045-9227. مؤرشف من http%3A%2F%2Fieeexplore.ieee.org%2Fiel4%2F72%2F12383%2F00572105 الأصل في 10 أغسطس 2014.
- Demir, G. K.; Ozmehmet, K. (2005-03-01). "Online Local Learning Algorithms for Linear Discriminant Analysis". Pattern Recogn. Lett. 26 (4): 421–431. doi:10.1016/j.patrec.2004.08.005. ISSN 0167-8655. مؤرشف من الأصل في 14 ديسمبر 2019.
- Yu, H.; Yang, J. (2001).
- Ahdesmäki, M.; Strimmer K. (2010) "Feature selection in omics prediction problems using cat scores and false nondiscovery rate control", Annals of Applied Statistics, 4 (1), 503–519. نسخة محفوظة 16 يوليو 2017 على موقع واي باك مشين.
- Preisner O, Guiomar R, Machado J, Menezes JC, Lopes JA. Application of Fourier transform infrared spectroscopy and chemometrics for differentiation of Salmonella enterica serovar Enteritidis phage types. Appl Environ Microbiol. 2010;76(11):3538–3544.
- David DE, Lynne AM, Han J, Foley SL. Evaluation of virulence factor profiling in the characterization of veterinary Escherichia coli isolates. Appl Environ Microbiol. 2010;76(22):7509–7513.
- Tahmasebi, P., Hezarkhani, A., & Mortazavi, M. (2010). Application of discriminant analysis for alteration separation; sungun copper deposit, East Azerbaijan, Iran. Australian Journal of Basic and Applied Sciences, 6(4), 564–576. نسخة محفوظة 08 أغسطس 2017 على موقع واي باك مشين.
مصادر إضافية
- Duda, R. O.; Hart, P. E.; Stork, D. H. (2000). Pattern Classification (الطبعة 2nd). Wiley Interscience. . MR = 1802993 1802993.
- Hilbe, J. M. (2009). Logistic Regression Models. Chapman & Hall/CRC Press. .
- Mika, S.; et al. (1999). "Fisher Discriminant Analysis with Kernels". IEEE Conference on Neural Networks for Signal Processing IX: 41–48. doi:10.1109/NNSP.1999.788121. مؤرشف من الأصل في 02 يونيو 2019.
- Mark Burdon and Paul Harpur, ‘Re-Conceptualising Privacy and Discrimination in an Age of Talent Analytics’ (2014) 37 University of New South Wales Law Journal, 2, 679–712.1
- Miranda Terry and Paul Harpur, ‘The New Era of Segmenting Society on Ability Lines: Workplace Analytics and Disability Discrimination’ (Society for Disability Studies, Atlanta USA, 10–13 June 2015).
- H. Richard McFarland and Donald St. P. Richards, “Exact Misclassification Probabilities for Plug-In Normal Quadratic Discriminant Functions. I. The Equal-Means Case” Journal of Multivariate Analysis, 2001, vol. 77, issue 1, pages 21–53 link to article
- H. Richard McFarland and Donald St. P. Richards, “Exact Misclassification Probabilities for Plug-In Normal Quadratic Discriminant Functions. II. The Heterogeneous Case” Journal of Multivariate Analysis, 2002, vol. 82, issue 2, pages 299-330 link to article
وصلات خارجية
- ALGLIB يحتوي على تنفيذ لتحليل التمييز الخطي مفتوح المصدر باللغات سي# / سي++ / بسكال / فيجول بيسك للتطبيقات.
- Psychometrica.de هو تنفيذ مفتوح المصدر لتحليل التمييز الخطي بالجافا.
- شرح تحليل التمييز الخطي باستخدام ميكروسوفت إكسل.
- الإحصاءات الطبية الحيوية. تحليل التمييز.