الرئيسيةعريقبحث

تعلم مراقب


☰ جدول المحتويات


التعلم بالإشراف أو التعلم الاستقرائي هو منهج في تعلم الآلة يقوم باستنتاج  تابع من مجموعة بيانات تدريبية موسومة labeled training data[1].  تتكون  بيانات التدريب من مجموعة من الأمثلة الواقعية (مثل بيانات مريض في المستشفى، قيمة الأسهم في البورصة إلخ). في التعلم تحت إشراف كل عينة تمثل شيء على أرض الواقع و تتكون زوج بيانات دخل و خرج تكون مدخلات (عادة متجه) و المطلوب التنبوء بقيمة الخرج (يسمى أيضا العلامة الإشرافية).خوارزمية التعلم بالاشراف تحلل بيانات التدريب و و ينتج تابع الاستدلال الذي يستخدم في تعيين الأمثلة الجديدة . السيناريو الأمثل تسمح خوارزمية لتحديد فئات العينات الغير مرئية (الجديدة تماما و التي لم تستخدم في مرحلة التدريب) بشكل صحيح. وهذا يتطلب تعميم خوارزمية التعلم باستخدام بيانات التدريب على العينات الجديدة حالات بطريقة "مقبولة" (انظر الاستقرائي التحيز).

الوظيفة الموازية في علم نفس الإنسان و الحيوان غالبا ما يشار إليها  بمفهوم التعلم.

نظرة عامة

لحل مشكلة معينة من التعلم تحت الاإشراف يجب إتباع الخطوات التالية:

  1. تحديد نوع أمثلة التدريب . قبل القيام بأي شيء آخر، يجب على المستخدم أن يقرر ما هو نوع من البيانات المستخدمة في مجموعة التدريب. في حالة تحليل خط اليد، على سبيل المثال، قد تكون حرف واحد مكتوب بخط اليد أو كلمة كاملة مكتوبة يدويا.
  2. جمع مجموعة التدريب. مجموعة التدريب يجب أن تكون ممثلة في العالم الحقيقي باستخدام تابع. وهكذا مجموعة من المدخلات الكائنات التي تم جمعها والتي تتناظر مع مخرجات (فئات، أو وسوم )  التي أيضا  يتم جمعها سواء بالاستعانة بالخبراء أو عن طريق القياسات المخبرية.
  3. تحديد طريقة تمثيل خصائص (قسمات) المدخلات لتابع التعلم. دقة التابع المُعلّم يعتمد بشدة على كيفية تمثيل الكائن المدخل. عادة يتم تحويل الكائن المدخل تتحول إلى متجه (متجه رياضي) من الخصائص، و هي عبارة عن مقادير عددية أو سلاسل حرفية محددة توصف الكائن المدخل,  عدد الخصائص يجب أن لا يكون كبير جدا، و هذا ما يصطلح بتسميته  لعنة الأبعاد، و لكن يجب أن تحتوي على ما يكفي من المعلومات للتنبؤ بدقة بقيم الخرج.
  4. تحديد نوع و بنية خوارزمية التعلم. على سبيل المثال، قد يقوم المهندس باختيار طرق التعلم باستخدام شعاع الدعم الآلي أو أشجار القرار.
  5. إكمال التصميم. تشغيل خوارزمية التعلم على مجموعة التدريب. بعض خوارزميات التعلم تحت إشراف تتطلب من المستخدم تحديد بعض معاملات ( بارامترات ) التحکم. هذه المعامالات يمكن تعديلها عن طريق تشغیل خورزمیات تحسین الأداء على مجموعة فرعية (تسمى مجموعه التحقق من الصحة) من مجموعة التدريب، أو عبر عبر التحقق من صحة.
  6. تقييم دقة تابع التعلم. بعد التعديل و التعليم للمعاملات (البارامترات)،  قبل البدء بعملية التدريب يتم فصل مجموعة التدريب إلى مجموعتين الأولى تسمى مجموعة التعليم و الأخرى مجموعة الفحص يتم اختبار أداء تابع التعلم باستخدام مجموعة الفحص. هناك طرق كثير لفصل مجموعة الفحص عن مجموعة التعليم، أهمها التصديق المتقطع، التصديق بالفصل، التصديق ترك واحد خارجا.

 مجموعة واسعة من خوارزميات التعلم تحت إشراف متوفرة، مع كل نقاط القوة والضعف فيها. لا يوجد خوارزمية تعلم واحدة تعمل بشكل أفضل من الخوارزميات الأخرى على جميع مسائل التعلم بالأشراف انظر لا يوجد غداء مجاني نظرية).

هناك أربع قضايا رئيسية تأخذ بعين الاعتبار في التعلم تحت الإشراف:

  انحياز-الانحراف المقايض

أول مسألة هي إيجاى مصالحة بين الانحياز و الانحراف [2]. تخيل أنه تتوفر لدينا عدد من بيانات التدريب المختلفة ولكن بنفس الجودة. تنحاز خوارزمية التعلم  لمدخل معين إذا تدربت باستخدام مجموعات البيانات بشكل خاطئ بحيث تتنبأ بقيمة الخرج للمدخل بشكل صحيح ولكن الأسلوب خاطئ (يقصد بهذه المشكلة الحفظ المباشر لبيانات الدخل و ما يقابلها من الخرج بدون أي تعميم). يكون لخوارزمية التعلم انحراف معال مرتفع معين الإدخال إذا كانت تتنبأ بقيم خرج مختلفة عند استخدام بيانات تدريب مختلفة. خطأ التنبؤ للمصنف المدرب هو وثيق الصلة بمجموع الانحياز و الانحراف لخوارزمية التعلم.[3] عموما، هناك علاقة تبادلية بين الانحياز و الانحراف. خوارزمية التعلم ذات انحياز منخفض و يجب أن تكون "مرنة" بحيث تناسب البيانات المدخلة. ولكن إذا كانت خوارزمية التعلم  أيضا مرنة تناسب كل  مجموعات بيانات التدريب المختلفة، تكون عالية التباين. التوجه الرئيسي في طرق التعليم بالاشراق هو أن تكون قادرة على ضبط هذه المقايضة بين  الانحياز و الانحراف ( إما تلقائيا أو من خلال توفير كمية متغيرة-بارامتر-   يمكّن المستخدم من ضبط  الانحياز/ الانحراف )

تابع التعقيد و كمية بيانات التدريب

المسألة الثانية هي كمية بيانات التدريب المتاحة بالنسبة إلى تعقيد التابع "الصحيح" (المصنف أو تابع الانحدار -  المقصود بالتابع الصحيح أن بعد تشغيل خوارزمية التدريب لمرات عديد يتم اختيار أنسب تابع تعلم و يكون صاحب الدقة الأكبر و يطلق عليه التابع الصحيح). إذا كان التابع الصحيح بسيطا، عندها سوف نكون بحاجة إلى خوارزمية تعلم "غير مرنة" فيها انحياز مرتفع وانخفاض في الانحراف و سنكون قادرين على تحقيق ذلك باستخدام كمية صغيرة من البيانات. و لكن إذا كان التابع الصحيح معقد للغاية (على سبيل المثال، لأنه يعتمد على التفاعلات المعقدة بين العديد من المدخلات و الخصائص المختلفة و يتصرف بطريقة مختلفة وفقا  لكل فضاء فرعي من فضاء المدخلات) ، عندها سنكون بحاجة إلى كمية كبيرة من بيانات التدريب و خوارزمية تدريب تتمتع "بمرونة" عالية مع انخفاض في التحيز و اختلاف كبير في الانحراف.

أبعاد فضاء المدخلات

المسألة الثالثة هي أبعاد فضاء المدخلات. إذا كان عدد خصائص متجه الدخل كبير جدا تصبح مسألة التعلم صعبة الحل جدا حتى لو أن تابع التعلم الصحيح يعتمد على عدد قليل من تلك المدخلات. وذلك لأن العديد من  الأبعاد "إضافية" يمكن أن تشوش خوارزمية التعلم و تؤدي إلى انحراف عالي في أداء الخوارزمية. من هنا  ارتفاع أبعاد المدخلات عادة ما يتطلب ضبط المصنف ليتمكن من الوصول انحراف منخفض و انحياز عالي. في الواقع، إذا كان هناك مهندس يستطيع  إزالة  الخصائص عديمة الصلة من فضاء الدخل يدويا، ومن المرجح أن تؤدي هذه الإزالة إلى تحسين دقة التابع المكتسب بالتعلم. وبالإضافة إلى ذلك، هناك العديد من خوارزميات اختيار الميزات التي تسعى إلى تحديد الخصائص (الميزات) ذات الصلة  والتخلص من الميزات عديمة الصلة. بشكل مبسط تسعى إستراتيجية تخفيض الأبعاد   إلى تبديل (إسقاط هندسي) فضاء البيانات المدخلة إلى فضاء أقل أبعاد قبل تشغيل خوارزمية التعلم بالإشراف.

الضجيج في قيم الخرج

والمسألة الرابعة هي درجه الضوضاء في قیم الخرج المطلوبة (مقاىير تابع الهدف الإشرافية ). إذا  كانت مجموعة التدريب تحتوي قيم غير صحيحة في خانة الخرج (بسبب الخطأ البشري أو الأخطاء في أجهزة القياس)، في هذه الحالة تقوم خوارزمية التعلم باكتساب تابع يعطي قيم لا تتطابق مع أمثلة التدريب الواقعية. السعي إلى تكييف البيانات بشكل دقيق جدا يؤدي إلى الإفراط في التناسب. بالإمكان الوصول إلى الإفراط في التناسب حتى عندما لا يكون هناك أخطاء في القياس (الضوضاء العشوائية) إذا كنت تحاول تعلم تابع (دالة) معقدة جدا بالنسبة نموذج التعلم. في مثل هذه الحالة ذلك الجزء من تابع الهدف لا يستطيع تمثيل بيانات التدريب "المعطوبة" و تدعى هذه الظاهرة باسم الضوضاء القطعية. عندما يكون أي نوع من الضوضاء في مجموعة بياناتك الحالية، فمن الأفضل المضي باستخدام مخمن لأعلى أنحياز و أقل مقدار انحراف.

في الواقع، هناك عدة طرق للتخفيف من حدة الضوضاء في قيم الخرج مثل التوقف المبكر لمنع  الإفراط في لتناسب وكذلك الكشف عن وإزالة  أمثلة التدريب المشابة بالضوضاء  قبل تشغيل خوارزمية التعلم بالاشراف. هناك العديد من الخوارزميات التي تحدد و تزيل الأمثلة التدريبية  التي يشتبه بأنها مشوشة بالضجيج قبل البدء بالتدريب و هذا يؤدي إلى انخفاض خطأ التعميم مع دلالة إحصائية . [4] [5]

العوامل الأخرى التي تؤخذ بعين الاعتبار

عوامل أخرى في الاعتبار عند اختيار و تطبيق خوارزمية التعلم ما يلي:

  1. عدم تجانس البيانات. إذا كان متجه الخصائص تتضمن أنواع مختلفة من الخصائص  (متقطعة، متقطعة مرتبة، عددي,  قيم مستمرة ) ، بعض الخوارزميات هي أسهل لتطبيق أكثر من غيرها. العديد من الخوارزميات، بما في ذلك شعاع الدعم الآلي, الانحدار الخطي, الانحدار اللوجستي, الشبكات العصبية و  خوارزمية الجار الأقرب   تطلب إدخال خصائص بمقادير عددية و في مقاييس بنطاقات متشابهة (على سبيل المثال، الفاصلة بين [-1,1] ). الطرق التي تستخدم دوال الفاصلة، مثل خوارزمية الجار الأقرب و شعاع الدعم الآلي مع نواة جاوس, تتطلب وجود البيانات متجانسة و بمقاييس عددية متناسبة.  بالمقابل ميزة طريقة أشجار القرار هو أنها تتعامل بسهولة مع البيانات غير المتجانسة.
  2.   الإطناب (التكرار) في البيانات. إذا كان خصائص الدخل تحتوي على معلومات زائدة عن الحاجة (على سبيل المثال، خصائص بينها ترابط إلى حد كبير-  تواجد مجموعة مقادير بالإضافة إلى المتوسط الحاسبي لها في فضاء الإدخال) بعض خوارزميات التعلم (مثل الانحدار الخطي, الانحدار اللوجستيو المسافة على أساس أساليب) تعمل بشكل سيئ عند وجود عدم الاستقرار العددي في بيانات الدخل (مثلا خصيصة الطول تتراوح بين 1.2 و 2.1 متر، في حين خصيصة الوزن تتراوح بين  30 و 110 كيلو جرام). هذه المشاكل يمكن حلها في كثير من الأحيان من خلال استخدام بعض أشكال التنظيم الرياضي.
  3. وجود تفاعلات و لاخطية في قيم خصائص الدخل. إذا كان كل من الميزات يساهم بشكل مستقل في قيم الخرج، عندها تقوم الخوارزميات الخطية (مثل الانحدار الخطي, الانحدار اللوجستي, دعم آلات ناقلات, ساذجة Bayes)  و دوال المسافة  (على سبيل المثال، خوارزمية الجار الأقرب، شعاع الدعم الآلي مع نواة جاوس) بأداء جيد عموما. ولكن، إذا كان هناك تفاعلات معقدة بين خصائص الدخل، عندها تقوم خوارزميات من قبيل أشجار القرار و الشبكات العصبية بالعمل بشكل أفضل لأنها مصممة خصيصا لاكتشاف هذه التفاعلات.  يمكن تطبيق الطرق الخطية في هذه الحالة أيضا، و لكن يجب أن يقوم المهندس  بتحديد التفاعلات يدويا عند استخدامها.

كيف تعمل خوارزميات التعلم تحت إشراف

  لنفترض أنه لدينا مجموعة أمثلة تدريبة تشمل N عنصر تتوزع بالشکل التالي   حيث أن  هو متجه الخصائص للمثال التدريبي رقم i  و المتغير هو  الوسم المقابل له (أي التصنيف أو قيمة الخرج المطلوبة). خوارزمية التعليم تبحث عن تابع (علاقة رياضية) حيث أن X هو فضاء الدخل و Y هو فضاء الخرج. التابع g هو عنصر من مجموعة التوابع الممكنة G الممكن وجودها بين فضائي الدخل و الخرج. هذه المجموعة تسمى بالغالب فضاء الفرضية. في بعض الأحيان  يكون من المناسب  إعادة تبيان التابع g باستخدام تابع إحراز النقاط بشكل مشابه للتابع g بحيث أنه عوضا عن مقدار الوسم يقوم بارجاع مقدار y الذي يملك أكبر مقدار من النقاط. دعنا نستخدم F  لترميز فضاء النقاط.

على الرغم من أن و يمكن أن يكون أي فضاء من التوابع. إلا أن العديد من خوارزميات التعلم تعتمد النماذج الاحتمالية حيث يأخذ شكل نموذج الاحتمال الشرطي أو يأخذ شكل نموذج الاحتمالات المشتركة . على سبيل المثال، بايز البسيط و تحليل التمايز الخطي  نماذج  تعتمد الاحتمالات المشتركة، بينما الانحدار اللوجستي هو نموذج يعتمد الاحتمال الشرطي.

هناك نهجين أساسيين اختيار أو : تقليل المخاطر التجريبية و  تقليل المخاطر الهيكلية.[6] يقوم نهج تقليل المخاطر التجريبية بالبحث عن التابع الذي يناسب بيانات التدريب بشكل أفضل. في حين أن  تقليل المخاطر الهيكلية تتضمن تابع ضريبة التي تتحكم بشكل مقايض (متوازن ) الانحياز/الانحراف.

في كلتا الحالتين، فمن المفترض أن تتكون مجموعة التدريب من عينة مستقلة و مثالية التوزيع, . من أجل قياس مدى تناسب التابع مع بيانات التدريب، يتم تعريف تابع الخسارة . للتدريب على سبيل المثال قيمة الخسارة الناتجة من التنبؤ بالمقدار هو .

الخطر للتابع و يعرف بالخسارة المتوقعة ل . هذا يمكن أن يتم تقديره من بيانات التدريب كما في العلاقة التالية

.

تقليل  المخاطر التجريبية

في تقليل المخاطر التجريبية، تقوم خوارزمية التعلم بالإشراف  بالبحث عن تابع بحيث يقلل من . وبالتالي فإن خوارزمية التعلم بالإشراف يمكن بناؤها من خلال تطبيق خوارزميات الاستمثال للعثور على .

عندما يكون بالاعتماد احتمال ذو توزيع شرطي و تابع الخسارة سالب لوغاريتم تقدير الاحتمال: عندها تقليل المخاطر التجريبية  هو ما يعادل أقصى تقدير الاحتمالات.

عندما يحتوي على العديد من التوابع المرشحة أو مجموعة تدريب غير كبيرة بما فيه الكفاية، يؤدي تقليل المخاطر التجريبية إلى ارتفاع في الانحراف (المعياري) و ضعف في التعميم.  خوارزمية التعلم تقوم بحفظ الأمثلة التدريبية دون تعميم. وهذا ما يسمى أيضا الافراط في التناسب.

 تقليل المخاطر الهيكلية

يهدف تقليل المخاطر الهيكلية إلى منع الافراط في التناسب عن طريق دمج تنظيم الضريبة في التحسين. تنظيم الضريبة  يمكن أن يعرض على أنه تنفيذ شكل من أشكال أوكام الذي يفضل استخدام توابع بسيطة على الأكثر تعقيدا.

مجموعة واسعة من الضرائب وظفت بشكل يتوافق مع تعريفات مختلفة للتعقيد. على سبيل المثال في الحالة التي يكون فيها وظيفة هو دالة خطية من شكل

.

هو تابع تنظيم عقوبة شائع الذي يطلق عليه أيضا القاعدة الإقليدية المربعة من الأوزان المعروفة أيضا باسم المبدأ . المبادئئ الأخرى تشمل المبدأ    ، ، المبدأ  ، حيت أن عدد غير-صفري. تابع العقوبة يمثل عادة ب .

مشكلة تحسين (تمثيل) التعليم بالإشراف  هي العثور على تابع    يقلل من

يضبط  المقايضة (التوازع) الانحياز-الانحراف . عندما هذا يؤدي إلى تقليل المخاطر التجريبية مع انخفاض التحيز و ارتفاع الاتحراف. عندما يكون مقدار   كبير، سوف يكون خوارزمية التعلم ارتفاع الانحياز وانخفاض الانحراف. قيمة يمكن اختيار تجريبيا عبر التصديق المتقطع.

لدى تعقيد الضريبة تفسير بيزياني, في هذه الحالة هو  الاحتمال اللاحق  للتابع .

التدريب التّوالدي

أساليب التدريب المذكورة أعلاه هي أساليب تدريبية تمييزية لأنها تسعى إلى إيجاد تابع لكي يميز جيدا بين قيم الإخراج المختلفة (انظر النموذج التمييزي). لأجل حالة خاصة حيث هو توزيع احتمالي مشترك و تابع الخسارة  هو سالب لغواريتم تقدير الاحتمال خوارزمية تقليل الأخطار تقوم بالتدريب التوالدي ، لأن التابع يمكن اعتباره نموذج توالدي يقوم بتفسير كيف تم إنشاء بيانات التدريب. خوارزميات التدريب توالدي غالبا ما تكون أبسط وأكثر كفاءة حسابيا من خوارزميات التدريب التمييزية . في بعض الحالات يمكن أن يكون الحل حسابها في شكل قريب من حلول خوارزميات  بايز البسيط و تحليل التمايز الخطي.

تعميم التعلم تحت الإشراف

هناك العديد من طرق تساعد على تعميم مشكلة التعلم تحت الإشراف:

  1. التعلم بالإشراف النصفي: في هذا الإطار قيم الخرج متوفرة فقط في مجموعة فرعية من بيانات التدريب. باقي البيانات غير موسومة (ليس لديها مقادير خرج مقابلة).
  2. التعلم النشط: بدلا من افتراض أن كل أمثلة التدريب موجودة في بداية التعلم، تقوم خوارزميات التعلم النشط بجمع أمثلة جديدة بشكل تفاعلي، عادة عن طريق طلب استعلامات من الإنسان المستخدم. في كثير من الأحيان، الاستعلامات تعتمد على البيانات غير المسماة، و هو السيناريو الذي يجمع بين التعلم بالإشراف النصفي و التعلم  النشط.
  3.   التنبؤ البنيوي: عندما يكون التنبوء المطلوب  عبارة عن كائن معقد مثل  شجرة التحليل أو رسم البياني  مسمى، عندها سنكون بحاجة إلى توسيع أساليب التعلم القياسية.
  4. تعلم الترتيب: عندما يكون الدخل مجموعة من الكائنات و الخرج المطلوب هو ترتيب هذه الكائنات، عندها سنكون بحاجة أيضا لتطوير الأساليب القياسية للتعامل مع هذه المسألة.

المناهج و الخوارزميات

  • Analytical learning
  • Artificial neural network
  • Backpropagation
  • Boosting (meta-algorithm)
  • Bayesian statistics
  • Case-based reasoning
  • Decision tree learning
  • Inductive logic programming
  • Gaussian process regression
  • Group method of data handling
  • Kernel estimators
  • Learning Automata
  • Learning Classifier Systems
  • Minimum message length (decision trees, decision graphs, etc.)
  • Multilinear subspace learning
  • Naive bayes classifier
  • Maximum entropy classifier
  • Conditional random field
  • Nearest Neighbor Algorithm
  • Probably approximately correct learning (PAC) learning
  • Ripple down rules, a knowledge acquisition methodology
  • Symbolic machine learning algorithms
  • Subsymbolic machine learning algorithms
  • Support vector machines
  • Minimum Complexity Machines (MCM)
  • Random Forests
  • Ensembles of Classifiers
  • Ordinal classification
  • Data Pre-processing
  • Handling imbalanced datasets
  • Statistical relational learning
  • Proaftn, a multicriteria classification algorithm

التطبيقات

المشاكل العامة

انظر

المراجع

  1. Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press ISBN 9780262018258. نسخة محفوظة 23 مارس 2019 على موقع واي باك مشين.
  2. S. Geman, E. Bienenstock, and R. Doursat (1992).
  3. G. James (2003) Variance and Bias for General Loss Functions, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf)
  4. C.E. Brodely and M.A. Friedl (1999). Identifying and Eliminating Mislabeled Training Instances, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf)
  5. Smith, M. R., & Martinez, T. (2011, July). Improving classification accuracy by identifying and removing instances that should be misclassified. In Neural Networks (IJCNN), The 2011 International Joint Conference on (pp. 2690-2697). IEEE.
  6. Vapnik, V. N. The Nature of Statistical Learning Theory (2nd Ed.), Springer Verlag, 2000.

وصلات خارجية

البوابة المرتبطة

موسوعات ذات صلة :