الرئيسيةعريقبحث

تعليم معزز


التعليم المعزز (reinforcement learning) هو مجال من مجالات التعليم الآلي مستوحى من علم النفس السلوكي، يعنى بكيفية اختيار الوكلاء البرمجيين  للإجراءات في بيئة ما بشكل يحقق أقصى قدر لمفهوم ما من المكافأة. المشكلة، نظرا لعمومها، تدرس في العديد من التخصصات الأخرى مثل نظرية الألعاب، نظرية التحكم، بحوث العمليات، نظرية المعلومات، الاستمثال المحاكي، الأنظمة متعددة الوكلاء، ذكاء السرب، الإحصائيات و الخوارزميات الجينية. في بحوث العمليات و التحكم، يسمى المجال الذي تدرس به أساليب التعليم المعزز البرمجة الديناميكية التقريبية. كما يتم دراسة نفس المشكلة في مجال نظرية التحكم الأمثل، رغم أن معظم الدراسات هذا المجال معنية بوجود الحلول المثلى ووصفها، و ليس بجوانب التعلم أو التقريب. في الاقتصاد و نظرية الألعاب، يمكن استخدام التعليم المعزز لشرح كيفية إمكان نشأة حالة توازن في إطار عقلانية محدودة.

في مجال تعليم الآلة، عادة ما تصاغ البيئة كعملية ماركوف لاتخاذ القرار (MDP) ، كما أن العديد من خوارزميات التعليم المعزز في هذا السياق تستخدم  تقنيات البرمجة الديناميكية. الفرق الرئيسي بين الأساليب التقليدية وخوارزميات التعليم المعزز في هو أن اللاحق لا يحتاج للكثير من المعلومات عن الMDP، كما أنه يستطيع استداف الMDP الكبيرة جدًا التي يصعب بها تطبيق الأساليب الدقيقة.

يختلف التعليم المعزز عن التعليم المراقب بأنه لا يتم تقديم أي أزواج من المدخلات والمخرجات، تعرض ولا يتم تصحيح الإجراءات الغير مثالية عمدًا. عوضًا عن ذلك، يتم التركيز على الأداء المباشر، الذي ينطوي على إيجاد توازن بين الاستكشاف (للفضاء غير المجهول) و الاستغلال (للمعرفة الحالية). تعتبر الاستكشاف مقابل استغلال مفاضلة في التعليم المعزز وقد تم دراستها بدقة من خلال ماكينات الألعاب المتعددة وفي الMDP المنتهية.

A

مقدمة

نموذجية تأطير من تعزيز التعلم (RL) السيناريو: وكيل يأخذ الإجراءات في بيئة التي يتم تفسيرها في مكافأة تمثيل الدولة ، والتي يتم تغذيتها مرة أخرى إلى العميل.

التعزيز الأساسي يتم على غرارعملية ماركوف لاتخاذ القرار:

  1. مجموعة من حالات البيئة والوكيل S
  1. مجموعة من الإجراءات A؛
  1. هو احتمال الانتقال من الحالة s إلى الحالة s' عبر الإجراء a.
  2. هو المكافأة الفورية (المتوقعة) بعد الانتقال من s إلى عبر الإجراء a.
  1. قواعد تصف ما يرصده الوكيل

غالبا ما تكون القواعد عشوائية. الرصد عادة ينطوي على المكافأة الفورية المرتبطة بآخر انتقال. في العديد من التطبيقات، يُفترض أن الوكيل يرصد الحالة البيئية الحالية (ما يسمى الرصد الكامل). إذا لم يكن كذلك فيقال أن لدى الوكيل رصد جزئي. في بعض الأحيان، مجموعة الإجراءات المتاحة للوكيل قد تكون مقيدة.

يتفاعل وكيل التعليم المعزز مع بيئته في خطوات زمنية منفصلة. في كل زمن t، يتلقى الوكيل رصدًا عادة ما يشمل مكافأة . ثم يختار الوكيل إجراءًا من مجموعة الإجراءات المتاحة، والذي يتم إرساله إلى البيئة. تنتقل البيئة بعد ذلك إلى حالة جديدة ويتم التحديد المكافأة المرتبطة بالانتقال . هدف الوكيل في التعليم المعزز هو جمع أكبر قدر من المكافأة. بإمكان الوكيل اختيار إجرائه كدالة لتاريخه أو حتى بطريقة عشوائية.

حين يقارن أداء الوكيل بأداء وكيل يعمل بطريقة مثالية، فإن الفرق في الأداء يؤدي إلى مفهوم الأسف. من أجل العمل بقرب من المثالية، على الوكيل الاحتساب للعواقب طويلة المدى لإجراءاته، ولو أدى ذلك إلى مكافأة فورية سالبة.

إذًا، فإن التعليم المعزز مناسب بشكل خاص للبيئات التي تشمل مفاضلة بين المكافأة على المدى الطويل مقابل المدى القصير. وقد تم تطبيقه بنجاح لحل العديد من المسائل، بما فيها التحكم بالروبوت، جدولة المصاعد، الاتصالات السلكية واللاسلكية، لعبة الطاولة، لعبة الداما[1]ولعبة غو الصينية (AlphaGo).

عاملان يجعلان التعليم المعزز أسلوبًا ناجحًا: استخدام العينات لتحسين الأداء واستخدام التقريب للتعامل مع البيئات كبيرة. بفضل هذين العنصريين، فإن التعليم المعزز يمكن استخدامه في بيئات كبيرة في الحالات التالية:

  • نموذج البيئة معروف، ولكن الحل تحليلي غير متاح؛
  • لا يعرف إلا نموذج محاكٍ البيئة؛[2]
  • الطريقة الوحيدة لجمع المعلومات عن البيئة هو التفاعل معها.

أولى اثنتين من هذه الحالات يمكن اعتبارها مسائل تخطيط (لأن النموذج متاح بشكل ما) ، بينما الحالة الأخيرة بالإمكان اعتبارها مسألة تعليم فعليّة. ولكن، تحت إطار منهجية التعليم المعزز فإن كلتي مسائل التخطيط يتم تحويلها إلى مسائل التعليم الآلي.

الاستكشاف

التعليم المعزز يتطلب ذكي استكشاف الآليات. اختيار عشوائي الإجراءات دون الرجوع إلى ما يقدر بنحو التوزيع الاحتمالي ، ويظهر ضعف الأداء. حالة (الصغيرة) محدود ماركوف قرار العمليات نسبيا مفهومة جيدا. ومع ذلك ، نظرا لعدم وجود خوارزميات بصورة مبرهنة مقياس جيد مع عدد من الدول (أو نطاق إلى مشاكل لا حصر له الدولة الأماكن محدود), بسيطة استكشاف الأساليب الأكثر عملية.

موسوعات ذات صلة :

  1. Sutton Barto.
  2. Gosavi 2003.