الرئيسيةعريقبحث

معدل التعلم


☰ جدول المحتويات


في التعلم والإحصاء الآلي، يعد معدل التعلم (learning rate)‏ معلمة ضبط في خوارزمية التحسين التي تحدد حجم الخطوة في كل تكرار أثناء التحرك نحو الحد الأدنى من دالة الخسارة . [1] نظرًا لأنها تؤثر على مدى تجاوز المعلومات المكتسبة حديثًا المعلومات القديمة، فإنها تمثل مجازًا السرعة التي يتعلم بها "نموذج التعلم الآلي". [2] غالبًا ما يشار إلى معدل التعلم بالحرف η أو α.

في تحديد معدل التعلم، هناك مفاضلة بين معدل التقارب وتجاوز الحد. في حين أن الاتجاه نحو الحد الأدنى يتم تحديده عادة من خلال التدرج اللوني لوظيفة الخسارة، فإن معدل التعلم يحدد حجم الخطوة التي يتم اتخاذها في هذا الاتجاه. [3] سيجعل معدل التعلم المرتفع جدًا قفزة التعلم أعلى من الحد الأدنى، لكن معدل التعلم المنخفض جدًا سيستغرق وقتًا طويلاً للغاية للالتقاء أو التعثر في الحد الأدنى المحلي غير المرغوب فيه.

من أجل تحقيق تقارب أسرع، ومنع التذبذبات والتوقف في الحد الأدنى المحلي غير المرغوب فيه، غالبًا ما يتغير معدل التعلم أثناء التدريب إما وفقًا لجدول معدل التعلم أو باستخدام معدل تعليمي قابل للتكيف. [4] في طريقة نيوتن، يتم تحديد معدل التعلم بشكل أساسي من الانحناء المحلي لوظيفة الخسارة، وذلك باستخدام معكوس المصفوفة الهيسية كحجم الخطوة.

جدول معدل التعلم

يغير جدول معدل التعلم معدل التعلم أثناء التعلم وغالبًا ما يتم تغييره بين الحلقات / التكرارات. ويتم ذلك أساسا مع اثنين من المعلمات: الاضمحلال والزخم . هناك العديد من الجداول الزمنية لمعدلات التعلم المختلفة، لكن الأكثر شيوعًا هي تلك التي تستند إلى الوقت والخطوات الأسية . [4]

الاضمحلال : يعمل الاضمحلال على تسوية التعلم وتجنب التذبذبات الناتجة، وهو الموقف الناتج عن ثبوت معدل التعلم ويتم التحكم به بواسطة المعاملات المتطورة لمقياس تشعبي (hyperparameter).

الزخم هو ايجاد تسوية القيمة عند اقل نقطة لأقل خطأ، يعمل الزخم على تسريع عملية التعلم عندما يتدرج تدرج تكلفة الخطأ في نفس الاتجاه لفترة طويلة وتجنب الحد الادنى المحلي عن طريق تجاوز العثرات الصغيره. يتم التحكم في الزخم بواسطة المعاملات المتطورة أو مقاييس تشعبية.

تعمل جداول التعلم القائمة على الوقت على تغيير معدل التعلم اعتمادًا على معدل التعلم في التكرار الزمني السابق. معاملات الانحلال في الصيغة الرياضية لمعدل التعلم هي:

أين هو معدل التعلم، هو معامل الاضمحلال و هي خطوة التكرار.

تعمل جداول التعلم القائمة على الخطوة على تغيير معدل التعلم وفقًا لبعض الخطوات المحددة مسبقًا. يتم تعريف صيغة تطبيق الاضمحلال على النحو التالي:

أين هو معدل التعلم في التكرار ، هو معدل التعلم الأولي، هو مقدار معدل التعلم الذي يجب أن يتغير عند كل قطرة (0.5 يتوافق مع النصف) و يتوافق مع droprate ، أو عدد المرات التي ينبغي أن ينخفض معدل . تقوم دالة floor هنا بإسقاط قيمة مدخلاتها إلى 0 لجميع القيم الأصغر من 1.

تتشابه جداول التعلم الأسي مع الخطوات المستندة إلى الخطوة، ولكن بدلاً من الخطوات، يتم استخدام دالة الأس المتناقص. الصيغة الرياضية في الاضمحلال هي:

هو معامل الانحلال.

معدل التعلم التكيفي

تتمثل المشكلة في جداول معدلات التعلم في أنها تعتمد جميعها على معلمات كبيرة يجب اختيارها يدويًا لكل جلسة تعليمية معيّنة وقد تختلف اختلافًا كبيرًا تبعًا للمشكلة المطروحة أو النموذج المستخدم. لمكافحة هذا هناك العديد من أنواع مختلفة من خوارزميات النسب التدرج التكيفي مثل Adagrad ، Adadelta ، RMSprop ، آدم والتي بنيت بشكل عام في مكتبات التعلم العميق مثل Keras .

مقالات ذات صلة

قراءة متعمقة

روابط خارجية

  • de Freitas, Nando (February 12, 2015). "Optimization". Deep Learning Lecture 6. مؤرشف من الأصل في 23 فبراير 2020.

مراجع

  1. Murphy, Kevin P. (2012). Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press. صفحة 247.  . مؤرشف من الأصل في 5 يناير 2020.
  2. Hafidz Zulkifli (21 January 2018). "Understanding Learning Rates and How It Improves Performance in Deep Learning". Towards Data Science. مؤرشف من الأصل في 24 يناير 201815 فبراير 2019. Learning rate is a hyper-parameter that controls how much we are adjusting the weights of our network with respect the loss gradient.
  3. Nesterov, Y. (2004). Introductory Lectures on Convex Optimization: A Basic Course. Boston: Kluwer. صفحة 25.  . مؤرشف من الأصل في 9 يوليو 2017.
  4. Suki Lau (29 July 2017). "Learning Rate Schedules and Adaptive Learning Rate Methods for Deep Learning". Towards Data Science. مؤرشف من الأصل في 04 يناير 202012 مارس 2019. In order to achieve faster convergence, prevent oscillations and getting stuck in local minima the learning rate is often varied during training either in accordance to a learning rate schedule or by using an adaptive learning rate.

موسوعات ذات صلة :