التعليم الموحد هو عبارة عن تقنية للتعلم الآلي حيث تدرب خوارزمية عبر العديد من الأجهزة أو الأجهزة الخادمة اللامركزية التي تحتوي على عينات بيانات محلية ، دون تبادل عينات البيانات الخاصة بها. يتناقض هذا النهج مع أساليب التعلم الآلي المركزية التقليدية حيث يتم تحميل جميع عينات البيانات على خادم واحد ، فضلاً عن الأساليب اللامركزية الكلاسيكية التي تفترض أن عينات البيانات المحلية يتم توزيعها بشكل متماثل ومتساوي.
يتيح التعليم الموحد للعديد من الجهات الفاعلة إنشاء نموذج تعليمي مشترك قوي وفعال دون مشاركة البيانات ، وبالتالي معالجة المشكلات الحرجة مثل خصوصية البيانات وأمن البيانات وحقوق الوصول إلى البيانات والوصول إلى البيانات غير المتجانسة. وتنتشر تطبيقاتها على عدد من الصناعات بما في ذلك الدفاع ، والاتصالات السلكية واللاسلكية ، إنترنت الأشياء ، أو الصيدلة
تعريف
يهدف التعليم الموحد إلى تدريب خوارزمية تعليم الآلة ، على سبيل المثال الشبكات العصبية العميقة ، على مجموعات بيانات محلية متعددة في العقد المحلية دون تبادل عينات البيانات. يتمثل المبدأ العام في تدريب النماذج المحلية على عينات البيانات المحلية وتغيير المعلمات (مثل أوزان شبكة عصبية عميقة) بين هذه النماذج المحلية في بعض الترددات لإنشاء نموذج عالمي
قد تستخدم خوارزميات التعلم الموحدة خادمًا مركزيًا ينظم الخطوات المختلفة للخوارزمية ويعمل كساعة مرجعية ، أو قد يكون نظيرًا إلى نظير ، حيث لا يوجد مثل هذا الخادم المركزي. في الحالة غير النظير للنظير ، يمكن تقسيم عملية التعلم الموحدة في جولات متعددة ، كل منها يتكون من 4 خطوات عامة.
يكمن الاختلاف الرئيسي بين التعلم الموحد والتعلم الموزع في الافتراضات المقدمة حول خصائص مجموعات البيانات المحلية ، حيث أن التعلم الموزع يهدف في الأصل إلى موازاة القوة الحاسوبية حيث يهدف التعليم الموحد في الأصل إلى التدريب على مجموعات البيانات غير المتجانسة. بينما يهدف التعليم الموزع أيضًا إلى تدريب نموذج واحد على خوادم متعددة ، هناك افتراض أساسي شائع هو أن مجموعات البيانات المحلية يتم توزيعها بشكل متماثل وبنفس الحجم تقريبًا. لا توجد أي من هذه الفرضيات للتعلم الفدرالي ؛ بدلاً من ذلك ، عادةً ما تكون مجموعات البيانات غير متجانسة وقد تتجاوز أحجامها عدة أوامر من حيث القيمة.
الخصائص الرئيسية
لضمان أداء مهمة جيد لنموذج تعليمي مركزي نهائي ، يعتمد التعليم الموحد على عملية تكرارية مقسمة إلى مجموعة ذرية من تفاعلات خادم العميل تعرف باسم جولة التعلم الموحدة. تتكون كل جولة من هذه العملية في نقل حالة النموذج العالمي الحالي إلى العقد المشاركة ، وتدريب النماذج المحلية على هذه العقد المحلية لإنتاج مجموعة من تحديثات النماذج المحتملة في كل عقدة ، ثم تجميع هذه التحديثات المحلية ومعالجتها في تحديث عالمي واحد و تطبيقه على النموذج العالمي.
في المنهجية الموضحة أدناه ، نستخدم خادمًا مركزيًا لهذا التجميع ، في حين أن العقد المحلية تقوم بتدريب محلي وفقًا لأوامر الخادم المركزي. ومع ذلك ، فإن الاستراتيجيات الأخرى تؤدي إلى نفس النتائج بدون خوادم مركزية ، في نهج الند للند ، باستخدام منهجيات القيل والقال[1]
يتم اختيار نموذج إحصائي (على سبيل المثال ، الانحدار الخطي ، والشبكة العصبية ، وتعزيز ) لتدريبهم على العقد المحلية وتهيئته. يتم تنشيط العقد وانتظر الخادم المركزي لإعطاء مهام الحساب.
التدريب التكراري
بالنسبة للتكرارات المتعددة لما يسمى بجولات التعلم الموحدة ، يتم تنفيذ الخطوات التالية: [2]
اختيار
يتم تحديد جزء صغير من العقد المحلية لبدء التدريب على البيانات المحلية. جميعها يتطلب الحصول على نفس النموذج الإحصائي الحالي من الخادم المركزي. العقد الأخرى تنتظر الجولة التعليميه الموحدة التالية.
ترتيب
يطلب الخادم المركزي العقد المحددة للخضوع لتدريب النموذج على بياناته المحلية بطريقة محددة مسبقًا (على سبيل المثال بالنسبة لبعض تحديثات الدُفعات الخاصة بأصل التدرج اللوني ).
التقارير
تقوم كل عقدة بإرجاع تحديثات النموذج الإضافي المكتسبة محليًا إلى الخادم المركزي. يقوم الخادم المركزي بتجميع جميع النتائج وتخزين النموذج الجديد. كما أنه يعالج حالات الفشل (على سبيل المثال ، فقد الاتصال بعقدة أثناء التدريب). يعود النظام إلى مرحلة الاختيار.
نتيجة
عندما يتم استيفاء معيار إنهاء محدد مسبقًا (على سبيل المثال العدد الأقصى للجولات أو دقة محلية أعلى من بعض الهدف) ، يطلب الخادم المركزي نهاية عملية التدريب التكراري. يحتوي الخادم المركزي على نموذج قوي تم تدريبه على مصادر متعددة للبيانات غير المتجانسة.
خوارزميات المعلمات العليا
طوبولوجيا الشبكة
يمكن تغيير الطريقة التي يتم بها تجميع المخرجات المحلية الإحصائية والطريقة التي تتواصل بها العقد مع بعضها البعض من النموذج المركزي الموضح في القسم السابق. يؤدي ذلك إلى مجموعة متنوعة من مناهج التعليم الموحدة: على سبيل المثال لا يوجد خادم مركزي للتنسيق ، أو اتصال عشوائي. [3]
على وجه الخصوص ، تعد الشبكات الموزعة الخالية من أوركسترا أحد الاختلافات المهمة. في هذه الحالة ، لا يوجد خادم مركزي يرسل استعلامات إلى العقد المحلية ويجمع النماذج المحلية. ترسل كل عقدة محلية مخرجاتها إلى عدة أخريات تم اختيارها عشوائيًا ، [4] والتي تجمع نتائجها محليًا. هذا يقيد عدد المعاملات ، وبالتالي تقليل وقت التدريب وتكلفة الحوسبة في بعض الأحيان.
بمجرد اختيار هيكل شبكة العقدة ، يمكن للمرء التحكم في المعلمات المختلفة لعملية التعلم المتحدة (في مقابل المعلمات الفائقة لنموذج التعلم الآلي) لتحسين التعلم :
- عدد جولات التعلم الموحدة : ت
- إجمالي عدد العقد المستخدمة في العملية : ك
- جزء من العقد المستخدمة في كل تكرار لكل عقدة : ج
- حجم الدفعة المحلية المستخدمة في كل تكرار التعلم : ب
يمكن أيضًا استخدام المعلمات الأخرى المعتمدة على النموذج ، مثل :
- عدد مرات التكرار للتدريب المحلي قبل التجميع : ن
- معدل التعلم المحلي : η
يجب تحسين هذه المعلمات وفقًا لقيود تطبيق التعلم الآلي (على سبيل المثال ، قوة الحوسبة المتاحة والذاكرة المتاحة وعرض النطاق الترددي ). على سبيل المثال ، يؤدي اختيار عشوائي لعدد C محدود من العقد لكل تكرار إلى تقليل تكلفة الحوسبة وقد يحول دون التداخل الزائد ، بنفس الطريقة التي يمكن أن يؤدي بها انخفاض تدرج مؤشر ستوكاستيك إلى تقليل التداخل الزائد .
اختلافات التعلم الموحد
في هذا القسم ، نتابع عرض التعلم الفعال في التواصل للشبكات العميقة من البيانات اللامركزية ،
لوصف الاستراتيجيات الموحدة ، دعونا نقدم بعض الرموز:
- nk: عدد عينات البيانات المتاحة أثناء التدريب للعميل k ؛
- wkt: متجه وزن النموذج على العميل k ، في الجولة t المتحدة ؛
- l (w، b): دالة الخسارة بالنسبة للأوزان w و batch؛
- ك : إجمالي عدد العملاء ؛
- ك : فهرس العملاء ؛
- E : عدد العصور المحلية ؛
مراجع
- Decentralized Collaborative Learning of Personalized Models over Networks Paul Vanhaesebrouck, Aurélien Bellet, Marc Tommasi, 2017
- Towards federated learning at scale: system design, Keith Bonawitz Hubert Eichner and al., 2019
- Collaborative Deep Learning in Fixed Topology Networks, Zhanhong Jiang, Aditya Balu, Chinmay Hegde, Soumik Sarkar, 2017
- GossipGraD: Scalable Deep Learning using Gossip Communication based Asynchronous Gradient Descent, Jeff Daily, Abhinav Vishnu, Charles Siegel, Thomas Warfel, Vinay Amatya, 2018