الانحدار اللوجستي (بالإنجليزية Logistic regression) هو نموذج إحصائي ينتمي لنماذج الانحدار الخطي يمكن من نمذجة متغير ثنائي الحد بدلالة مجموعة من المتغيرات العشوائية المتوقعة، رقمية كانت أو فئوية. يستخدم الانحدار اللوجستي للتنبؤ باحتمالية وقوع حدث ما بمعرفة إضافية لقيم متغيرات يمكن أن تكون مفسرة أو مرتبطة بهذا الحدث.[1][2][3] يستخدم الانحدارُ اللوجستي عدة متغيرات مُتوقَّعة والتي يمكن أن تكون رقمية أو فئوية. يشتهر الانحدار اللوجستي أيضا بتسميات نموذج لوجيت (Logit) أو المصنف العام للأنتروبية. تستعمل هذه النمذجة بشكل واسع في العديد من التطبيقات العلمية والتجارية وهي من طرق النمذجة الأكثر تطبيقا في مجال التعلم الآلي، حيث تصنف ضمن طرق التعلم الآلي المراقب .
الانحدار اللوجستي هو حالة خاصة لمجموعة النماذج الخطية العامة، رغم أنه تاريخيا، تعتبر الأخيرة تعميما لتقنية الانحدار اللوجستي.
تاريخ
يعتبر الطبيب والإحصائي جوزيف بيركسون أول من عرف مفهوم الانحدار اللوجستي وطبقه في مجال الإحصاء الحيوي سنة 1944 ونشرت أول ورقة بحثية يذكر فيها الانحدار اللوجستي باسمه في مجلة الجمعية الإحصائية الأمريكية. [4]
مجالات التطبيق
في ما يلي عينة من مجالات تطبيق الانحدار اللوجستي مع الأمثلة:
- في مجالات الطب والإحصاء الحيوي : مثلا احتمال حدوث نوبة قلبية عند شخص ما خلال فترة زمنية معينة حسب المعرفة القبلية ببعض المعلومات الديمغرافية (عمره أو جنسه مثلا) أو الطبية (مؤشراته البدنية أو الصحية أو الغذائية) أو الوبائية (سلوكياته كالتدخين مثلا).
- الصيدلة: في تقدير رد الفعل والمقارنة بين نجاعة الأدوية.
- التأمينات: لفرز وتقسيم مجموعات العملاء حسب المخاطر ومدى قابلية جذبهم لمنتجات تأمين معينة.
- المجال البنكي: خصوصا في تنقيط العملاء أثناء دراسة ملفات القروض (Credit Scoring).
- التسويق: حساب توقعات ميل المستهلك إلى شراء منتج ما أو امتناعه عن الشراء.
- في سبر الآراء والعلوم السياسية: مثلا للتنبؤ بقرار التصويت في الانتخابات اعتمادا على تنميط قبلي للمصوتين (مستواهم الاجتماعي، توجهاتهم السياسية، مستواهم التعليمي...).
النموذج الرياضي
اصطلاحات
- نعتبر عينة سعتها ، يشار لكل فرد (ملاحظة إحصائية) في العينة بالرمز .
- هو المتغير النوعي المراد تفسيره ويحتمل قيمتين {0,1}. قيمة بالنسبة للفرد يرمز لها ب .
- هي المتغيرات المفسرة ويمكن أن تكون رقمية أو نوعية. قيمة المتغيرات المفسرة بالنسبة للفرد يرمز لها ب .
- الاحتمالان القبليان لتحقق القيمتين 0 أو 1 يشار إليهما ب و . وهما يساويان تباعا النسب الملاحظة للقيمتين 0 و 1 في العينة. الاحتمال هنا قبلي بمعنى أنه لا يستلزم معرفة قبلية بقيم .
- الاحتمالان الشرطيان لتحقق قيمة معينة ل بمعرفة إضافية لقيم يشار إليهما تباعا ب و . يشار للاحتمال الشرطي اللازم تقديره بالنسبة للفرد ب .
نموذج لوجيت (Logit)
نموذج الانحدار اللوجستي يحاول تفسير دالة لوجيت المتغير المراد تفسيره بدلالة توليف خطي للمتغيرات المفسرة :
، بحيث ( من 0 إلى هي معاملات النموذج التي يجب تقديرها).
وهو ما يمكن من تقدير الاحتمال الشرطي حسب الصيغة التالية:
تقدير النموذج
تقدير معاملات النموذج يتم حسب طريقة الإمكانية القصوى (Maximum likelihood estimation):
- المتغير موزع حسب توزيع ثنائي الحدين : ، مما يمكن من وضع دالة تقدير الاحتمال الأرجح للعينة على الشكل التالي: . الإمكانية القصوى تشير إلى احتمال تحقق العينة عبر سحب عشوائي.
- تهدف الطريقة إلى إيجاد متجهة المعاملات التي تحقق القيمة القصوى ل .
- لتسهيل التعامل مع هذا المؤشر يتم استعمال لوغاريتم تقدير الاحتمال :
المقدر الذي يحقق القيمة القصوى ل و أن يمتلك الخصائص التالية:
- أن يكون تقاربيا بدون تحيز.
- بأقل تباين ممكن.
- أن يكون تقاربيا ذا توزيع طبيعي (غاوسي).
في المراجع الرياضية للانحدار اللوجستي، وأيضا في البرامج الإحصائية، يستعمل أيضا ما يعرف بالانحراف الراسب (Residual Deviance) : وباعتبار هذا المؤشر، يكون المقدر هو الذي يحقق القيمة الدنيا ل .
دالة محدبة وبذلك تحتمل حلا وحيدا . بخلاف نموذج الانحدار الخطي، لا يمكن إيجاد حل للمقدر بطريقة تحليلية: الحلول المتوفرة هي فقط تجريبية (Heuristic) وأهم الخوارزميات المستعملة في إيجاد المقدر هي خوارزمية نيوتن رافسون (Newton-Raphson).
تقدير المعاملات بطريقة نيوتن رافسون
- يتم تثبيت متجهة المعاملات في قيمة بدئية (تكون مقتصرة مثلا فقط على قيمة للمعامل الثابت و0 لباقي المعاملات).
- يتم تكرار حساب قيم حسب الخوارزمية: بحيث:
- هي متجهة الاشتقاق الجزئي من الدرجة الأولى لدالة تقدير الاحتمال، وهي أيضا متجهة تدرج (Gradient) تؤول إلى 0 في جوار القيمة المثلى. تساوي قيم المتجهة :
- هي متجهة الاشتقاق الجزئي من الدرجة الثانية لدالة تقدير الاحتمال.
- هي متجهة الحل المؤقت في المرحلة من الحساب.
هناك ثلاثة معايير لضبط مآل الخوارزمية (وهي وسائط يمكن ضبطها في البرامج الإحصائية) :
- عدد مرات التكرار أو الاستدعاء الذاتي للطريقة.
- المستوى الأدنى المقبول لتغير ، إذا كانت توقف.
- المستوى الأدنى المقبول لتغير ، إذا كانت توقف.
مصفوفة هيسية، حيزها وتكمن أهميتها في كون معكوستها تساوي مصفوفة تغاير المعاملات، وهي بذلك حاسمة في مرحلة اختبارات الدلالة الإحصائية للمعاملات. يمكن أيضا كتابتها (باستعمال المصفوفات) على الشكل التالي:
مع و هي المصفوفة القطرية المشكلة من القيم .
يمكن التعبير عن خوارزمية تقدير المعاملات عبر الكتابة المصفوفاتية حسب الشكل التالي:
.
تقدير النموذج اللوجستي في البرامج الإحصائية
إكسل
يمكن تطبيق تقنية الانحدار اللوجستي في إكسل يدويا (أي بدون استعمال وظائف معرفة قبليا) فقط عبر توليف الأدوات الحسابية المتوفرة واستعمال البرنامج المساعد Solver لإيجاد المقدرات المثلى للنموذج، وذلك عبر اتباع الخطوات التالية:
- تنظيم جدول البيانات بالتمييز بين المتغير النوعي المراد تفسيره والمتغيرات المفسرة .
- تثبيت قيم بدئية لمتجهة المعاملات : .
- بالنسبة لكل فرد إحصائي في جدول البيانات:
- حساب المقدار
- ثم حساب المقدار الذي يشكل تقديرا للاحتمال الشرطي بدلالة المعلومات المفسرة المتضمنة في المتغيرات.
- حساب المساهمة الفردية في (لوغاريتم تقدير الاحتمال) :
- حساب الانحراف الراسب عبر جمع المساهمات الفردية.
- تشغيل خوارزمية استمثال باستعمال البرنامج المساعد Solver لحل البرنامج التالي: والذي سيقوم بمحاكاة مجموعة كبيرة من التوليفات لقيم متجهة المعاملات (التي تمثل قيد برنامج الاستمثال) حتى بلوغ أقل قيمة ممكنة ل.
آر (R)
توفر بيئة آر العديد من المكتبات لتطبيق الانحدار اللوجستي:
- وظيفة
glm
المتوفرة في مكتبةstats
- وظيفة
lrm
المتوفرة في مكتبةrms
- وظيفة
gm_logistic
المتوفرة في مكتبةRfast
تقييم نموذج الانحدار اللوجستي
على غرار طرق النمذجة المنحدرة من الانحدار الخطي، يستلزم نموذج الانحدار القيام بمجموعة من عمليات التقييم باستعمال تقنيات الاستدلال الإحصائي لضمان نجاعة النمذجة ولضمان مصداقيتها وضبط قوتها التوقعية. علاوة على المقاربة الإحصائية، يفرض استعمال الانحدار اللوجستي في التعلم الآلي المراقب القيام بطرق تقييم إضافية، تهدف بالأساس إلى ضمان استمرارية النموذج وقابليته للتطور والتغير حسب تطور المعرفة بالمتغيرات المفسرة.
على العموم، تنقسم طرق التقييم إلى صنفين:
- طرق التقييم الذاتي أو الداخلي (Internal Evaluation) والمرتبطة بطريقة النموذج في حد ذاتها (الانحدار اللوجستي).
- طرق التقييم الخارجي (External Evaluation) المميزة لطرق التعلم الآلي المراقب والتي لا علاقة لها بماهية الطريقة المستعملة.
التصديق على النموذج يجب أن يستند على تحكيم عقلاني بين مخرجات طرق التقييم.
التقييم الذاتي
يجب أن يكون التقييم مرافقا لعملية النمذجة منذ بدايتها، بدءا من التعريف الأولي للمسألة المراد نمذجتها إلى غاية حساب المعاملات وهوامش الخطأ. على العموم، تشمل عملية التقييم المراحل التالية:
- حصر المتغيرات المفسرة: هذه المرحلة تفرض إلماما وحدا أدنى من الخبرة في المجال الذي تطبق فيه النمذجة. اقتراح المتغيرات يجب أن يكون مسندا بحد أدنى من التأصيل النظري الذي يسمح بترشيحها كعوامل محتملة لتفسير المتغير .
- تقدير المعاملات انطلاقا من عينة إحصائية : يشمل التقييم هنا مدى احترام العينة للمنهج العلمي في عملية الاعتيان وهل تم تفادي (أو تقليل) التحيزات المعرفية أثناء عملية السبر، خصوصا في حالة المتغيرات النوعية الواصفة للأراء الشخصية.
- تقييم دقة تقدير المعاملات: بوضع مجالات ثقة للمعاملات ومستوى دلالتها الإحصائية.
- تقدير قوة النموذج التفسيرية : بمعنى هل يمكن النموذج من توقع مقبول لقيم في العينة.
- التصديق على وجود حد أدنى من الارتباط بين والمتغيرات المفسرة .
- ترتيب المتغيرات المفسرة حسب مساهمتها في تفسير .
- تقدير تأثير مكونات العينة على نجاعة النموذج : يجب أن يشمل هذا التقييم حساسية النموذج لتغيرات قيم العينة ومدى تأثير القيم القصوى (الغير اعتيادية) على معاملات النموذج وقوته التفسيرية.
التقييم حسب المصنف المرجعي
يندرج الانحدار اللوجستي ضمن طرق التعلم الآلي المراقب، ومن أهم طرق التقييم في هذا المجال أن تتم مقارنة قوة النموذج الناتج مع نموذج مرجعي يسمى المصنف المرجعي أو البديهي (Default Classifier). النموذج المرجعي هو بكل بساطة نموذج بديهي (Trivial) يفسر دون معرفة بقيم المتغيرات ، ويعتبر بذلك نموذجا بدئيا (Null Model) يقتصر فقط على المعامل الثابت .
انطلاقا من مبدأ التقتير، أحد المبادئ الأساسية لعلم الإحصاء، يجب أن يكون أي نموذج انحدار مقترح على الأقل أحسن من النموذج المرجعي. يتم التقييم عبر المراحل التالية:
- تقدير قيمة المعمل الثابت للنموذج المرجعي :
. - حساب الانحراف الراسب .
- حساب الشبه - معاملات تحديد (Pseudo-R²) والتي تمثل مقاييسا لجودة النموذج (كلما اقتربت قيمتها من 1، كان النموذج ذا قوة تفسيرية معتبرة) وتكون دائما بدلالة الانحرافين الراسبين و .
شبه معاملات التحديد يمكن قراءتها أيضا كتقدير لنسبة مساهمة المتغيرات في تفسير المتغير . مثلا معامل بقيمة 0.2 يعني أن 80% من الظواهر المفسرة أو المؤثرة في هي مضمرة وأن النموذج المقترح لا يفسر إلا 20 بالمائة من الظاهرة المدروسة. من المهم التأكيد على أن هذا المؤشر لا يحتمل قراءات معاملات التحديد في نموذج الانحدار الخطي (التي يفترض فيها تجاوز مستويات قبول معينة، 0.5 مثلا)، في هذا السياق، يكفي أن يكون غير منعدم (مثلا أكبر من 0.1) لكي يكون النموذج المقترح له قابلية التصديق، بمعنى أنه يفسر المتغير أحسن من النموذج البديهي. في ما يلي أكثر المعاملات استعمالا مع صيغها الرياضية:
شبه معامل التحديد (Pseudo-R²) | الصيغة |
---|---|
R² ماك فادن McFadden | |
R² كوكس وسنيل Cox & Snell | |
R² ناغيلكرك Nagelkerke |
التقييم الخارجي
- مقالات مفصلة: مصفوفات الإرباك
- تصديق متقاطع
التقييم الخارجي لا يرتبط بالطريقة بحد ذاتها، فالتقنيات التالية تستعمل في تقييم طرق تعلم آلي مراقب أخرى وتتمثل في تطبيق النموذج المراد تقييمه على عينات البيانات الأصلية أو أخرى مختلفة، ويتم التصديق على النموذج حسب قوته التوقعية لقيم المتغير المراد تفسيره.
مصفوفة الإرباك
مصفوفة الإرباك هي جدول يواجه القيم الحقيقية ل بالقيم المتوقعة ، خيث يتم حساب مؤشرات لجودة التوقع ونسبة الخطأ، وأيضا بنية الخطأ الإحصائي للنموذج المقترح. تكون مصفوفة الإرباك على الشكل التالي:
المجموع | |||
---|---|---|---|
المجموع |
بحيث:
- : عدد أفراد العينة الذين صح توقع قيمتهم الحقيقية 1 وفق النموذج. يصطلح عليهم بالقيم الإيجابية الصحيحة.
- : عدد أفراد العينة الذين خاب توقع قيمتهم الحقيقية 1 وفق النموذج. يصطلح عليهم بالقيم السلبية الخاطئة.
- : عدد أفراد العينة الذين صح توقع قيمتهم الحقيقية 0 وفق النموذج. يصطلح عليهم بالقيم السلبية الصحيحة.
- : عدد أفراد العينة الذين خاب توقع قيمتهم الحقيقية 0 وفق النموذج. يصطلح عليهم بالقيم الإيجابية الخاطئة.
نسبة خطأ النموذج هي نسبة التصنيفات الخاطئة بين أفراد العينة: وتقابلها نسبة النجاح: .
يلاحظ بأن المؤشرين محايدان بالنسبة للقيم الإيجابية والسلبية. في بعض السياقات، يكون من المهم تقييم النموذج وفق قدرته التوقعية لقيم محددة (مثلا، الإيجابية فقط)، لذلك تم تطوير مؤشرات أخرى لتقييم النماذج حسب دقتها أو حساسيتها أو بتوليف المعيارين معا:
- حساسية النموذج هي نسبة التوقعات الإيجابية الصحيحة:
- دقة النموذج هي نسبة التوقعات الإيجابية الصحيحة ضمن التوقعات الإيجابية : ويصطلح عليه في بعض المراجع بالقيمة التوقعية الإيجابية.
- خصوصية النموذج هي نسبة التوقعات السلبية الصحيحة: وتقابلها نسبة القيم الإيجابية الخاطئة: .
- مقياس فيشر (F-mesure) وهو مؤشر يأخذ بعين الاعتبار الدقة والحساسية في آن واحد، ويمكن عبر وزن متغير من ترقية معيار الدقة على حساب الحساسية أو العكس، فأحيانا، في سياقات يكون فيها تحقق القيمة الإيجابية ذا تأثير جسيم ومهم على الفرد الإحصائي، يستحسن تقييم النموذج أساسا حسب قدرته على توقع القيم الإيجابية. بالمقابل، عندما تكون للقيمتين الإيجابية والسلبية نفس الأهمية، يفضل تحقيق التوازن بين الدقة والحساسية:
- مقياس فيشر لوزن محدد :
- قيمة هي القيمة الموازنة بين معياري الحساسية والدقة.
- تمنح امتيازا للدقة على حساب الحساسية.
- تمنح امتيازا للحساسية على حساب الدقة.
للإشارة، فمقياس فيشر هو متوسط توافقي للدقة والحساسية، فباعتبار بحيث :
معايير النموذج الأمثل
تحليل مصفوفة إرباك النموذج اللوجستي المقترح لا يجب أن يقتصر فقط على حساب نسبة الخطأ، بل يجب أن يعتمد أولا على الفهم الجيد لطبيعة القيم الإيجابة والسلبية ولوقعها وجسامتها لدى الأفراد الإحصائيين موضوع الدراسة. من صيغ المؤشرات، يلاحظ بأن نسبة الخطأ مؤشر تناظري (يعامل القيمة الإيجابية والسلبية بنفس الطريقة) بينما يميل مؤشرا الحساسية والدقة لتقييم النموذج حسب دقته في توقع القيم الإيجابية، وبالتالي إذا تم تفضيل النماذج حسب معيار الحساسية يتم تقويض معياري الدقة والخصوصية، مما يستلزم دراسة متأنية للمؤشرات تضمن التوازن الأمثل بين مجمل هذه المعايير:
- نسبتا الخطأ ونسبة القيم الإيجابية الخاطئة يجب أن تؤول إلى .
- الحساسية والدقة والخصوصية يجب أن تؤول إلى 1.
المعيار الأخير يشكل تحديا خاصا مقارنة بالأول، لأن و يتغيران بطريقة متعارضة. إلا أن هذين المؤشرين لديهما ميزة مهمة، من منظور الاستدلال الإحصائي: هما أقل حساسية لطريقة الاعتيان مقارنة بنسبة الخطأ، ولا يفقدان وجاهتهما الإحصائية حتى في حالة العينات الصغيرة أو تلك التي تكون فيها القيم الإيجابية قليلة. بفضل هذه الخاصية، يتستعملان في تعريف مؤشري تقييم مهمين وجامعين هما مؤشر يودن (Youden Index) ومؤشر نسبة الإمكان (Likelihood Ratio):
- مؤشر يودن: ويؤول ل 1 بالنسبة للنماذج المثلى.
- مؤشر نسبة الإمكان : ويجب أن يكون بالنسبة للنماذج الجيدة.
التعريف
تعريف الانحدار اللوجستي يبدأ بتعريف الدالة اللوجستية، و هي مثل نظرية الاحتمالات تأخذ قيم بين صفر وواحد.
الدالة اللوجستية مهمة لأنها تأخذ مدخلات من سالب اللانهاية إلى موجب اللانهاية، لكن المخرجات تكون دائما بين الصفر وواحد. المتغير z يمثل المتغيرات المستقلة حيث (ƒ(z تمثل الاحتمال لمخرج معين لمجموعة من المتغيرات المستقلة. المتغير z يقيس مجموع مساهمة جميع المتغيرات المستقلة المستخدمة في هذا النموذج والتي تعرف باللوجت. المتغير z يعرف كالتالي:
هنا هي نقطة قطع محور العينات، و ، ، ، تسمى معاملات الانحدار. نقطة قطع محور العينات تساوي z عندما تكون جميع المتغيرات المستقلة تساوي صفر (z لشخص بدون عوامل الخطورة ). كل معامل من معاملات الانحدار يمثل حجم عوامل الخطورة. العامل الانحداري الموجب يعني أن المتغير المستقل يزيد احتمال المخرج، وعلى العكس فإن العامل الانحداري السالب يعني أن المتغير المستقل ينقص احتمال المخرج. والعامل الانحداري ذو القيمة الكبيرة يعني أن عامل الخطر يؤثر بشكل كبير على نسبة الاحتمال لهذا المخرج.
الانحدار اللوجستي هي طريقة مفيدة لتوضيح العلاقة بين المتغيرات المستقلة ( العمر، الجنس، إلخ.) ومتغير الإجابة أو الاحتمال، وهو يأخذ قيمتين مختلفتين. مثال لشخص شُخص بمرض السرطان فإن القيمتين لمتغير الإجابة تكون إما "سرطان" أو "بدون سرطان".
مراجع
- "معلومات عن انحدار لوجستي على موقع catalogue.bnf.fr". catalogue.bnf.fr. مؤرشف من الأصل في 2 مايو 2019.
- "معلومات عن انحدار لوجستي على موقع d-nb.info". d-nb.info. مؤرشف من الأصل في 13 ديسمبر 2019.
- "معلومات عن انحدار لوجستي على موقع id.worldcat.org". id.worldcat.org. مؤرشف من الأصل في 13 ديسمبر 2019.
- بيركسون, جوزيف (شتنبر 1944). "Application of the logistic function to bio-assay". Journal of the American Statistical Association. مؤرشف من الأصل في 10 مارس 2016.
مصادر
- David W. Hosmer Jr - Stanley Lemeshow - Rodney X. Sturdivant (2013). Applied Logistic Reegression الطبعة الثالثة. Wiley-Blackwell. .
- Lohr, Sharon L. (1999). Sampling: Design and Analysis. Pacific Grove, California: Brooks/Cole. .
- Agresti, Alan. (2002). Categorical Data Analysis. New York: Wiley-Interscience. .