تعلم شجرة القرار (Decision tree learning) تستخدم شجرة القرار للانطلاق من الملاحظات حول عنصر معين إلى الاستنتاج حول القيمة التي يحملها ذلك العنصر ممثلة بأوراق الشجرة، فيما يمثل العنصر ذاته بفروع الشجرة. وشجرة تعلم القرار هي إحدى طرق النمذجة التنبؤية التي تستخدم في الإحصاء، استخراج البيانات و تعلم الآلة.[1] تأخذ المتغيرات مجموعة منفصلة من القيم في أشجار القرار التي تُدعى بأشجار التصنيف؛ حيث تمثل الأوراق في هيئة الشجرة تصنيفات معينة فيما تمثل الفروع نقاط اقتران منطقي للخصائص التي تؤدي إلى تلك التصنيفات. أما أشجار القرار التي تستهدف متغيرات رقمية ذات قيم مستمرة (أرقام حقيقية) فتسمى بأشجار الانحدار (نسبة إلى الانحدار الخطي). في تحليل اتخاذ القرار، يُمكن أن تستخدم شجرة القرار لتمثيل القرارات وعمليات اتخاذ القرار بصرياً. في عمليات التنقيب في البيانات تصف أشجار القرار البيانات (لكن ناتج شجرة التصنيف يُمكن أن يكون من المدخلات لعملية اتخاذ القرار). يستخدم التدهور على نطاق واسع في العلوم والهندسة بسبب سهولة وضوحها.[2]
خوارزمية
تعمل الخوارزميات الخاصة بإنشاء أشجار من أعلى لأسفل، عن طريق اختيار متغير في كل خطوة تقسم مجموعة العناصر على أفضل نحو. تستخدم خوارزميات مختلفة مقاييس مختلفة لقياس "الأفضل". تعتمد معظم الأشجار على إنتروبيا أو مؤشر جيني (Gini index) لتقسيم البيانات. تعتمد العديد من الأشجار المعروفة، مثل C4.5 و ID3،[2][3] على الانتروبيا. يتم تعريف الانتروبي على النحو التالي:
حيث p1 ، p2 ،... هي الكسور التي تضيف ما يصل إلى 1 وتمثل النسبة المئوية لكل تصنيف (أو فئة) موجودة في العقدة الفرعية الناتجة عن انقسام في الشجرة و يسمى المتغير IE كسب المعلومات.[4]
ولحساب شوائب جيني لمجموعة من العناصر مع J تصانيف، افترض i∈ {1,2 ،... ، J} ، ودع pi هو جزء صغير من العناصر المسمى تصنيف i في المجموعة.[4]
مراجع
- T. Hastie, R. Tibshirani, and J. Friedman, “The Elements of Statistical Learning,” Bayesian Forecast. Dyn. Model., vol. 1, pp. 1–694, 2009.
- Piryonesi, S. M.; El-Diraby, T. E. (2020) [Published online: December 21, 2019]. "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1). doi:10.1061/(ASCE)IS.1943-555X.0000512.
- "Piryonesi, S. M., & El-Diraby, T. (2018). Using Data Analytics for Cost-Effective Prediction of Road Conditions: Case of The Pavement Condition Index:[summary report] (No. FHWA-HRT-18-065). United States. Federal Highway Administration. Office of Research, Development, and Technology". مؤرشف من الأصل في ۲ فوریه ۲۰۱۹.
- Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.".