يسمى التجانس المضاف في الإحصاء أيضًا تجانس لابلاس [1] أو تجانس Lidstone ، وهو تقنية تستخدم لمجانسة حقول البيانات الفئوية. وفقاً لملاحظة (x = x1,x2,x3...xd) من توزيع متعدد الحدود مع عدد N من التجارب، فإن الإصدار المتجانس أو "السلس" من البيانات يعطينا المقدّر الآتي:
حيث يمثل وسيط التجانس α > 0 ، وعندما يكون الوسيط مساوياً لصفر α = 0 فذلك يعني عدم وجود تجانس. التجانس أو الصقل المضاف هو نوع من مقدر الانكماش، حيث أن التقدير الناتج سيكون ضمن الاحتمال التجريبي (التردد النسبي) الناتج من قسمة كل ملاحظة على عدد التجارب، والاحتمالية موحدة الناتجة من قسمة 1 على عدد العينات في مجموعة الملاحظات.
من وجهة نظر بايزية، فإن هذا يتوافق مع القيمة المتوقعة للاحتمال البعدي ، باستخدام توزيع ديريكليت المتماثل مع القيمة α كتوزيع مسبق. في الحالة الخاصة التي يكون فيها عدد الفئات 2 ، يكون هذا مكافئًا لاستخدام توزيع بيتا باعتباره الاقتران السابق لمعلمات التوزيع ذي الحدين.
التاريخ
ابتكر لابلاس طريقة التجانس هذه عندما حاول تقدير احتمالية شروق الشمس في اليوم التالي. كانت فكرة لابلاس والمنطق الذي يستند عليه هو أنه حتى في ظل وجود عينة كبيرة من الأيام ذات الشمس المشرق، فما زلنا غير متأكدين تمامًا من أن الشمس سوف تشرق غدًا (تعرف المعضلة بإسم معضلة شروق الشمس)[2].
العدد الكاذب
العدد الكاذب هو مقدار (ليس عددًا صحيحًا بشكل عام، على الرغم من اسمه) يضاف إلى عدد الحالات المرصودة من أجل تغيير الاحتمال المتوقع في نموذج لتلك البيانات. سمي بهذا الاسم لأن عدداً زائفاً من القيمة α يزن في الاحتمال البعدي على غرار كل فئة لها عدد إضافي من α، يكون الاحتمال البعدي لكل عنصر من العناصر الواردة في المشاهدة (observation)، والتي تمتد على Xi كما يلي:
لكن الاحتمال البعدي بعد التجانس يصبح كما يلي:
كما لو أن زيادة كل العدد Xi بمقدار α.
في أي مجموعة بيانات أو عينة ملحوظة، هناك احتمالية معينة لعدم حدوث حدث محتمل. لذا فإن تردده الملحوظ هو صفر، مما يعني على ما يبدو احتمال الصفر. لكن هذا التبسيط المفرط غير دقيق وغير مفيد في كثير من الأحيان، خاصة في تقنيات التعلم الآلي القائمة على الاحتمالات مثل الشبكات العصبية الاصطناعية ونماذج ماركوف المخفية . حيث يمكن وعن طريق ضبط احتمالية وقوع أحداث نادرة (وليست مستحيلة) بحيث لا تكون هذه الاحتمالات صفرية تمامًا، ويتم بذلك تجنب مشاكل التردد الصفري.
أبسط طريقة هي إضافة واحد إلى كل عدد من الأحداث الملحوظة بما في ذلك الاحداث التي لها احتمالية صفرية. هذا النهج يعادل افتراض توزيع مسبق موحد على الاحتمالات لكل حدث محتمل.
تطبيقات
التصنيف
يعد التجانس المضاف أحد المكونات الشائعة الاستخدام مع نموذج بايز الساذج للتصنيف .
نمذجة اللغة الإحصائية
في نموذج كيس الكلمات لمعالجة اللغة الطبيعية واسترجاع المعلومات، تتكون البيانات من صفوف تضم عدد تكرارات كل كلمة في المستند. يسمح التجانس المضاف بإعطاء قيم غير صفرية للكلمات التي لا تظهر في عين معينة ضمن البيانات. أثبتت الدراسات الحديثة أن التجانس المضاف أكثر فاعلية من طرق تجانس الاحتمالات الأخرى في العديد من مهام استرجاع المعلومات مثل أنظمة التوصية . [3] [4]
المراجع
- C.D. Manning, P. Raghavan and M. Schütze (2008). Introduction to Information Retrieval. Cambridge University Press, p. 260.
- Lecture 5 | Machine Learning (Stanford) at 1h10m into the lecture نسخة محفوظة 28 فبراير 2017 على موقع واي باك مشين.
- Hazimeh, Hussein; Zhai, ChengXiang. "Axiomatic Analysis of Smoothing Methods in Language Models for Pseudo-Relevance Feedback". ICTIR '15 Proceedings of the 2015 International Conference on The Theory of Information Retrieval. مؤرشف من الأصل في 16 ديسمبر 2019.
- Valcarce, Daniel; Parapar, Javier; Barreiro, Álvaro. "Additive Smoothing for Relevance-Based Language Modelling of Recommender Systems". CERI '16 Proceedings of the 4th Spanish Conference on Information Retrieval. مؤرشف من الأصل في 16 ديسمبر 2019.
- Wilson, E. B. (1927). "Probable inference, the law of succession, and statistical inference". Journal of the American Statistical Association. 22: 209–212. doi:10.1080/01621459.1927.10502953. JSTOR 2276774. </ref>
- Agresti, Alan; Coull, Brent A. (1998). "Approximate is better than 'exact' for interval estimation of binomial proportions". The American Statistician. 52: 119–126. doi:10.2307/2685469. JSTOR 2685469. MR = 1628435 1628435.