الكلمات الشائعة (stop words) أو الكلمات المستبعدة هي الكلمات التي تستبعد قبل المعالجة اللغوية الآلية للبيانات (نصوص). وهي الكلمات التي تتكرر في النصوص مثل (في، من، إلى،...) ويستحسن تجاهلها وعدم فهرستها من أجل تحسين البحث. ويرجع الفضل لهانس بيتر لوهن (من الرواد في استرجاع المعلومات) في استعمال هذا المصطلح والمفهوم في التطوير.
وتعتبر هذه الطريقة مقاربة سلبية في التعامل مع الأدوات وحروف المعاني في الجمل. لا توجد قائمة كلمات محددة للاستبعاد، تستعملها كل المحللات الصرفية وأدوات معالجة اللغة الطبيعية. لا تستعمل كل أدوات المعالجة اللغوية قائمة كلمات شائعة. ويمكن للتحليل الصرفي التقليل من استخدام كلمات مستبعدة، لا سيما عند تحليل الجمل. الكلمات المستبعدة قد تسبب مشاكل عند استخدام محرك بحث للبحث عن العبارات التي تدخل فيها، لا سيما في أسماء مثل 'المفعول به'، أو "رسول من الله"، "وهم".
قائمة
- في
- في
- كل
- لم
- لن
- له
- من
- هو
- هي
- قوة
- كما
- لها
- منذ
- وقد
- ولا
- لقاء
- مقابل
- هناك
- وقال
- وكان
- وقالت
- وكانت
- فيه
- لكن
- وفي
- ولم
- ومن
- وهو
- وهي
- يوم
- فيها
- منها
- يكون
- يمكن
- حيث
- الا
- اما
- التي
- التي
- أكثر
- ايضا
- الذي
- الذي
- الان
- الذين
- ابين
- ذلك
- دون
- حول
- حين
- إلى
- انه
- أول
- انها
- ف
- و
- و
- قد
- لا
- ما
- مع
- هذا
- واحد
- واضاف
- واضافت
- فان
- قبل
- قال
- كان
- لدى
- نحو
- هذه
- وان
- واكد
- كانت
- واضح
- ب
- ا
- أ
- ،
- عن
- عند
- عندما
- على
- عليه
- عليها
- تم
- ضد
- بعد
- بعض
- حتى
- إذا
- احد
- بان
- اجل
- غير
- بن
- به
- ثم
- اف
- ان
- أو
- اي
- بها[1]
مقالات ذات صلة
وصلات خارجية
- مشروع الكلمات المستبعدة العربية.
- الكلمات المستبعدة العربية في مشروع عربآيز
- الكلمات المستبعدة الإنجليزية
- الكلمات المستبعدة الإنجليزية (CSV)
- الكلمات المستبعدة الهندية
- الكلمات المستبعدة الألمانية
- الكلمات المستبعدة البولندية
مصادر
- "Arabic" en. مؤرشف من الأصل في 26 أبريل 201925 يناير 2020.
- أنطوان الدحداح. معجم قواعد اللغة العربية، لوحات وجداول،
- صفحة أساسيات البحث في غووغل.