استخراج المعرفة هو إنشاء المعرفة من مصادر ( قواعد البيانات العلائقية ، XML ) ومصادر ( نص ، وثائق ، صور ) غير منظمة. يجب أن تكون المعرفة الناتجة بتنسيق يمكن قراءته آليًا وتفسيره آليًا ويجب أن تمثل المعرفة بطريقة تسهل الاستنتاج. على الرغم من أنها تشبه بشكل منهجي استخراج المعلومات ( NLP ) و ETL (مستودع البيانات) ، إلا أن المعيار الرئيسي هو أن نتيجة الاستخراج تتجاوز إنشاء المعلومات المهيكلة أو التحول إلى مخطط علائقي . يتطلب إما إعادة استخدام المعرفة الرسمية الحالية (إعادة استخدام المعرفات أو الأنطولوجيات ) أو إنشاء مخطط بناءً على البيانات المصدر. ويمكن لكل شخص استخراج البيانات ومعرفة قيمتها من خلال دراسة المحتوى العميق.
تقوم مجموعة RDB2RDF W3C [1] حاليًا بتوحيد لغة لاستخراج أطر وصف الموارد (RDF) من قواعد البيانات العلائقية . مثال شائع آخر لاستخراج المعرفة هو تحويل ويكيبيديا إلى بيانات منظمة وأيضًا رسم الخرائط للمعرفة الحالية (انظر DBpedia و Freebase ).
مراجع
- RDB2RDF Working Group, Website: http://www.w3.org/2001/sw/rdb2rdf/, charter: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: RDB to RDF Mapping Language: http://www.w3.org/TR/r2rml/