مجموعة البيانات هي تشكيلة من البيانات وتُمثّل عادة على شكل جدول. كل عامود في الجدول يمثل متغير معين، وكل صف يعود إلى أحد عناصر مجموعة البيانات. يحدد هذا الجدول قيماً لكل متغير لهذا العنصر. مثلا، يمكن أن يحدد الطول والعرض لمجسم معين. يمكن أن تحتوي مجموعة البيانات على عنصر واحد أو أكثر بحسب عدد الصفوف.
يستخدم مصطلح مجموعة البيانات على نحو فضفاض أحياناً، فهي تشير في أحيان كثيرة إلى مجموعة بيانات في جداول مترابطة فيما بينها بعلاقات، مُشيرةً إلى تجربة أو حدث معين.
من منطلق البيانات المفتوحة يُشير مفهوم مجموعة البيانات إلى البيانات التي يتم إطلاقها في مستودع البيانات المفتوحة. فمثلاً تعداد مجاميع البيانات في البوابة الأوربية للبيانات المفتوحة هو نصف مليون مجموعة بيانات[1].
خصائص مجموعة البيانات
هناك العديد من السمات التي تميز خصائص وتركيبة مجموعة البيانات. وتشمل هذه عدد وأنواع الخصائص التي تمتلكها مجموعة البيانات، فضلاً عن المقاييس الإحصائية القابلة للتطبيق على كلٍ منها، مثل الإنحراف المعياري[2].
القيم الموجودة في مجموعة البيانات قد تتباين، مثلاً قد تكون الأرقام أرقاماً صحيحة أو أرقاماً حقيقية، مثلاً تمثيل طول الشخص يكون عادةً في السنتمترات. ولتمثيل عرق شخص معين تُستخدم تصنيفات يتم تكوينها مما يُعرف بمستويات القياس وهكذا يتم تحديد خصائص مجموعة البيانات.
في الإحصاء غالباً ما تأتي مجاميع البيانات من ملاحظات فعلية يتم الحصول عليها من نمذجة الجمهرة أو التعداد السكاني، ويرمز كل صف في مجموعة البيانات إلى عنصر واحد من التعداد السكاني. مجاميع البيانات قد يتم تكوينها أيضاً من خوارزميات معينة بغرض فحص برامجيات معينة. بعض برامجيات التحليل الإحصائي مثل إس.بي.إس.إس ما زالت تُمثل البيانات في نمط تقليدي لمجاميع البيانات، حيث يتم إكمال البيانات المفقودة أو المشتبه بها بطرق الإلصاق أو العزو المستخدمة لإكمال مجموعة بيانات معينة[3].
الأنظمة التقليدية لمجموعة البيانات
هناك عدة مجاميع بيانات تقليدية تستخدم على نطاق واسع في البحوث الإحصائية ومنها:
- مجموعة بيانات ايريس فلور: مجموعة بيانات متعددة المتغيرات قدمها رونالد فشر في عام 1936.
- قاعدة بيانات MNIST: صور لأرقام مكتوبة يدوياً، تستخدم عادة في اختبار التصنيفات، التكتلات، وخوارزميات معالجة الصور.
- الإحصائيات المتينة: مجاميع بيانات مستخدمة في الانحدار المتين وكشف النشوزات.
- بيانات بوبا ليفر: مستخدمة في أوراق بحثية عديدة وفي بحوث تعلم الآلة.
مراجع
- "European open data portal". European open data portal. European Commission. Retrieved 2016-09-23. نسخة محفوظة 02 أكتوبر 2017 على موقع واي باك مشين.
- Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. . نسخة محفوظة 28 أبريل 2017 على موقع واي باك مشين.
- United Nations Statistical Commission; United Nations Economic Commission for Europe (2007). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. . Retrieved 19 July 2015. نسخة محفوظة 21 أغسطس 2017 على موقع واي باك مشين.