البيانات الخام ، تُعرف أيضاً بإسم البيانات الابتدائية، وهي بيانات (مثل الأرقام، البيانات المقروءة آلياً، الأشكال التوضيحية، الخ) التي تُجمع من مصدر معين. إذا استخدم العلماء محراراً محوسباً ليقيس درجة حرارة المزيج الكيميائي في أنبوبة اختبار كل دقيق، فإن قائمة القراءات المتولدة من كل دقيقة سواء كانت مطبوعة على ورقة أو معروضة في شاشة الحاسوب هي بيانات خام. البيانات الخام هي البيانات التي لم تخضع لأي معالجة أو "تنظيف" من قبل الباحثين لإزالة القيم الشاذة، أخطاء الإدخال، الاخطاء الحاسوبية أو القيام بأي نوع من المعالجة (مثل تحديد المتوسط الحسابي أو النزعة المركزية) أو التحليل. وكذلك فإن البيانات الخام هي البيانات التي لم تخضع لأي تلاعب من قبل الإنسان سواء كان محللاً أو باحثاً أو فنياً ولم تخضع لأي تلاعب من قبل أي برنامج أيضاً. البيانات الخام هو مصطلح نسبي (انظر: البيانات)، لأنه حتى أكثر البيانات نقاوة لابد وأن تم تنظيفها مرة واحدة على الأقل، أو تمت معالجتها من قبل فريق من الباحثين ولكنها تبقى بالنسبة لفريق آخر من الباحثين بيانات خام أثناء مرحلة أخرى من مراحل البحث. البيانات الخام هي البيانات التي يمكن إدخالها إلى برنامج كمبيوتر أو استخدامها في الإجراءات اليدوية مثل تحليل الإحصاءات من إستقصاء إحصائي معين. مصطلح "البيانات الخام" يمكن أن يشير إلى البيانات الثنائية الإلكترونية على أجهزة التخزين مثل الأقراص الصلبة (يشار إليها أيضا باسم "البيانات منخفضة المستوى") كما قد يرتبط بالمصطلح هذا مصطلح الصور الخام التي تخرج من الكاميرا أو الماسح الضوئي دون أي معالجة أو تصغير.
توليد البيانات
البيانات تتولد عبر طريقتين، الأولى هو ما يُعرف بالبيانات الملتقطة[1]، وتوجد هذه البيانات من خلال التحقيق أو التحليل المتأني. والطريق الثانية تُعرف بالبيانات المستنزفة (exhaust data)[1]، وهي تُجمع كوظيفة ثانوية لآلات معينة، أو محطات خاصة بجمع البيانات. على سبيل المثال آلات تسجيل النقود، الهواتف المحمولة أو مقاييس السرعة، هذه الأجهزة لها وظيفة رئيسية لكنها وكعمل ثانوي تجمع البيانات. البيانات المستنزفة عادة ما تكون كبيرة جداً أو قليلة الاستخدام في عمليات المعالجة وغالباً ما تكون وقتية أي أنها تُحذف بإستمرار[1]. أما البيانات المشتقة فهي البيانات التي لها فائدة كافية في الطبيعة لتتم معالجتها بشكل ثانوي لإستخدام لاحق. ومن الأمثلة عليها: بيانات الهاتف المحمول، بيانات المرور، بيانات المستشفيات.
أمثلة
في الحوسبة, البيانات الخام تتمتع بالسمات التالية: أنها قد تحتوي على أخطاء بشرية أو آلية؛ وأنها قد تضم صيغاً متنوعة (عامية)؛ كما أنها تكون غير مرمزة وغير منسقة؛ بالإضافة إلى القيم الشاذة، التي تتطلب تأكيداً أو اقتباساً. على سبيل المثال إدخال البيانات من ورقة قد تحتوي على تواريخ وتتمثل البيانات الخام بالعديد من الأشكال: مثلاً "في 31 كانون الثاني / يناير 1999", "31/01/1999", "31/1/99", "31 يناير" ، أو "اليوم". التقاط هذه التواريخ يتطلب تحويلها إلى صيغة موحدة لتسهل قراءتها من قبل الإنسان أو الحواسيب. يتم التمييز بين البيانات و المعلومات بأن المعلومات هي المنتج النهائي من البيانات المعالجة.
على سبيل المثال، نقطة البيع (نقاط البيع الطرفية ، آلات تسجيل النقد) في سوبر ماركت مشغول بجمع كميات ضخمة من البيانات الخام كل يوم عن العملاء. القائمة من مواد البقالة و أسعارها ووقت وتاريخ الشراء لا تعطي الكثير من المعلومات حتى تتم معالجتها. وحالما تتم معالجتها وتحليلها بواسطة البرنامج أو حتى من قبل الباحث باستخدام القلم والورق والآلة الحاسبة، فإن هذه البيانات الخام قد تشير إلى عناصر معينة بأن كل عميل يشتري المادة الفلانية عند شراءه المادة الأخرى مثلاً.
تيم بيرنرز لي (مخترع الشبكة العنكبوتية العالمية) يرى بأن تبادل البيانات الخام مهم بالنسبة للمجتمع. وذلك تطبيقاً لمبدأ المعرفة المفتوحة، وهذا يعني أن الجميع يجب أن يطالبوا حكوماتهم والشركات بتبادل جميع البيانات الخام. ويشير بيرنرز لي إلى أن "البيانات تحرك جزءاً كبيراً مما يحدث في حياتنا... فقط لأن أحدهم يأخذ هذه البيانات يفعل شيئا بواسطتها"، ويرى بيرنرز لي بأن هذا التبادل سيؤدي إلى تقدم العلم. دعاة البيانات المفتوحة يقولون بأن المواطنين ومنظمات المجتمع المدني حالما يحصلون على البيانات المفتوحة فإن ذلك سيؤهلهم للقيام بالتحليلات المطلوبة وبالتالي سيزيد الأمر من قوة المجتمع المدني.
مقالات ذات صلة
مصادر
- Give Us the Data Raw, and Give it to Us Now - the blog post from Rufus Pollock that inspired Tim Berners-Lee
- Tim Berners-Lee Gives the Web a New Definition
مراجع
- كيتشن, روب (2014).