علم البيانات (Data science) علم يغلب عليه تداخل الاختصاصات والذي يقوم على استخدام الأساليب العلمية، والمعالجات والخوارزميات والنظم لاستخراج المعرفة والأفكار من البيانات بشكليها، سواء مُهيكلة، أو غير مهيكلة، بشكل مشابه للتنقيب في البيانات. كما يعتمد علم البيانات على تقنيات تعلم الآلة والذكاء الصناعي وبرامج معالجة البيانات الضخمة.
ويُعرف علم البيانات بأنه "مفهوم قائم على توحيد الإحصاء، وتحليل البيانات وتعلم الآلة والوسائل المرتبطة بهم من أجل فهم وتحليل ظاهرة فعلية باستخدام البيانات".
وهو يقوم بتوظيف نظريات وأساليب مستمدة من حقول معرفية متعددة في سياق الرياضيات والإحصاء وعلم المعلومات وعلوم الحاسب.
يتصور جيم غراي الفائز بجائزة تورينج بأن علم البيانات "نموذج رابع" للعلوم (التجريبية والنظرية والحسابية والآن البيانات)، وأكد أن "كل شيء عن العلوم يتغير بسبب تأثير تكنولوجيا المعلومات" وطوفان البيانات.[1][2]
في عام 2012 حينما أطلقت مجلة بيزنس هارفارد ريفيو على علم البيانات "بأنها الوظيفة الأكثر إثارة في القرن الحادي والعشرين، أصبح علم البيانات عبارة شائعة. وتُستخدم الآن بصفة تبادلية مع المفاهيم السابقة مثل تحليل الأعمال، وذكاء الأعمال، والتحليل التنبؤي، والإحصاء. حتى أن هانز روزلينج أعاد صياغة عبارة علم البيانات مثير، في وثائقي هيئة الإذاعة البريطانية عام 2011 في تلك المقولة: "أصبحت الإحصاء الآن أكثر الموضوعات المحيطة بنا إثارة". وأشار نيت سيلفر إلى أن علم البيانات قد جعل من الإحصاء أكثر إثارة. وفي حالات عديدة أعُيد تسمية العديد من المناهج والحلول السابقة بعلم البيانات لكي تصبح أكثر جاذبية. وفي حين تقدم بعض الجامعات حالياً شهادات في علم البيانات، غير أنه لا يوجد توافق في الآراء حول تعريف أو محتويات المناهج المناسبة.
التاريخ
مصطلح "علم البيانات" (الذي استخدم في الأصل بالتبادل مع "Datalogy") موجود لأكثر من ثلاثين عاما، وكان يستخدم في البداية كبديل عن علوم الكمبيوتر من قبل بيتر ناور في عام 1960. حيث في عام 1974، نشر بيتر ناور مسح موجزة لأساليب الكمبيوتر، والتي استخدم مصطلح "علم البيانات" بحرية في دراسته لطرق معالجة البيانات المعاصرة التي تستخدم في مجموعة واسعة من التطبيقات.
المهام الأساسية لعالم البيانات[3][4]
على الرغم من أن كل من محللي وعلماء البيانات يتشاركون العديد من الأهداف والمهام إلا أنه هناك بعض الاختلافات.
هذه قائمة قصيرة بأهم المهام والأهداف التي يعمل عليها
1-التنبؤ بقيم معينة بناءً على بيانات قديمة.
• التنبؤ بإجمالي الربح الذي سوف تحصل عليه الشركة خلال الشهر القادم.
• التنبؤ بعدد المستخدمين الجدد للتطبيق في شهر معين.
2-عمليات التصنيف | Classification
• تصنيف البريد الإلكتروني بأنه غير هام أو هام.
3-بناء أنظمة التوصية | Recommendation Systems
• عندما تقوم بعملية شراء لمنتج ما، سوف تلاحظ وجود قائمة تخبرك بمنتجات شبيه بالمنتج الذي اخترته.
• أنظمة التوصية في مواقع مشاهدة الأفلام.
4- الكشف عن الأنماط | Pattern Detection
•اكتشاف العلاقات بين البيانات الموجودة التي لا يمكن الكشف عنها بالطرق التقليدية.
5-التحليل الاستكشافي للبيانات | Exploratory Data Analysis
•إجراء بعض العمليات على البيانات لفهم طبيعتها والحصول على فكرة أولية عما تحتويه من معلومات.
6-قياس جودة أداء الخوارزميات وتحسين نتائجها.
الاختلافات الأساسية بين عالم البيانات و محلل البيانات[3]
- إن محلل البيانات يركز بشكل أساسي على معالجة وتحليل البيانات واستخراج معرفة منها تفيد الأعمال في تفسير الماضي والوقت الحاضر. أما عالم البيانات فيقوم بتطوير وبناء خوارزميات ونماذج لتحليل البيانات واستخراج معرفة منها تفيد في تفسير الماضي والحاضر، والتنبؤ بالمستقبل!
- محلل البيانات يقوم بالإجابة على أسئلة محددة طرحت من قبل أشخاص آخرين (معظم الأحيان). أما عالم البيانات يقوم باكتشاف وصياغة الأسئلة (متبعاً المنهج العلمي) التي تسعى إلى حل مشاكل غير منتبه عليها أو غير ظاهرة بعد.
- محلل البيانات عادةً ما يقوم باستخدام برامج وتطبيقات جاهزة لتساعده في جميع أعماله. أما عالم البيانات بالإضافة إلى استخدام الأدوات والبرامج، فهو قادر على بناء أنظمة أو تطبيقات خاصة به لتقوم بالعمل.[3][5]
محلل البيانات
يهتم بشرح وفهم الماضي |
عالم البيانات
يركز على تحسين المستقبل |
---|---|
تقرير شهري بأكثر الأفلام والمسلسلات مشاهدة على الموقع. | التنبؤ بعدد مشاهدات فيلم معين قبل طرحه. |
جمع وتحليل البيانات الخاصة باستبيانات رضا المستخدمين. | بناء نظام توصية للأفلام. |
تحليل المناطق/البلاد التي يتواجد فيها عدد كبير من المستخدمين وإبلاغ قسم التسويق بنتائج التحليل. | اكتشاف أنماط وعلاقات بالبيانات الموجودة باستخدام خوارزميات تعلم الآلة واستخدام هذه الاكتشافات في تحسين خدمات الموقع. |
إعداد التقارير الخاصة بمؤشرات الأداء الرئيسية الخاصة بالشركة. (KPI)
(عدد المشتركين الجدد-إجمالي الربح الشهري-عدد الأشخاص الذين يخرجون من الفيلم قبل نهايته-...) |
تطبيق خوارزميات التصنيف (Classification) لتحليل الصور الموجودة في فيلم معين وتصنيفه في إحدى الفئات التالية:
-يحتوي مشاهد سيئة -لا يحتوي مشاهد سيئة وفي حال كان عمر المشاهد غير مناسب فسيتم تنبيهه تلقائياً. |
مراحل عملية علم البيانات[3]
1-الحصول على البيانات المتعلقة بالموضوع الذي تريد أن تكتشفه أو المشكلة المراد حلها.
2-معالجة البيانات والتأكد من صحتها وخلوها من الأخطاء التي من الممكن أن تؤثر على النتائج.
3-القيام بالتحليل الاستكشافي للبيانات للحصول على نظرة شاملة عن البيانات المتعامل معها.
4-بناء، تطوير، وتطبيق الخوازميات والنماذج اللازمة لحل المشكلة والحصول على النتائج.
5-عرض النتائج النهائية على أصحاب القرار.
أقسام علم البيانات[6]
اكتشاف وفهم البيانات
يهتم هذا القسم في اكتشاف المعرفة داخل البيانات. لتمكين الأعمال من اتخاذ قرارات تحقق لهم فائدة أكبر
حيث يعتمد بشكل كبير على علم الاحصاء (تحليل البيانات الكمي والنوعي).
على سبيل المثال تطبيق موبايل لبيع الملابس يعمل على أجهزة الأيفون والاندرويد.
البيانات (Data): أطهرت البيانات أنه خلال الشهر الماضي تم استخدام التطبيق من قبل 5000 مستخدم.
التحليلات(Analytics): يمكن استخدام التحليلات لإيجاد عدد المستخدمين الذين استعملوا التطبيق من خلال الايفون.
فهم التحليلات(Insights): من الممكن اكتشاف أن مستخدمي الايفون هم أقل احتمالاً للشراء عبر التطبيق بنسبة 40%.
الخطوة التالية تتمثل بمعرفة السبب وراء انخفاض نسبة التعاملات باستخدام اجهزة الايفون مقارنة بباقي الأجهزة.
هل يمكن أن يتعلق هذا الأمر بصعوبة وتعقيد واجهة استخدام التطبيق في الايفون؟
فإذا كان الأمر صحيحاً، فإن جعل واجهة الاستخدام بسيطة أكثر، سوف يرفع من احتمال عملية شراء المنتجات عبر المستخدمين الذين يملكون أيفون.
تطوير منتجات مرتبطة بالبيانات[6]
يستخدم هذا القسم البيانات الموجودة لدى الشركة، كمدخلات إلى الخوارزميات والنماذج التي يقوم ببنائها “عالم البيانات”. يعتمد هذا القسم بشكل كبير على معرفة الشخص بعلم الحاسوب و خوارزميات تعلم الآلة والذكاء الصنعي.
أمثلة
- Google Search عندما تقوم بالبحث عن شيء معين، فإن محرك البحث غوغل لا يقوم بعرض النتائج المتعلقة بهذه الكلمة فقط، بل يستخدم جميع البيانات التي يمكن الحصول عليها من المستخدم لعرض أفضل نتيجة ممكنة. النتائج سوف تتعلق بالأمور التي قمت بالبحث عنها سابقاً، بمكانك الجغرافي ( في أي بلد أنت )، بتحليل الأمور التي تحبها. عمرك وجنسك، والعديد من الأمور الأخرى.
- Spell Checking حيث يقوم غوغل بمراقبة الكلمات التي يقوم المستخدم بالضغط عليها حتى يقوم بتحسين الخوارزمية الخاصة بتصحيح الأخطاء الإملائية.
- Gmail يقوم باستخدام خوارزمية معينة بتصنيف رسائل البريد الإلكتروني بين رسائل مهمة أو رسائل مزعجة.
- Netflix يعد استخدام نظم التوصية Recommendation systems من أحد أهم الأمور الموجودة في هذا المجال، حيث تقوم بالاعتماد على اهتمامات المستخدم ونمط الأفلام التي يشاهدها، والأفلام الأخيرة التي شاهدها وجنسه وعمره، والتقييمات التي وضعها على الأفلام بتوصية أفلام جديدة من الممكن أن تعجب المستخدم.
المراجع
- Tansley, Stewart; Tolle, Kristin Michele (2009). The Fourth Paradigm: Data-intensive Scientific Discovery (باللغة الإنجليزية). Microsoft Research. . مؤرشف من الأصل في 25 يناير 2020.
- Bell, Gordon; Hey, Tony; Szalay, Alex (2009-03-06). "Beyond the Data Deluge". Science (باللغة الإنجليزية). 323 (5919): 1297–1298. doi:10.1126/science.1170411. ISSN 0036-8075. PMID 19265007. مؤرشف من الأصل في 01 يناير 2019.
- "الفرق بين عالم البيانات و محلل البيانات | Data Science عربي". Data Science عربي. 2018-04-22. مؤرشف من الأصل في 10 ديسمبر 201907 سبتمبر 2018.
- Zhu, Yangyong; Xiong, Yun (2015-05-22). "Towards Data Science". Data Science Journal (باللغة الإنجليزية). 14 (0). doi:10.5334/dsj-2015-008. ISSN 1683-1470. مؤرشف من الأصل في 02 ديسمبر 2017.
- "What Is Data Science, and What Does a Data Scientist Do?". www.kdnuggets.com (باللغة الإنجليزية). مؤرشف من الأصل في 13 أبريل 201907 سبتمبر 2018.
- "تعرف على علم البيانات | Data Science عربي". Data Science عربي. 2018-03-08. مؤرشف من الأصل في 10 ديسمبر 201907 سبتمبر 2018.