تمثل معالجة البيانات الكبيرة تحدياً جديداً في مجال الحوسبة، وخاصة في مجال الحوسبة السحابية. تتضمن عملية معالجة البيانات اقتناء و تخزين البيانات و تحليلها. كيف تتم معالجة البيانات الكبيرة في الحوسبة السحابية؟ و ما هي العلاقة بين البيانات الكبيرة والحوسبة السحابية؟ سوف يجيب هذا البحث عن هذه الأسئلة بعد تقديم استعراض عام عن البيانات الكبيرة (أي تعريفها و خصائصها و تصنيفاتها) ثم سوف يشرح بشكل عام تكنولوجيا الحوسبة السحابية، و أخيرا سوف يستعرض البحث بعض التحديات الرئيسية التي تواجهها معالجة البيانات الكبيرة في بيئات الحوسبة السحابية.
المقدمة
تشكل البيانات الكبيرة مع الحوسبة السحابية الأساس لكوكب أكثر ذكاءً. لقد أصبحت حياتنا تعتمد بشكل كبير على الحوسبة السحابية فمعظم الأعمال التجارية و الطبية و الاجتماية و السياسية و حتى المؤسسات الشخصية أصبحت تعتمد على تكنولوجيا الحوسبة السحابية لإنجاز مهامها. في هذا العصر أصبحت كثير من الدول المتقدمة تعتبر الانترنت و تكنولوجيا الحوسبة السحابية المورد الخامس من الموارد العامة الرئيسية بعد الماء و الكهرباء و النفط و النفط و الغاز. على الرغم من أن هذا ليس هو الحال في الدول النامية و لكن في معظم الدول حتى النامية منها و في كل يو تقريبا فإن أي شخص عادي قد يحتاج إلى استخدام البريد الإلكتروني وتخزين الملفات (لتخزين الموسيقى أو الفيديو مثلاً )، ويحتاج إلى استخدام وثائق جوجل، والشبكات الاجتماعية و العديد من التطبيقات السحابية الأخرى. أيضاً في العمل اليومي لأي شركة فإنها قد تحتاج للاتصال بموظفيها من أي مكان في العالم و في أي وقت. حياتنا ليست غائمة فحسب، بل إنها أيضا تمطر بالبيانات. إن هناك زيادة سريعة في كمية البيانات التي تنتشر في الحوسبة السحابية. على سبيل المثال، في الربع الثالث من عام 2015 كان الفيسبوك يضم أكثر من مليار مستخدم نشط كل يوم مع أكثر من ثلاثة مليون رسالة أرسلت كل 20 دقيقة [1]. موقع تويتر كذلك كان يضم أكثر من 316 مليون مستخدم نشط شهريا [2] بالإضافة إلى أكثر من 58مليون تغريدة كل يوم. هذا بالإضافة كميات ضخمة من البيانات التي يتم إنشاؤها على شبكة الإنترنت من خلال العديد من الشركات التجارية و الحكومات الإلكترونية و غيرها الكثير من المؤسسات التي تعتمد على الانترنت. تأتي قوة البيانات الكبيرة جنبا إلى جنب مع قوة الحوسبة السحابية حيث يدخل العالم عصراً جديداً من تكنولوجيا المعلومات هو عصر تكنولوجيا الحوسبة السحابية المصحوب بكميات هائلة من البيانات المنشرة على الانترنت و التي تحتاج لمعالجة و تخزين. إنّ معالجة البيانات الضخمة في البيئات المحلية التي لا تستخدم الانترنت ليسة بالعملية السهلة حيث أنّ أنظمة إدارة قواعد البيانات التقليدية (DBMS) ليست مناسبة لمعالجة هذه الكميات الهائلة من البيانات. غير أن الوضع في بيئات الحوسبة السحابية يصبح أكثر تعقيداً. كثير من الشركات المختصة في صناعة تكنولوجيا المعلومات اهتمت بمعالجة هذا الوضع و أنتجت العديد من التقنيات للتعامل معه. يستعرض هذا البحث بعض التقنيات التي تتعلق بتحليل وتخزين البيانات الكبيرة في بيئات الحوسبة السحابية. في القسم الثاني من المقدمة يستعرض البحث بعض البحوث والدراسات التي أجريت حول العلاقة بين البيانات الضخمة والحوسبة السحابية. القسم الثاني من البحث يعرض بشكل عام مفاهيم البيانات الكبيرة و خصائصها. القسم الثالث هو نظرة عامة على تكنولوجيا الحوسبة السحابية. امّا القسم الرابع من هذه البحث فهو يناقش العلاقة بين البيانات الكبيرة والحوسبة السحابية. و يصف مراحل معالجة البيانات الكبيرة (من استعلام وتخزين وتحليل) في بيئات الحوسبة السحابية. القسم الخامس يستعرض بعض التحديات الرئيسية التي تواجهها البيانات الكبيرة في الحوسبة السحابية. أخيرا يلخص القسم السادس كل ما جاء في هذا البحث و يضيف بعض الملاحظات الاستنتاجية.
مراجعة أدبية
تعتبر البيانات الكبيرة و الحوسبة السحابية تقنيات جديدة. حيث تم اقتراح مفهوم الحوسبة السحابية في عام 2006 [3] من قبل إريك شميدت (الرئيس التنفيذي لجوجل)، حيث استخدم كلمة سحابة لوصف نموذج توفير الخدمات والتطبيقات عبر الإنترنت. إنّ 90٪ من البيانات في العالم تم إنشائها في العامين الماضيين، حيث أن البيانات عبر الإنترنت تتزايد بطريقة سريعة. معظم الشركات المهتمة في مجال التكنولوجيا اهتمت بعصر التكنولوجيا الجديد و هو عصر الحوسبة السحابية التي تحتوي بيانات ضخمة و اعتبرتها الجيل القادم في تكنولوجيا الانترنت. اهتم العديد من الباحثين بدراسة العلاقة التكاملية بين تكنولوجيا الحوسبة السحابية و تكنولوجيا البيانات الضخمة حيث استحوذت دراسة الوضع الحالي و المستقبلي لهذه العلاقة على اهتمام كثير من الباحثين ref> > د. أغراوال، س. داس، وعبد المنعم العبادي، "البيانات الكبيرة والحوسبة السحابية: الحالة الراهنة والفرص المستقبلية"، في وقائع المؤتمر الدولي ال14 لتكنولوجيا توسيع قاعدة البيانات، ص 530-533، ACM، 2011. ( بالانجليزية)</ref>. بعض الأبحاث الأخرى ركزت على التحديات الأمنية التي تواجهها معالجة البيانات الضخمة في البيئات السحابية [4]. و ناقشت أبحاث أخرى التقنيات و الأسايب المستخدمة في تحليل البيانات الكبيرة في البيئات السحابية [5][6][7][8] وكيف يمكن للحوسبة السحابية أن تكون محفزاً لتحليل البيانات الكبيرة [9]. هناك ابضا خدمات خاصة مؤسسة على تحليل البيئات السحبية تم اقتراحها بناء على درسات تجريبية على المدن الذكية. وقدم الباحثون أيضاً إرشادات للعملاء حول كيفية استخدام تطبيقات البيانات الكبيرة في البيئات السحابية. العديد من الأبحاث استعرضت مفاهيم و أساسيات البيانات الكبيرة و ظهورها في البيئات السحابية [10][11]. أمّا هذا البحث فقد ركز على العلاقة بين هاتين التقنيتين من خلال دراسى ة و وصف حيازة و تخزين و تحليل البيانات الكبيرة في الحوسبة السحابية.
البيانات الكبيرة
يطلق مصطلح البيانات الكبيرة على الكمية الهائلة من البيانات كبيرة الحجم ذات السرعة عالية والأنواع مختلفة هذه البيانات لا يمكن أن تتم معالجتها و تخزينها في أجهزة الكمبيوتر العادية. يمكن تلخيص الخصائص الرئيسية للبيانات الكبيرة و التي تسمى 4V’s بما يأتي:
1) الحجم :(Volume)كمية هائلة من البيانات ( مستوى تيرابايت Terabytes وبيتابايتPetabytes وأكثر).
2) السرعة(Velocity): لهذه الخاصية ثلاثة أبعاد: •البيانات في الحركة: على سبيل المثال الوقت بين زيارة صفحة ويب والنقر قبل الزائر. •العمر المرافق للبيانات: الوقت الذي تظل فيه البيانات قيّمة. •الوقت الحقيقي لتحليل البيانات الكبيرة: هي السرعة التي يجب أن يتم بها تخزين البيانات واسترجاعها. 3) التنوّع(Variety): أنواع مختلفة من البيانات مثل الوثائق والرسوم البيانية والصوت والفيديو والرسائل النصية، التي تأتي من مصادر مختلفة مثل وسائل الإعلام الاجتماعية ورسائل البريد الإلكتروني وإشارات GPS و البيانات الطبية و غيرها. حيث يمكن تصنيف محتوى البيانات إلى مهيكلة و غير مهيكلة(structured and unstructured). 4) القيمة (Value): الهدف من البيانات حيث أنه يمكنك الوصول إلى البيانات بسهولة ولكن بالتأكيد يهمك قيمة هذه البيانات. إنّ درجة دقة البيانات تعطيها قيمة أيضاً. من أجل التعامل مع البيانات واسعة النطاق في البيئات السحابية تصنف البيانات الكبيرة إلى خمس فئات على أساس: مصدر البيانات، شكل المحتوى، ومخازن البيانت، ومراحلها و معالجتها.
الحوسبة السحابية
تستخدم كلمة سحابة في الحوسبة السحابية للدلالة على الانترنت [12]. هذا النوع من الحوسبة يختلف عن الحوسبة التقليدية الأخرى في أنّ هذا النوع من الحوسبة ينفذ على موارد الحوسبة المشتركة بدلا من أجهزة الكمبيوتر المحلية حيث يتم استضافة مختلف الخدمات و تلقيها من خلال شبكة الانترنت. لم تتطور تكنولوجيا الحوسبة السحابية في آن واحد، فقد تطورت من خلال عدد من التقنيات المتقدمة مع مرور الوقت، مثل الحوسبة الشبكية، الحوسبة الخدمية المقترحة في 1990s، وتكنولوجيا البرمجيات كخدمة( Software as (Service المقترحة في عام 2001. و أخيرا تم اعتبار تكنولوجيا الحوسبة السحابية لتكون الجيل القادم من حوسبة الانترنت.
تصنيف الحوسبة السحابية
يمكن تصنيف تطبيقات الحوسبة السحابية وفقا لنوع الخدمة أو أسلوب النشر 1) التصنيف حسب نوع الخدمة: •البنية التحتية كخدمة (Infrastructure as a Service(IaaS))تزود الدعم المادي مع التخزين الظاهري والخوادم. كما تدعم خدمة الشبكة أيضاً. يمكن للمستخدمين استخدام هذه التطبيقات وفقا لاحتياجاتهم. أمثلة: Amazon Elastic Cloud Computing (EC2), Google Compute Engine (GCE), Microsoft Azure •المنصات كخدمة (Platform as a Service(PaaS)) تدعم الاستضافة حيث يمكن للمستخدمين تطوير تطبيقاتهم بناءً على قواعد معينة. الأمثلة على ذلك: محرك تطبيقات جوجل. (Google’s Apps Engine.) •البرمجيات كخدمة (Software as a Service (SaaS)) توفر التطبيقات التي تسخدم عبر التصفح أو التطبيقات التي يمكن استخدامها مباشرة. من الامثلة على ذلك نظام دارة العلاقات مع الزبائن CRM Customer Relationship Management التي توفرها شركة سيلزفورس Salesforce و مستندات جوجل Google Docsو الجيميل Gmail وcisco WebEx . 2) التصنيف حسب طريقة النشر: لحل مشاكل الأمن والموثوقية والتنظيمية في البيئات السحابية تم تصنيفها إلى ثلاث فئات لتحديد العلاقة بين مقدمي الخدمة والمستخدمين. •السحابة العامة: يتم تقاسم السحابة بين مقدمي الخدمات والمستخدمين. •سحابة خاصة: يتم استخدام السحابة من جانب مقدمي الخدمات. يمكن للمستخدمين الأعضاء فقط تبادل الموارد السحابية. •سحابة الهجين: هو مزيج من الطريقتين السابقة.
خصائص الحوسبة السحابية
الحوسبة السحابية تختلف عن الحوسبة التقليدية في حجمها الكبير والعديد من الميزات الأخرى: الافتراضية (Virtualization:) توفر منصات سحابية بناء على نسخ افتراضية من التطبيقات بدلا من تلك المادية. وهذا يساعد في نقلها عبر البيئات السحابية ومراكز البيانات. •الديناميكية (المرونة)( Dynamic (flexibility)): توفر المنصات السحابية إمكانية إجراء تغييرات في الحجم بناء على احتياجات المستخدمين. •مقياس اقتصادي Economies of scale: نطاق واسع من موارد منصات الحوسبة السحابية يمكنها السيطرة على رسوم الإيجار أو استخدام هذه الموارد مما يؤدي إلى زيادة أو تقليل عدد المستخدمين. •الخدمة على الطلب: (On demand service): المنصات السحابية تتيح للمستخدمين تحديد حجم الموارد بناء على احتياجاتهم. •إمكانية عالية (High reliability): المنصات السحابية عادة تتيح استخدام النسخ الاحتياطية لزيادة الموثوقية وتتيح استخدام نظم إدارة الشبكات الديناميكية لزيادة الكفاءة والأداء.
العلاقة بين الحوسبة السحابية و البيانات الكبيرة
إنّ العلاقة بين البيانات الكبيرة والحوسبة السحابية هي علاقة تكاملية. الحوسبة السحابية هي نهج التكنولوجيا الجديدة في حين أن البيانات الكبيرة هي ظاهرة البيانات الضخمة المتزايدة بطريقة سريعة. تتيح تكنولوجيا البيانات الكبيرة للمستخدمين معالجة الاستعلامات الموزعة من مجموعات مختلفة من البيانات والحصول على النتائج في الوقت المناسب [5]. بينما توفر الحوسبة السحابية المحرك الأساسي للقيام بذلك [7]. تم تصميم نظم إدارة قواعد البيانات التقليدية للبنية التحتية للمؤسسات المحلية، وهي تفتقر إلى الكثير من الميزات السحابية [13]. معالجة البيانات الكبيرة في البيئة السحابية تتطلب تقنيات خاصة حيث أنها تتطلب بنية تحتية مناسبة، وأنظمة تخزين واستعلام خاصة وطرق تحليل خاصة أيضاً.
استخراج البيانات الكبيرة في البيئات السحابية
الخطوة الأولى في تحليل البيانات هو الحصول على البيانات أو استخراجها. بل هو شرط أساسي لمعالجة البيانات. ويشمل الحصول على البيانات خطوات تحضيرية مثل استخراج البيانات وتحويلها وتحميلها (ETL: Extraction, Transformation, Loading)). ويشمل تحضيرها أيضاً تصفية البيانات وتنظيفها. في البيئات السحابية هناك أنواع مختلفة من المعلومات مثل النصوص والصور وURL التي تأتي من مصادر مختلفة مثل مواقع وسائل الاعلام الاجتماعية، ومحركات البحث والمواقع التجارية، كلها تدخل في عملية استخراج البيانات. أدوات ETL تستخدم في تحويل وتنظيف أنواع مختلفة من البيانات غير المتجانسة والموزعة وتحميلها على نظام تخزين مناسب (مثل مستودعات البيانات). أدوات ETL للبيانات الكبيرة تختلف عن عنها في ETL التقليدية في سرعة إنتاج البيانات وحجم البيانات. يجب أن تتضمنن أدوات ETL المستخدمة للبيانات الكبيرة اختيار التكنولوجيا الحديثة مثل قواعد البيانات الموزعة و المعالجة في وقت مناسب.
تخزين البيانات الكبيرة في البيئات السحابية
في الوقت الحاضر هناك الكثير من تطبيقات الويب الفردية التي يمكن أن تولد كمية كبيرة من البيانات كل ثانية، على سبيل المثال في كل يوم يتم تخزين 500 تيرابايت من البيانات في قواعد بيانات الفيسبوك [6] و أكثر من 360 تيرابايت من البيانات يتم تحميلها على موقع يوتيوب. إنّ نمو البيانات في البيئات السحابية يتزايد بشكل كبير و سريع مع ازدياد عد المستخدمين المتصلين بالانترنت حول العالم. مع هذا النمو السريع فإن السؤال الذي يتبادر إلى الذهن هو كيف يمكن تخزين هذه الكميات الهائلة من البيانات في البيئات السحابية؟ نحن بحاجة إلى تقنية التخزين التي تلبي احتياجات النمو السريع للبيانات على السحابة، نحن بحاجة إلى تقنية تخزين مع تكلفة منخفضة، وموثوقية عالية وإمكانية عالية. يمكن تصنيف طرق تخزين البيانات الكبيرة في البيئات السحابية إلى نوعين: أنظمة الملفات الموزعة وقواعد البيانات الموزعة. تستخدم أنظمة الملفات الموزعة لدعم تخزين كميات كبيرة من الملفات. لحل مشكلة تخزين عدد كبير من صفحات الويب وضعت جوجل نظام تخزين الملفات جوجل( GFS) [14] ولكن مشكلته أنه ليس مفتوح المصدر. ياهو والمجتمعات الأخرى وضعت نظام مفتوح المصدر مبني على GFS أسمته Hadoop Distributed File Systems (HDFS) [15] نظام تخزين الملفات الموزعة ( (HDFS يقوم بتخزين كمية كبيرة من الملفات حيث يتم تقسيمها إلى عدة كتل clusters.حيث تتكون كل كتلة من مجموعة من العقد nodes . كتلة Hadoop هي مجموعة من الخوادم و مجموعة HDFS’s تقوم بتوزيع و تخزين البيانات عبر كافة العقد في هذه المجموعة. كتلة HDFS تشمل ثلاث عقد: 1.عقدة الاسم NameNode تعمل كعقدة رئيسية و هي التي تسيطر على تخزين المجموعات. إنها تقسم البيانات إلى مجموعات، كل مجموعة يتم نسخها ثلاث مرات وتخزينها في الكتلة. 2.عقدة البيانات DataNode تعمل على عقد الخوادم و توفر إمكانية السماح بالخطأ. إذا فشلت عقدة الخادم تضمن النسخ القادمة من NameNode التأكد من أن النظام لن يتوقف أو يفشل في هذه الحلة. 3.جهاز العميل Client Machine يمكن أن يكون DataNode أو NameNode، يكون نظام Hadoop مثبتاً عليه. يقوم بتحميل البيانات في الكتلة، يقدم وظائف إلى MapReduce ويظهر نتائج المهمة عندما تكتمل. أمّا قواعد البيانات الموزعة NoSQL فإنها تُسخدم لتلبية احتياجات تحليل ومعالجة كميات كبيرة من البيانات غير المهيكلة أو غير المنظمة. وقد حلت قواعد بيانات NoSQL مشاكل التزامن، والتدرجية، والتسامح مع الخطأ التي واجهت قواعد البيانات العلائقية التقليدية. و مثل قاعدة بيانات SQL التقليدية (لغة الاستعلام الهيكلية) يستخدم NoSQL أيضا الاستعلامات ولكنها لا تتقييد باستخدامها وحدها فقد تستخدم لغات أخرى غير SQL. هناك أربعة أنواع منNoSQL: مخزن مفتاح القيمKey-Value store يحتوي على جدول من المفاتيح والقيم (على سبيل المثال(Riak, Amazon S3),)، و المخزن القئم على الوثائق document based store حيث تتكون الوثائق من عناصر مختارة. و المخزن القائم على العمودColumn based store الذي كل كتلة فيه تحتوي بيانات من عمود واحد فقط (مثل HBase) والمخزن القئم على الرسم البيانيGraph based store حيث تستخدم قاعدة بيانات الشبكة الحواف والعقد لتمثيل وتخزين البيانات (مثل Neo4J). لحل مشكلة التعامل مع مجموعة متنوعة من البيانات الكبيرة، وضعت جوجل نظام قاعدة بيانات وزعت على أساس المخزن القائم على العمود يسمى BigTable [16] يعمل على تقديم تحليل للبيانات الكبيرة غير المتناسقة. نموذج البيانات من BigTable يتكون من الصفوف والأعمدة، والطوابع الزمنية. يتم تخزين البيانات في الخلايا. يتكون القرص من العديد من الصفوف ويتم حفظها إلى عقدة الخادم.
تحليل البيانات الكبيرة في الحوسبة السحابية
ينقسم تحليل البيانات الكبيرة في البيئات السحابية إلى نوعين ريئسيين batch offline و real time في النوع الأولbatch offline تتم معالجة مجموعات كبيرة من البيانات تلقائيا دون أي تبادل أو مراقبة من قبل المستخدم. بعد جمع البيانات، تتم معالجة جميع البيانات في وقت واحد. و من الأمثة عليها: Hadoop و.MapReduce . MapReduce هو نموذج البرمجة التي وضعتها جوجل على أساس GFS لتجهيز عدد كبير من مجموعات البيانات. ويستخدم مجموعة واسعة النطاق لأداء المهام والعمليات الموازية تلقائيا باستخدام برنامج مثل Hadoop. ويمكن تطبيقها على البحث في مواقع الويب وتطبيقات الويب الأخرى. الخوارزمية MapReduce تشمل وظيفتين: وظيفة Mapلتحويل العناصر في نوع من قائمة إلى نوع آخر و وضعها مرة أخرى في نفس النوع من القائمة. ثم يتم تنفيذ التصفية وعمليات الفرز. وظيفةReduce لجمع العناصر الموجودة في القوائم المخرجات من Map وأداء بعض الحسابات على كل منهم للحد منها في قيمة واحدة. Hadoop هو برنامج مفتوح المصدر يعتمد على HDFS. و هو يعمل على معالجة البيانات الموزعة معالجة فعالة وموثوق بها لكميات هائلة من البيانات. وقد وضعت Hadoop أساسا عن طريق Yahoo لحل مشكلة البيانات الكبيرة عن طريق كسر البيانات إلى قطع صغيرة يمكن معالجتها بشكل متواز. يضم Hadoopاثنين من الأنظمة الرئيسية: تخزين HDFS ومحرك MapReduce. Hadoop MapReduce [17][18] هو تنفيذ لخوارزمية MapReduce. تم تطويره من قبل مشروع أباتشي و يشمل عدة مراحل، كل مرحلة لها مجموعة من العمليات لإخراج النتيجة المرجوة للمستخدم. تبدأ العملية عند طلب المستخدم لتشغيل برنامج MapReduce وتستمر حتى تتم كتابة النتائج إلى HDFS.
وقد وُضعت العديد من الأنظمة القائمة على Hadoop وMapReduce. على سبيل المثال، أباتشيHive [19] هو برنامج مستودع البيانات على أساس Hadoop. هو يستخدم لإدارة والاستعلام عن مجموعات كبيرة من البيانات في تخزين الموزعة. مثل لغة SQL، خلية لديها لغتها الخاصة بها ودعا HiveQl. في الوقت الحقيقي real time analysis عندما يتم إدخال البيانات من قبل المستخدم يتم معالجتها فورا ويحتاج المستخدم إلى الانتظار لفترة وجيزة لا تتجاوز ميلي ثانية (مثل نظم الحجز). من الأمثلة على الحوسبة التفاعلية دريميل جوجل و سبارك [20] وإمبالا [21]
التحديات الرئيسية
التعامل مع البيانات كبيرة في مجال الحوسبة السحابية لا يزال لديه الكثير من التحديات الرئيسية. واحدة من هذه التحديات هي قدرة تخزين [22][23] للتعامل مع كميات متزايدة من البيانات بطريقة مناسبة. ميزات الحوسبة السحابية ليست مناسبة لدعم RDBMS. وقد أدى هذا إلى تطوير قواعد بيانات ال NoSQL. التحدي الآخر هو توافر البيانات المخزنة في السحابة. مع تزايد عدد المستخدمين السحابية ومقدمي الخدمات السحابية يجعل من الضروري معالجة مسألة جعل البيانات المطلوبة متوفرة للمستخدمين لتقديم خدمات ذات جودة عالية في الوقت المناسب. عدم التجانس هو أيضا تحدي آخر لللتعامل مع البيانات الكبيرة في الحوسبة السحابية. إنّ هناك مجموعة متنوعة من البيانات الكبيرة نتيجة لنمو مصادر مختلفة غير محدودة من البيانات و هذا النمو يؤدي إلى صفة عدم التجانس للبيانات الكبيرة. البيانات التي تأتي من مصادر متعددة عادة ما تكون من أنواع وأشكال تمثيلية مختلفة مترابطة إلى حد كبير، لديها صيغ غير متوافقة و ممثلة بشكل غير متناسق. ويتمثل التحدي هنا في كيفية التعامل مع مصادر و أنواع بيانات متعددة. الخصوصية أيضاً [24] تشكل تحديا آخر في الحوسبة السحابية للبيانات الكبيرة. التطوير في استخراج البيانات الكبيرة و تحليلاتها تتطلب معلومات شخصية من الأفراد لتحقيق نتائج ذات الصلة، مثل الشخصية، والمكان استنادا إلى الخدمة المطلوبة و في هذه الحالة فإنه من الضروري حماية المعلومات الشخصية للأفراد.
الخلاصة
لقد بين هذا البحث العلاقة التكاملية بين تقنيات الحوسبة السحابية و البيانات الكبيرة وكيف يتم التعامل مع البيانات الكبيرة في بيئات الحوسبة السحابية. بالإضافة إلى تقديم مراجعة عامة حول هاتين التقنيتين، حيث اشتمل البحث على عرض مفاهيم كل تقنية و تصنيفاتها و خصائصها. الحوسبة السحابية تختلف عن الحوسبة التقليدية في حجمها الكبير و مقياسها الاقتصادي، وأنها يمكن أن توفر للمستخدمين مستويات مختلفة من الخدمات التي يمكن تكوينها بناء على طلبهم. لقد تم تطوير مجموعة من التقنيات المتقدمة للعمل مع الكم الهائل والسرعة العالية ونماذج البيانات غير المتجانسة خلا تحليل البيانات الكبيرة في البيئات السحابية. حجم البيانات في بيئات الحوسبة السحابية يتزايد بطريقة مستمرة و سريعة. هناك زيادة أيضا في تنوع محتويات البيانات ومصادرها . الحوسبة السحابية لديها مميزاتها الخاصة (مثل المحاكاة الافتراضية، والموثوقية، والمرونة، والحجم الاقتصادي، وما إلى ذلك) التي لايمكن للتكنولوجيات التقليدية وقواعد البيانات التقليدية (DBMSs) التعامل معها بشكل مناسب. لقد طوّرت صناعات تكنولوجيا المعلومات العديد من التقنيات لتخزين البيانات الكبيرة في البيئات السحابية مثل نظام الملفات الموزعة و قواعد البيانات الموزعة. وقد تم تطوير نموذج البرمجة الMapReduce وبرنامج Hadoop لتحليل البيانات الكبيرة في البيئات السحابية. واحدة من التحديات الرئيسية لتطبيقات البيانات الكبيرة الناجحة على السحابة هو تكوين منصات تخزين فعالة وبنية تحتية ذات كفاءة. خدمات ويب أمازون (AWS)، ومحرك حساب جوجل (GCE)، ومايكروسوفت أزور، و تطبيقت محرك جوجل أمثلة ناجحة على بيئات الحوسبة السحابية التي تتضمن بيانات كبيرة. توفير التقنيات مفتوحة المصدر للسحابة يمثل أيضا تحدياً رئيسياً. وهذا من شأنه جذب المزيد من المستخدمين، وهذه هي الميزة الرئيسية التي تجعل Hadoop البرنامج الأكثر شعبية لمعالجة البيانات الكبيرة في البيئة السحابية. MapReduce هو خوارزمية لمعالجة كميات كبيرة من البيانات. Hadoop MapReduce هوبرنامج تنفيذي مفتوح المصدر لخوارزمية MapReduce.
الحوسبة السحابية هي مستقبل تكنولوجيا المعلومات و الزيادة المستمرة في توليد كميات هائلة من البيانات في البيئات السحابية لا مفر منها و يجب على التكنولوجيا الجديدة أن تكون مهتمة و حذرة حول هذا الموضوع.
مراجع
- احصائيات الشبكات الاجتماعية http://www.statisticbrain.com الوصول 2015-11-21. ( بالانجليزية)
- احصائيات الشبكات الاجتماعية http://www.statista.com/ statistics/. ا الوصول 2015-11-21. ( بالانجليزية)
- ل. تشانغ و ر روبايا، "الحوسبة السحابية: حالة من الفن و التحديات البحثية"، مجلة خدمات الإنترنت والتطبيقات، المجلد. 1، العدد. 1، ص. 7-18، 2010. ( بالانجليزية)
- ز. خانا. أنجوم، ك. سومرو، و م أ طاهر، "نحو سحابة مبنية على تحليلات البيانات الكبيرة للمدن الذكية في المستقبل"، مجلة الحوسبة السحابية، المجلد. 4، العدد. 1، ص. 1-11، 2015. ( بالانجليزية)
- م د أسونساو، ر ن كاليروس، س. بيانكي، م أ نيتو، و ر. روبايا، "حوسبة البيانات الكبيرة و السحابة: الاتجاهات والتوجهات المستقبلية"، المجلد مجلة الحوسبة المتوازية والموزعة. 79، ص. 3-15، 2015. ( بالانجليزية)
- س ي. سونج "تخزين البيانات الكبيرة .صعود التخزين في الحوسبة السحابية،" شركة Advanced Micro Devices، وشركة AMD، المجلد. 1، عدد. 2، ديسمبر 2012. ( بالانجليزية)
- ي. توشيا،ي. ساكاموتو، ي تسوشيموتو، وف. لي، "معالجة البيانات الكبيرة في البيئات السحابية" فوجيتسو الخيال العلمي. التكنولوجيا. J، المجلد. 48، عدد. 2، ص 159-168، 2012. ( بالانجليزية)
- ب م جيمس كوبيلس، "نشر تحليلات تطبيقات البيانات الكبيرة إلى السحابة: خارطة الطريق للنجاح،" مجلس معايير الحوسبة السحابية العملاء، مايو 2014. ( بالانجليزية)
- "البيانات الكبيرة في سحابة" التكنولوجيا. تقرير تفني، مركز إنتل -، أبريل 2015. ( بالانجليزية)
- ج. أميت كومار مانيكار، "استعراض عن تحليل البيانات الكبيرة على اساس الحوسبة السحابية"، ICES مجلة عن شبكات الكمبيوتر والاتصالات (JCNC) ، المجلد. 1، عدد. 1، مايو 2015. (بالانجليزية)
- الهاشمي. يعقوب،ن ب. أنور، س. مختار، AL. الغني، و س يو خان، "صعود البيانات الكبيرة على الحوسبة السحابية: استعراض وبحث القضايا المفتوحة"، نظم المعلومات، المجلد. 47، ص. 98-115، 2015. (بالانجليزية)
- و د تيان وي د تشاو، "مقدمة في الحوسبة السحابية" في محسن موارد و ادارة و جدولة الحوسبة السحابية: نظريات وممارسات، الفصل. 1، ص 1- 15، مورغان كوفمان، 2015. (بالانجليزية)
- م. تشن، س. ماو، وي. ليو، "البيانات الكبيرة: مسح" الشبكات المتنقلة والتطبيقات، المجلد. 19، عدد. 2، ص 171-209، 2014. (بالانجليزية)
- س جيموات،ه جوبيوف، وس.ت لونغ، "نظام الملفات جوجل" في ACM SIGOPS أنظمة التشغيل الاستعراض، المجلد. 37، ص 29-43، ACM، 2003. ( بالانجليزية)
- د بروذكار، "دليل العمارة Hdfs." HTTPS: // (بالانجليزية)hadoop
- ف. تشانغ، ج. عميد س جيماوت، و س هسيه، د أ . الاك، م. الجحور، ت. شاندرا أ. فيكاس و ري جروبر، "Bigtable: نظام التخزين الموزع للبيانات المنظمة" ، معاملات ACM على نظم الحاسب الآلي (TOCS)، المجلد. 26، العدد. 2، ص. 4، 2008. (بالانجليزية)
- "أباتشي hadoop." https://hadoop.apache.org/ 2015. تم الحصول عليها: 2015/11/21. (بالانجليزية)
- ج. دين و س جيماوت .:MapReduceتبسيط معالجة البيانات في مجموعات كبيرة،" اتصالات ACM، المجلد. 51، العدد. 1، ص 107-113، 2008. (بالانجليزية)
- "أباتشي هايف" https://hive.apache.org/ 2011. تم الحصول عليها: 2015/11/21. (بالانجليزية)
- "أباتشي سبارك". https://spark.apache.org/. الوصول: 2015/11/21. ( الانجليزية)
- "إمبالا". http://impala.io//. الوصول: 2015/11/21. (بالانجليزية)
- م د اسوني، ر ن كالهريسوب، س بيانشيا ، م أ نيتاوا، و ر. بوياب" حوسبة البيانات الكبيرة و الحوسبة السحابية: التحديات والحلول والاتجاهات المستقبلية،" arXiv ورقة arXiv: 1312.4722، 2013. (بالانجليزية)
- ن. ليفيت، "التحدي التخزين: أين سوف تذهب جميع البيانات التي الكبيرة؟"، الحاسوب، لا. 9، ص. 22-25، 2013. (بالانجليزية)
- ف ن انكولا ،ساريس و س ر رافوري ، "قضايا الأمن المرتبطة في البيانات الكبيرة في الحوسبة السحابية،" المجلة الدولية لأمن الشبكات وتطبيقاتها (IJNSA)، المجلد. 6، عدد. 3، 2014. (بالانجليزية)