البيانات الغير مؤكدة في علم الحاسوب، وهي عبارة عن بيانات تحتوي على ضوضاء، والتي تكون في محل شك بمصداقيتها، مما يجعلها تنحرف عن القيم الصحيحة أو القيم الأصلية.
في عصر البيانات الكبيرة، يعد عدم اليقين بصحة البيانات أحد الخصائص التي تتميز بها البيانات. ويرجع ذلك إلى تزايد البيانات باستمرار من حيث الحجم والتنوع والسرعة وعدم اليقين. وتنتشر البيانات غير المؤكدة في الوقت الحالي بكثرة خصوصًا على شبكة الإنترنت، في شبكات الإستشعار، وداخل المؤسسات (سواء في مصادرها المنظمة وغير المنظمة).
وعلى سبيل المثال، قد يكون هناك عدم يقين بشأن عنوان العميل في مجموعة بيانات المؤسسة ، أو قراءات درجة الحرارة، التي يلتقطها جهاز الاستشعار بسبب قدم المستشعر.
في عام 2012 ، استدعت شركة IBM إدارة بيانات غير مؤكدة على نطاق واسع في تقرير توقعات التكنولوجيا العالمية الذي يقدم تحليلًا شاملًا يبحث من ثلاث إلى عشر سنوات في المستقبل سعياً إلى تحديد التقنيات الهامة والمدمرة التي ستغير العالم. من أجل اتخاذ قرارات تجارية موثوقة تستند إلى بيانات العالم الحقيقي، يجب أن تحلل بالضرورة العديد من أنواع عدم اليقين المختلفة الموجودة في كميات كبيرة من البيانات. إن التحليلات المستندة إلى بيانات غير مؤكدة سيكون لها تأثير على جودة القرارات اللاحقة ، وبالتالي لا يمكن تجاهل درجة وأنواع عدم الدقة في هذه البيانات غير المؤكدة.
تم العثور على بيانات غير مؤكدة في مجال شبكات الاستشعار، النص الذي يتم العثور فيه على نص صاخب بكثرة على الشبكات الاجتماعية والشبكة وداخل المؤسسات التي قد تكون فيها البيانات المنظمة وغير المنظمة قديمة أو قديمة أو غير صحيحة، في النمذجة حيث قد يكون النموذج الرياضي فقط تقريبًا للعملية الفعلية. عند تمثيل مثل هذه البيانات في قاعدة بيانات، يجب أيضًا تقدير بعض مؤشرات احتمالية صحة القيم المختلفة.
هناك ثلاثة نماذج رئيسية للبيانات غير المؤكدة في قواعد البيانات. في سمة عدم اليقين، تكون كل سمة غير مؤكدة في المجموعة خاضعة لتوزيعات الاحتمالية المستقلة الخاصة بها.
وعلى سبيل المثال، إذا تم أخذ القراءات لدرجات الحرارة وسرعة الرياح، فسيتم وصف كل منها بتوزيع الاحتمالية الخاص به، لأن معرفة القراءة لقياس واحد لن تقدم أي معلومات عن الأخرى.
في حالة عدم التيقن المترابطة، يمكن وصف سمات متعددة بتوزيع احتمالي مشترك. على سبيل المثال، إذا تم أخذ القراءات لموضع كائن ما، وتم تخزين إحداثيات x- و y ، فقد تعتمد احتمالية قيم مختلفة على المسافة من الإحداثيات المسجلة. وبما أن المسافة تعتمد على كلا الإحداثيات ، فقد يكون من المناسب استخدام توزيع مشترك لهذه الإحداثيات، لأنها ليست مستقلة.
في حالة عدم اليقين في الصفوف، تخضع جميع صفات المجموعة لتوزيع احتمالي مشترك. وهذا يشمل حالة الارتياب المترابط ، ولكنه يشمل أيضًا الحالة التي يكون فيها احتمال أن تكون الصفوف لا تنتمي إلى العلاقة ذات الصلة، والتي تشير إليها جميع الاحتمالات التي لا تلخص لأحدها.
وعلى سبيل المثال، افترض أن لدينا المجموعة التالية من قاعدة بيانات احتمالية:
(أ, 0.4) | (ب, 0.5) |
ثم، الصفح لديه 10٪ من احتمال عدم وجوده في قاعدة البيانات.