في الإحصاء، انحياز التحقق هو نوع من انحيازات القياس، وفيه تؤثر نتائج الاختبار التشخيصي على عملية اختبار المعيار الذهبي المستخدمة للتحقق من نتيجة الاختبار. يُعرف هذا النوع من الانحيازات أيضًا باسم "انحياز الإحالة" أو "الانحياز الإجرائي".[1][2]
في الممارسة الطبية السريرية، تزيد احتمالية حدوث انحياز التحقق عندما يكون الاختبار التشخيصي المبدئي سلبيًّا. لأن الكثير من اختبارات المعيار الذهبي تكون باضعة، باهظة، وتحمل الكثير من المخاطر (مثل تصوير الشرايين، والفحص المجهري، والجراحة)، يتردد الكثير من الأطباء والمرضى بشأن اتخاذ المزيد من الإجراءات التشخيصية إذا كان الاختبار المبدئي سلبيًّا.
في دراسات التعرض، لن يكون تعريض كل مريض لاختبار المعيار الذهبي أخلاقيًّا أو عمليًّا دائمًا، كما أنه سيكون مكلفًا. وبالتالي فإن هذه الدراسات معرضة لانحياز التحقق. وللتغلب على هذا النوع من الانحياز، قد يقوم الباحثون بإجراء اختبار المعيار الذهبي على عينة عشوائية من المشاركين في الدراسة.
في أغلب المواقف، يقدم انحياز التحقق تقديرًا عاليًا للغاية لحساسية الاختبار التشخيصية، ويقدم تقديرًا منخفضًا للغاية للنوعية التشخيصية للاختبار.[3]
الخلفية
تُحدد الدقة التشخيصية للاختبار قدرة الاختبارات الجديدة على تأكيد أو استبعاد مرض ما. ولتحقيق ذلك، يعرض الفاحصون جميع الخاضعين للدراسة إلى الاختبار القياسي (الجديد) محل التجريب واختبار معياري كمرجعية للتحقق من كفاءة الاختبار الجديد (يُعتبر الاختبار الأفضل لتشخيض حالة معينة، أو يُسمى "اختبار المعيار الذهبي"). تُقارن نتائج الاختبار القياسي بالاختبار المعياري، ويحدد عدد المرضى الذين جاء اختبارهم إيجابيًّا حقيقيًّا، وسلبيًّا حقيقيًّا، وإيجابيًّا كاذبًا، وسلبيًّا كاذبًا. ثم تحدد الحساسية التشخيصية والنوعية التشخيصية بعد ذلك [الحساسية=إيجابي حقيقي/(إيجابي حقيقي+سلبي كاذب)، النوعية=سلبي حقيقي/(سلبي حقيقي+إيجابي كاذب)].
يحدث انحياز التحقق عندما يذهب بعض المشاركون فقط في الدراسة، وتلقوا الاختبار القياسي، لكي يؤدوا الاختبار المعياري، أو عندما ينال البعض إحدى الاختبارات المعيارية بينما تلقى آخرون اختبارًا معياريًّا مختلفًا. تحتاج دراسات التشخيص الدقيق للمرض من تأكيد اختباري متوافق مع المرض، وإذا استُخدم اختبارين معياريين، فإن الاختبار سيقدم نتائج ذات دقة مختلفة بشأن المرض.
الأنواع
هناك نوعان من انحياز التحقق: انحياز التحقق الجزئي، حيث يستقبل بعض المرضى فقط الاختبار المعياري بينما لا يتلقاه المشاركون الآخرون، وانحياز التحقق المتفاوت، وفيه يُستعمل اختباران معياريان بالتبادل اعتمادًا على إيجابية أو سلبية نتائج الاختبار القياسي.[4]
مثال
دراسة مصممة لتقييم دقة اختبار بلازما ديمر-دي في تشخيص تخثر الدم الوريدي العميق.[5] وكان المرضى الذين جاءت نتائج اختبار ديمر-دي لديهم إيجابية يخضعون للمزيد من التقييم باستخدام التصوير بالموجات فوق الصوتية (وهو الاختبار المعياري)، بينما المرضى الذين جاءت نتائجهم سلبية كانوا يخضعون للمتابعة السريرية الاعتيادية خلال 3 شهور (الاختبار المعياري 2). وبالتالي فإن المرضى المصابين بتخثر الدم الوريدي العميق، وكانوا سلبيي اختبار ديمر-دي، قد لا يحصلون على التشخيص من المتابعة السريرية الاعتيادية (فربما تزول أعراضهم في فترة مؤقتة). لذلك، تخاطر تلك الدراسة بالاستهانة بعدد النتائج السلبية الكاذبة وبالتالي قد تقدر الحساسية التشخيصية للاختبار بصورة مغلوطة.
التأثير
يؤثر انحياز التحقق على دقة الاختبار القياسي في دراسات الدقة التشخيصية. سيقلل انحياز التحقق الجزئي عدد مرضى النتائج السلبية الكاذبة، وككل سيبالغ في تقدير الحساسية التشخيصية للاختبار. إن تأثير انحياز التحقق المتفاوت أقل قطعية. تأثير انحياز التحقق المتفاوت على الحساسية والنوعية التشخيصية يعتمد على الدقة التشخيصية للاختبارين المعياريين، نسبة إلى بعضهم بعضًا.
من المطلوب إجراء المزيد من الأبحاث من أجل تحديد كمية تأثير انحياز التحقق على الدقة التشخيصية. نصّ تحليل عام 2006 لـ31 تحليل وصفي عن دراسات الدقة التشخيصية، على أن الدراسات المعتمدة على اختبارين معياريين أو أكثر للتحقق من نتيجة الاختبار القياسي، أفادت بنسبة أرجحية تشخيصية 60% أعلى من الدراسات التي استخدمت اختبارًا معياريًّا واحدًا.[6] لم تكن النتيجة مهمة إحصائيًّا بالرغم من ذلك. حيث أفادت نفس الدراسة أن الدراسات التي كانت معرضة لانحياز التحقق الجزئي، بالغت في تقدير نسبة الأرجحية التشخيصية بنسبة 10% بالرغم من أن هذا غير مفيد إحصائيًّا أيضًا (نسبة الأرجحية التشخيصية هي قيمة واحدة للتحقق من دقة الاختبار، مع أخذ الحساسية والنوعية في الحسبان).[7]
وفي الدراسات التي كان فيها الاختبار المعياري باهظًا أو باضعًا، كانت معرضة بصورة ملحوظة لانحياز التحقق. على سبيل المثال، الدراسات المقيمة للدقة التشخيصية لوجود الدم المستتر في البراز كانت تستخدم المناظير القولونية فقط للتحقق على المرضى الذين جاء فيهم الاختبار إيجابيًّا. وجد تحليلًا وصفيًّا يقارن الدقة التشخيصية لاختبار وجود الدم المستتر بالبراز في سرطان القولون والمستقيم أن الحساسية الإجمالية لهذا الاختبار بدون انحياز التحقق كانت أقل كثيرًا من الاختبارات المشوبة بهذا الانحياز (0.36 مقارنة بـ0.70). وبمقارنة النوعية الإجمالية للدراسات بدون انحياز التحقق كانت أعلى أيضًا (0.88 مقارنة بـ0.96). استنتج المؤلفون أن هناك مبالغة بتقدير حساسية الاختبار في مرض سرطان القولون والمستقيم نتيجة لانحياز التحقق. وقد تكون حساسية هذا الاختبار غير كافية للفرز الفعال لتشخيص سرطان القولون والمستقيم.[8]
الخطوات الوقائية
ينبغي أن يُطبق نفس الاختبار المعياري على كل المشاركين في دراسات الدقة التشخيصية.
إلا أن تطبيق نفس الاختبار على جميع المرضى ربما لن يكون أخلاقيًّا أو عمليًّا وفي بعض الأحيان مكلفًا. وعندما لا يمكن تحقيق ما ذكرناه، هناك العديد من الوسائل الإحصائية التي يمكن توظيفها من أجل المحاولة لإلغاء تأثير هذا الانحياز. ومثل كل التعديلات الإحصائية،[9] يحاول تصحيح انحياز التحقق أن يعيد تصنيف المرضى إلى مجموعة تعكس الناتج الفعلي. ولتصحيح انحياز التحقق، تحاول المقاربات الإحصائية إعادة تصنيف المرضى ذوي النتائج السلبية في فئة سلبي كاذب (للتعرف على عدد ذوي السلبي الكاذب المفقودين بسبب انحياز التحقق). اقترح بيغ وغرينز[10] وسيلة واسعة الاستخدام لتصحيح انحياز التحقق.[11] تستخدم طريقتهم التقنيات البايزية؛ تُحسب الاحتمالية التجريبية للتحقق وتُطبق بعد ذلك على ذوي النتائج المختلفة للاختبارات: الإيجابي الحقيقي والإيجابي الكاذب والسلبي الحقيقي والسلبي الكاذب، لتوليد التقديرات المعدلة.[12]
يجب التعامل بحذر مع مقاربة التعديل الإحصائي على دراسات الدقة التشخيصية المعرضة لانحياز التحقق. حيث تنطوي اختبارات الدقة التشخيصية المعرضة لانحياز التحقق على عدد قليل من المرضى السلبيين الكاذبين. في هذه الحالات، يمكن أن يؤثر تطبيق التعديل الإحصائي على النتائج بطريقة غير ملائمة. عندما يكون العدد الكلي للنتائج السلبية الكاذبة منخفضًا، قد يكون لإعادة التصنيف تأثيرًا دراماتيكيًّا على الحساسية والنوعية التشخيصية للاختبار. على سبيل المثال، في دراسة تهدف لتحديد دقة اختبار دنا فيروس الورم الحليمي لتشخيص سرطان عنق الرحم، كانت الحساسية المزعومة 100%، لكن بإعادة التصنيف للمرضى إلى سلبي كاذب قلت حساسية الاختبار إلى 70%.
المراجع
- O'Sullivan, JW; Banerjee, A; Heneghan, C; Pluddemann, A (April 2018). "Verification bias". BMJ evidence-based medicine. 23 (2): 54–55. doi:10.1136/bmjebm-2018-110919. PMID 29595130.
- Begg CB, Greenes RA (1983). "Assessment of diagnostic tests when disease verification is subject to selection bias". Biometrics. 39 (1): 207–215. doi:10.2307/2530820. PMID 6871349.
- Zhou XH (1998). "Correcting for verification bias in studies of a diagnostic test's accuracy". Statistical Methods in Medical Research. 7 (4): 337‐353. doi:10.1191/096228098676485370.
- Verification bias | BMJ Evidence-Based Medicine
- Büller HR , Ten Cate-Hoek AJ , Hoes AW , et al . Safely ruling out deep venous thrombosis in primary care. Ann Intern Med 2009;150:229–36.doi:10.7326/0003-4819-150-4-200902170-00003
- Rutjes AW , Reitsma JB , Di Nisio M , et al . Evidence of bias and variation in diagnostic accuracy studies. CMAJ 2006;174:469–76.doi:10.1503/cmaj.050090
- Glas AS , Lijmer JG , Prins MH , et al . The diagnostic odds ratio: a single indicator of test performance. J Clin Epidemiol 2003;56:1129–35.doi:10.1016/S0895-4356(03)00177-X
- Rosman AS , Korsten MA . Effect of verification bias on the sensitivity of fecal occult blood testing: a meta-analysis. J Gen Intern Med 2010;25:1211–21.doi:10.1007/s11606-010-1375-0
- O’Sullivan J . Controversies in PSA screening. Evid Based Med 2017;22:198.doi:10.1136/ebmed-2017-110858
- Gray R , Begg CB , Greenes RA . Construction of receiver operating characteristic curves when disease verification is subject to selection bias. Med Decis Making 1984;4:151–64.doi:10.1177/0272989X8400400204
- Begg CB , Greenes RA . Assessment of Diagnostic Tests When Disease Verification is Subject to Selection Bias Published by : International Biometric Society Stable URL. 2009;39:207–15
- Cronin AM , Vickers AJ . Statistical methods to correct for verification bias in diagnostic studies are inadequate when there are few false negatives: a simulation study. BMC Med Res Methodol 2008;8:1–9.doi:10.1186/1471-2288-8-75