التعدين النص الطبي الحيوي. يتضمن ذلك معالجة اللغة الطبيعية الطبية الحيوية أو BioNLP تشير إلى طرق ودراسة كيفية التعدين النص يمكن تطبيقها على النصوص والأدب في الطب الحيوي والبيولوجيا الجزيئية . كمجال للبحث، يشتمل تعدين النصوص الطبية الحيوية على أفكار من معالجة اللغات الطبيعية، والمعلوماتية الحيوية، والمعلوماتية الطبية، واللغويات الحاسوبية . يتم تطبيق الاستراتيجيات التي تم تطويرها من خلال الدراسات في هذا المجال بشكل متكرر على أدبيات البيولوجيا الطبية الحيوية والجزيئية المتاحة من خلال مواقع الخدمات مثل PubMed.
اعتبارات وبحوثات
يتطلب تطبيق أساليب تعدين النصالطبي الحيوي اعتبارات خاصة مشتركة في المجال.
توافر بيانات نصية توضيحية
. المشروح كبير المجاميع المستخدمة في تطوير وتدريب طرق التعدين النص أغراض العامة (على سبيل المثال، مجموعات الحوار الفيلم، استعراض المنتجات، أو ويكيبيديا المادة النص) ليست محددة للغة الطبية الحيوية. في حين أنها قد توفر أدلة على خصائص النص العام مثل أجزاء من الكلام، إلا أنها نادرا ما تحتوي على مفاهيم تهم علماء الأحياء أو الأطباء. تطوير أساليب جديدة لتحديد الميزات الخاصة بالوثائق الطبية الحيوية يتطلب تجميع المجاميع المتخصصة.وقد وضعت الموارد مصممة للمساعدة في بناء طرق جديدة التعدين نص الطبية الحيوية من خلال معلوماتية لإدماج الأحياء وسريري التحديات والباحثين المعلوماتية الطبية الحيوية.الجمع بين الباحثين التعدين النص في كثير من الأحيان هذه المجاميع مع المفردات التي تسيطر عليها وتجميعات المتاحة من خلال المكتبة الوطنية للطب ' ق النظام الموحد الطبي اللغة (UMLS) و الموضوعات الطبية عناوين (mesh) .
غالباً ما تتطلب الأساليب المستندة إلى التعلم الآلي مجموعات كبيرة من البيانات مثل بيانات التدريب لبناء نماذج مفيدة.التعليق اليدوي للجمل النصية الكبيرة غير ممكن واقعيًا. وبالتالي قد تكون بيانات التدريب نتاجًا للإشراف الضعيف والأساليب الإحصائية البحتة.
تباين شكل او بنية البيانات
مثل الوثائق النصية الأخرى، تحتوي الوثائق الطبية الحيوية على بيانات غير منظمة . تتبع المنشورات البحثية تنسيقات مختلفة، وتحتوي على أنواع مختلفة من المعلومات، وتتخللها الأرقام والجداول وغير ذلك من المحتويات غير النصية. قد تختلف المستندات السريرية في البنية واللغة بين الأقسام والمواقع. قد تتبع أنواع أخرى من النصوص الطبية الحيوية، مثل ملصقات الأدوية، إرشادات هيكلية عامة ولكنها تفتقر إلى المزيد من التفاصيل.
قلة اليقين
يحتوي الأدب الطبي الحيوي على بيانات حول الملاحظات التي قد لا تكون عبارة عن حقائق. قد يعبر هذا النص عن عدم اليقين أو الشك حول المطالبات. وبدون تعديلات محددة، فإن نُهج تعدين النص المصممة لتحديد المطالبات داخل النص قد تسيء تصنيف هذه العبارات "التحوطية" كحقائق..[1]
دعم الاحتياجيات السريرية
يجب أن تعكس تطبيقات تعدين النصوص الطبية الحيوية المطورة للاستخدام السريري بشكل مثالي احتياجات ومطالب الأطباء.هذا هو مصدر القلق في البيئات حيث من المتوقع أن يكون دعم القرار السريري مفيدا ودقيقا
إمكانية التشغيل المتداخل مع الأنظمة السريرية
يجب أن تعمل أنظمة التعدين الجديدة للنص مع المعايير الحالية والسجلات الطبية الإلكترونية وقواعد البيانات. طورت طرق التواصل مع الأنظمة السريرية lonic ولكنها تتطلب جهودًا تنظيمية مكثفة لتنفيذها وصيانتها.[2][3]
خصوصية المريض
يجب أن تحترم أنظمة التعدين النصية التي تعمل بالبيانات الطبية الخاصة أمنها وتضمن جعلها مجهولة الهوية عند الاقتضاء .[4][5][6]
العمليات
تعتبر المهام الفرعية المحددة ذات أهمية خاصة عند معالجة النص الطبي الحيوي. [13] التعرف على الكيانات المسماة .
التعرف على الكينات المسماة
وقد أدرجت التطورات في تعدين النصوص الطبية الحيوية تحديد الكيانات البيولوجية مع الاعتراف الكيان مسمى، أو NER. أسماء ومعرفات للالجزيئات الحيوية مثل البروتينات والجينات، المركبات الكيميائية والعقاقير، ومرض أسماء وقد استخدمت بوصفها كيانات. ويدعم معظم وسائل التعرف على الكيان من المميزات أو مفردات لغوية محددة مسبقا، على الرغم من أساليب دمج التعلم عميقة وكلمة التضمينات نجحت أيضا في NER الطبية الحيوية. [7]
تصنيف المستند وتجميعه
يمكن تصنيف المستندات الطبية الحيوية أو تجميعها بناءً على محتوياتها وموضوعاتها. في التصنيف، يتم تحديد فئات المستندات يدويًا، أثناء التجميع، تشكل المستندات مجموعات مستقلة تعتمد على الخوارزميات. هذه المهام هما التمثيلية لل إشراف وغير خاضعة للرقابة الطرق، على التوالي، بعد هدف لكل من هو إنتاج مجموعات فرعية من الوثائق على أساس خصائصها المميزة. اعتمدت أساليب تجميع الوثائق الطبية الحيوية على مجموعات
References
- Agarwal S, Yu H (December 2010). "Detecting hedge cues and their scope in biomedical text with conditional random fields". Journal of Biomedical Informatics. 43 (6): 953–61. doi:10.1016/j.jbi.2010.08.003. PMC . PMID 20709188.
- Jannot AS, Zapletal E, Avillach P, Mamzer MF, Burgun A, Degoulet P (June 2017). "The Georges Pompidou University Hospital Clinical Data Warehouse: A 8-years follow-up experience". International Journal of Medical Informatics. 102: 21–28. doi:10.1016/j.ijmedinf.2017.02.006. PMID 28495345.
- Levy B. "Health Care's Semantics Challenge". www.fortherecordmag.com. Great Valley Publishing Company. مؤرشف من الأصل في 5 أكتوبر 201804 أكتوبر 2018.
- Goodwin LK, Prather JC (2002). "Protecting patient privacy in clinical data mining". Journal of Healthcare Information Management. 16 (4): 62–7. PMID 12365302.
- Tucker K, Branson J, Dilleen M, Hollis S, Loughlin P, Nixon MJ, Williams Z (July 2016). "Protecting patient privacy when sharing patient-level data from clinical trials". BMC Medical Research Methodology. 16 Suppl 1 (S1): 77. doi:10.1186/s12874-016-0169-4. PMC . PMID 27410040.
- Graves S (2013). "Confidentiality, electronic health records, and the clinician". Perspectives in Biology and Medicine. 56 (1): 105–25. doi:10.1353/pbm.2013.0003. PMID 23748530.
- Habibi M, Weber L, Neves M, Wiegandt DL, Leser U (July 2017). "Deep learning with word embeddings improves biomedical named entity recognition". Bioinformatics. 33 (14): i37–i48. doi:10.1093/bioinformatics/btx228. PMC . PMID 28881963.