التعرف الضوئي على المحارف (Optical character recognition) أو اختصارا OCR هي نوع من البرمجيات الحاسوبية لتحويل صور النصوص المكتوبة باليد أو بآلة (يحصل عليها عادة باستخدام الماسحة) إلى نصوص يستطيع الحاسوب معالجتها. التعرف الضوئي على الحروف '، يختصر عادة إلى التعرف الضوئي على الحروف ، هو آلى أو تحويل الصورة الممسوحة الالكترونية من صيغة مكتوبة بخط اليد، أو مطبوعة على الآلة الكاتبة أو نص مطبوع إلى نص مرمز تفهمه الآلة وتدعى آلة ترميز النصوص . ويستخدم على نطاق واسع باعتباره شكلا من أشكال إدخال البيانات من نوع ما من ورقة البيانات المصدر الأصلي، سواء وثائق، أوايصالات مبيعات، والبريد، أو أي عدد من السجلات المطبوعة. لإنه من الأهمية بمكان أن حوسبة النصوص المطبوعة تكون مطلبا حتى يمكن أن يكون البحث عنها أوتخزينها إلكترونيا بحيث تصبح قابلة للانضغاط أكثر ليتيسر عرضها على الإنترنت، وتستخدم في عمليات آلية مثل الترجمة الآلية ، تحويل النص إلى كلام و الغوص في النصوص. التعرف الضوئي على الحروف هو مجال البحث في التعرف على النماذج، الذكاء الاصطناعي و جهاز الرؤية عن طريق الحاسوب.
هناك حاجة لإصدارات في وقت مبكر حتى يتسنى أن تبرمج الصور تبعا لكل حرف، وتعمل على خط واحد في وقت واحد. النظام "الذكي" مع وجود درجة عالية من دقة التعرف على معظم الخطوط أصبحت شائعة الآن. بعض الأنظمة الآن قادرة على إنتاج حروف تمت تهيئتها formatted output و هي تقترب كثيرا من الشكل الأصلي بما في ذلك الصور الممسوحة ضوئيا، والأعمدة وغيرها من العناصر غير النصية.
التاريخ
ويمكن أن يعزى التعرف الضوئي على الحروف في وقت مبكر للنشاط حول مسألتين: توسيع الإبراق وخلق أجهزة القراءة للمكفوفين.[1] في عام 1914 ايمانويل جولدبرغ صنع آلة لقراءة الأحرف وتحويلها إلى رموز التلغراف القياسية. في نفس الوقت تقريبا، إدموند فورنييه ديفوار d'Albe طور Optophone ، ماسح ضوئي محمول حيث يتم تحريكه عبر الصفحة المطبوعة، فيقوم بإنتاج نغمات التي تتوافق مع أشكال محددة أو حروفا.
واصل جولدبرغ تطوير تكنولوجيا التعرف الضوئي على الحروف لإدخال البيانات. و فيمابعد اقترح تصوير سجلات البيانات ومن ثم، وذلك باستخدام الخلايا الضوئية، مطابقة الصور ضد قالب يحتوي على نمط محدد وهو النمط المطلوب . في عام 1929 غوستاف تاوشك Tauschek كان لديه أفكار مماثلة، وحصل على براءة اختراع في التعرف الضوئي على الحروف في ألمانيا. بول جورج هاندل أيضا حصل على براءة أميريكية في قالب تكنولوجيا مطابقة التعرف الضوئي على الحروف في الولايات المتحدة الأمريكية في عام 1933 (U.S. Patent 1٬915٬993).في عام 1935 حصل أيضا Tauschek على براءة اختراع في الولايات المتحدة على طريقته (U.S. Patent 2٬026٬329).
وفى عام 1949 فإن مهندسوشركة راديو أمريكا عملوا على التعرف الضوئي على الحروف بنوع بدائى أولى بمساعدة الكمبيوتر لمساعدة المكفوفين ولإدارة شؤون المحاربين القدامى في الولايات المتحدة، ولكن بدلا من تحويل الأحرف المطبوعة إلى لغة الآلة، تم تحويلها من جهاز إلى جهاز اللغة المتكلمة ومن ثم الحروف: في وقت مبكر دفعا إلى تكنولوجيا النص إلى كلام .حيث ثبت حتى الآن أنها مكلفة للغاية، ولم يكن السعي إلى الإسستمرار فيها بعد اختبارها.[2]
و في عام 1950 ديفيد شيبرد وهو cryptanalyst في وكالة الأمن بالقوات المسلحة في الولايات المتحدة ، معالجة مشكلة تحويل الرسائل المطبوعة إلى لغة الآلة لل تجهيز الكمبيوتر، وبناء جهاز للقيام بذلك، ودعيت جزمو Gismo ."[3]. حصل على براءة اختراع لتطويره "جهاز القراءة" في عام 1953U.S. Patent 2٬663٬758. “ جزمو يمكنه "قراءة 23 حرفا من الحروف الأبجدية الإنجليزية، ويقوم بترجمة إشارات مورس، ويقرأ الرموز الموسيقية، ويقرأ بصوت مسموع من صفحات مطبوعة و يقوم بتكرارا صفحات مطبوعة. شيبرد ذهب إلى العثور على مؤسسة البحوث للآلات الذكية (IMR)، والتي سرعان ما وضعت أول أنظمة تجارية للتعرف الضوئي على الحروف في العالم .
وكان في عام 1955، قد تم تركيب أول نظام تجاري في مجلة ريدرز دايجست ، والتي تستخدم التعرف الضوئي على الحروف لإرسال تقارير المبيعات إلى جهاز الكمبيوتر. حيث قامت بتحويل التقارير المطبوعة إلى بطاقات المثقبة لإدخالها في الكمبيوتر في قسم الاشتراكات في المجلة، للمساعدة في تجهيز شحنات من 15-20 مليون كتاب في السنة
.[4] تم بيع النظام الثاني إلى شركة ستاندرد أويل لقراءة بصمات بطاقات الائتمان لأغراض الفوترة. وشملت غيرها من النظم التي تبيعها IMR خلال أواخر 1950 قارئ كعوب الفواتير مشروع القانون إلى شركة أوهايو بيل للتليفونات وماسح ضوئي للصفحات إلى للقوات الجوية للولايات المتحدة لقراءة وإرسال الرسائل المبرقة بواسطة الآلة الكاتبة. واجيزت آي بي إم و آخرون في وقت لاحق للحصول على براءات الاختراع شيبرد للتعرف الضوئي على الحروف. في حوالي 1965 ، تعاونت مجلة ريدرز دايجست مع RCA لبناء قارئ تعرف ضوئى للحروف، مصمم إلى رقمنة الأرقام التسلسلية وتقييم النتائج والكفاءات على كوبونات مجلة ريدرز دايجست العائدة من الإعلانات . وطبعت الخطوط المستخدمة في وثائق بواسطة طابعة الطبل RCA باستخدام OCR-Aالخط. وربط القارئ مباشرة إلى كمبيوتر آر سى أ 301 وهو واحد من أجهزة الكمبيوتر الحالة الصلبة 1).وأعقب هذا توصيله من قبل قارئ وثائق متخصص ركب إلى TWA حيث القارئ يعالج مخزون تذاكر شركة طيران. القارئ يعالج الوثائق بمعدل 1500 وثيقة في الدقيقة، ويفحص كل وثيقة، ويرفض تلك التي لاتقبل المعالجة بطريقة صحيحة وأصبح هذا المنتج جزءا من خط إنتاج RCA كقارئ مصمم لمعالجة "الوثائق الدوارة" مثل تلك التي تشمل فواتير المياه والكهرباء والتأمين وعائدات المدفوعات.
برمجيات التعرف الضوئى على الحروف
برامج التعرف الضوئي على الحروف لسطح المكتب والخوادم
برامج التعرف الضوئي على الحروف و برمجيات ICR التكنولوجيا هي أنظمة الذكاء الاصطناعي للتحليلات التي تنظر في تسلسل الحروف بدلا من الكلمات أو العبارات كلها. استنادا إلى تحليلات للخطوط والمنحنيات المتتابعة، للتعرف الضوئي على الحروف حيث OCR و ICR تفعل أفضل التخمينات على الحروف باستخدام قاعدة بيانات للمتابعة عن كثب لربط الجداول أو تتطابق مع سلاسل الحروف التي تكون الكلمات.
WebOCR & OnlineOCR التعرف الضوئي على الحروف على شبكة الإنترنت
التقنيات
قبل التجهيز
برمجيات التعرف الضوئي على الحروف في كثير من الأحيان هي صور "عمليات ما قبل" لتحسين تقنيات فرص تعرف ناجحة.وتشمل ما يلي:[5]
- دي تحرف – متباعدة إذا لم يتم محاذاة المستند ليكون متوائما بشكل صحيح عند فحصهه، قد تحتاج إلى أن تميل بضع درجات في اتجاه عقارب الساعة أو عكس اتجاه عقارب الساعة من أجل جعل أسطر من النص أفقية تماما أو عمودية.
اللغة العربية
التعرف الضوئي على المحارف العربية Optical Character Recogniation for Arabic Language : يعتبر من أهم المواضيع البحثية فيما يتصل بتطوير استخدام اللغة العربية. الأحرف العربية تحوي على 28 حرفاً وهذه الأحرف تأخذ صيغ شكلية مختلفة اعتماداً على توضعها في أول الكلمة أو وسطها أو في نهايتها. التعرف الضوئي على المحارف العربية قد يكون آني أي يتم التعرف خلال زمن الكتابة Online أو من خلال معالجة وثائق تحوي على نص مكتوب باللغة العربية Offline
مقالات ذات صلة
- Lists
مراجع
- Herbert Schantz, The History of OCR. Manchester Center, VT: Recognition Technologies Users Association, 1982.
- "Some+time+ago"&hl=en&ei=gZjhTI-wHZGUnweD79T6Dw&sa=X&oi=book_result&ct=result&resnum=1&ved=0CCoQ6AEwAA#v=onepage&q&f=true "Reading Machine Speaks Out Loud" , February 1949, Popular Science. نسخة محفوظة 6 أبريل 2020 على موقع واي باك مشين.
- Washington Daily News, April 27, 1951; New York Times, December 26, 1953
- Schantz, The History of OCR.
- "Optical Character Recognition (OCR) – How it works". Nicomsoft.com. مؤرشف من الأصل في 8 فبراير 201916 يونيو 2013.
وصلات خارجية
- Unicode OCR - Hex Range: 2440-245F Optical Character Recognition in Unicode