التعرّف على خط اليد هو قدرة جهاز الحاسوب على تلقي وتفسير المدخلات المكتوبة بخط اليد من مصادر مثل المستندات الورقية والصور الفوتوغرافية والشاشات اللمسية وغيرها من الأجهزة. قد يتم استشعار صورة النص المكتوب «دون اتصال» من قطعة من الورق عن طريق المسح البصري (التعرف الضوئي على الحروف) أو التعرف الذكي على الكلمات. وبدلاً من ذلك، يمكن استشعار حركات رأس القلم «مع اتصال»، على سبيل المثال بواسطة سطح شاشة حاسوب بميزة القلم، وهي مهمة أسهل عمومًا نظرًا لوجود المزيد من الأدلة المتوفرة.
يستلزم التعرف على الكتابة اليدوية بشكل أساسي التعرف على الحروف البصرية. ومع ذلك، فإن نظام التعرف على الكتابة اليدوية الكامل يعالج أيضًا التنسيق، وينفذ التجزئة الصحيحة إلى أحرف بالإضافة إلى إيجاد الكلمات المتطابقة.
التعرف الغير متصل
يتضمن التعرف على خط اليد دون اتصال التحويل التلقائي للنص الموجود في صورة ما إلى رموز أحرف قابلة للاستخدام في تطبيقات معالجة النصوص والحاسوب. تعتبر البيانات التي تم الحصول عليها بواسطة هذا النموذج بمثابة تمثيل ثابت من الكتابة اليدوية. من الصعب نسبيا التعرف على خط اليد، لأن كثير من الناس لديهم أنماط مختلفة في الكتابة اليدوية. ولذلك تركز محركات OCR بشكل أساسي على النص المطبوع على الآلة فيما تركز ICR على خط اليد «المكتوب بحروف كبيرة».
التقنيات التقليدية
تقنيات للحد من نطاق المشكلة
تضييق نطاق المشكلة غالبًا ما يساعد على زيادة دقة أنظمة التعرف على الكتابة اليدوية. على سبيل المثال، قد يحتوي حقل نموذج لرمز بريدي بالولايات المتحدة على الأرقام من 0 إلى 9 فقط. هذه الحقيقة من شأنها أن تقلل من عدد الهويات الممكنة.
الأساليب الأساسية:
- تحديد نطاقات محددة
- استخدام النماذج المتخصصة
استخراج الحروف
عادةً ما يتضمن التعرف على الأحرف (بدون اتصال) على فحص نموذج أو مستند مكتوب في وقت ما في الماضي. هذا يعني أنه يجب استخراج الأحرف الفردية الموجودة في الصورة الممسوحة ضوئيًا. توجد أدوات قادرة على تنفيذ هذه الخطوة. ولكن هنالك بعض العيوب في هذه الخطوة أكثرها شيوعا الحروف المتصلة. وهذا يسبب مشكلة كبيرة في مرحلة التعرف. ورغم ذلك هنالك العديد من الخوارزميات المتاحة التي تقلل من مشاكل الحروف المتصلة.
التعرف على الحروف
بعد استخراج الأحرف الفردية، يتم استخدام محرك التعرف لإيجاد حرف الحاسوب المطابق. وتوجد عدة تقنيات مختلفة المتاحة حاليا التعرف والمطابقة[1].
استخراج الميزات
تعمل طريقة استخراج الميزات أو الخصائص بطريقة مشابهة لمعرفات الشبكة العصبية. ومع ذلك، يجب على المبرمجين تحديد الخصائص التي يشعرون أنها مهمة.
بعض الأمثلة على الخصائص تشمل:
- نسبة العرض إلى الارتفاع.
- نسبة البكسل فوق نقطة نصف أفقية.
- نسبة البكسل إلى يمين نقطة نصف رأسية.
- متوسط المسافة من مركز الصورة
التقنيات الحديثة
بينما تركز التقنيات التقليدية على تقسيم الأحرف الفردية من أجل التعرف عليها، تركز التقنيات الحديثة على التعرف على جميع الأحرف في سطر نص مجزأ. وتركز بشكل خاص على تقنيات التعلم الآلي القادرة على تعلم الميزات المرئية، وتجنب هندسة المقاييس المحددة المستخدمة سابقًا. تستخدم الأساليب الحديثة شبكات عصبية لاستخراج ميزات مرئية عبر عدة إطارات متداخلة لصورة خطية تستخدمها RNN لإنتاج احتمالات الأحرف..
التعرف المتصل
يتضمن التعرف (المتصل) على خط اليد التحويل الآلي للنص كما هو مكتوب على محول رقمي خاص أو المساعد الرقمي الشخصي، حيث يلتقط جهاز الاستشعار تحركات طرف القلم وكذلك التبديل بين رفع القلم وإنزاله. يُعرف هذا النوع من البيانات بالحبر الرقمي ويمكن اعتباره تمثيلًا رقميًا لخط اليد. يتم تحويل الإشارة التي تم الحصول عليها إلى رموز حرف والتي يمكن استخدامها داخل الحاسوب وتطبيقات معالجة النصوص. تتضمن عناصر واجهة التعرف على الكتابة اليدوية على الإنترنت عادةً ما يلي:
- قلمًا أو قلمًا للمستخدم ليكتب معه.
- سطح حساس للمس، والذي يمكن دمجه مع عرض الإخراج أو بجواره.
- تطبيق برمجي يفسر تحركات القلم عبر سطح الكتابة، وترجمة السكتات الناتجة إلى نص رقمي.
العملية العامة
يمكن تقسيم عملية التعرف (المتصل) على الكتابة اليدوية إلى خطوات عامة قليلة:
- التجهيز.
- استخراج الميزات
- التصنيف
المراجع
- "Java OCR". SourceForge (باللغة الإنجليزية). مؤرشف من الأصل في 17 فبراير 201920 نوفمبر 2018.