نویسهخوان نوری
نویسه خوان نوری[1] که با سرواژهی OCR∗ شناخته میشود، عبارت است از تشخیص (recognition) خودکار متون موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. تصویر سند غالباً توسط روبشگر یا دوربین دیجیتال تولید میشود. این تصاویر شامل تعدادی پیکسل با رنگهای مختلف است که هر رنگ با ترکیب سه رنگ اصلی سبز، آبی و قرمز ساخته میشوند. از دید انسان، یک سند ممکن است ارزش اطلاعاتی زیادی داشته باشد، لیکن از دید رایانه تصویر یک سند با تصویر یک منظره تفاوتی ندارد، چرا که هر دوی آنها مجموعهای از پیکسلها هستند. برای اینکه بتوان از اطلاعات نوشتاری تصویر سند استفاده کرد، بایستی به نحوی نوشتههای موجود در سند را تشخیص دهیم. چنین کاری توسط نرمافزارهای نویسه خوان نوری انجام میشود.
نویسه خوان نوری ابتدا تنها در مورد بازشناسی ارقام و حروف چاپی بکار گرفته میشد. سامانهٔ نویسه خوان مثل یک نفر ماشیننویس، متن سند را میخواند و آن را به قالب مناسب برای ذخیره در رایانه تبدیل میکند. معمولاً اسکنر، تصاویر مورد نیاز برای تشخیص نویسه را فراهم میآورند. سامانهٔ نویسه خوان، اشیاء موجود در تصویر سند را که ارقام، حروف، علائم و کلمات هستند، بازشناسی کرده و رشتهی متناظر با آنها را در قالب مناسب ذخیره میکند. یک فایل تصویری، حجم زیادی دارد و جستجوی متنی در آن ممکن نیست. این در حالی است که فایل خروجی سامانهٔ نویسه خوان بسیار کم حجم و قابل جستجو است.
سامانههای نویسه خوان مثل بسیاری از سامانههای هوشمند دیگر، پیچیدگی زیادی دارد. پردازش تصویر و بازشناسی الگو دو مبحث اصلی در این سامانهها هستند. پیچیدگی این سامانهها برای زبانهای گوناگون، متفاوت است. به عنوان مثال نوشتن نویسه خوانی نوری برای زبانهای لاتین به دلیل اینکه حروف آنها بهطور مجزا نوشته میشود آسانتر است از زبانهایی مثل فارسی و عربی که حروف یک کلمه به یکدیگر میچسبند. این موضوع به علاوهٔ جمعیت کم کاربران زبان فارسی، سبب شده سامانههای نویسه خوان زبان فارسی نقاط ضعف زیادی داشته باشند. البته در سالهای اخیر تلاشهای قابل تقدیری از سوی برخی شرکتهای فعال در زمینهٔ پردازش تصویر انجام شده که برخی از آنها منجر به محصولات قابل قبولی شدهاست.
تاریخچه
سابقه نویسه خوانی نوری به بیش از نیم قرن گذشته برمی گردد. از زمانی که سیستمهای کامپیوتری، در تجارت و صنعت وارد شد، نیاز به جمعآوری و پردازش دستخط به وسیلهٔ سیستم به وجود آمد. اما پاسخ به این نیازها با میزان تکنولوژی سیستمهای موجود، محدود میشدند. برای بررسی سابقه نویسه خوانی نوری میتوان آن را به سه دوران کلی تقسیم کرد.[2] [3]
پیدایش اولیه نویسه خوانهای نوری
شاید بتوان اولین تحقیقات حوزه نویسه خوانی نوری را در اوایل دهه ۱۹۵۰ پیدا کرد. در آن زمان دانشمندان سعی داشتند که به وسیلهٔ دیسکهای گردان و اسکنرهای نوری مجهز به لنز لوله پرتو کاتدی تصاویری از دستخط را به سیستم وارد کنند. در ادامه با ورود تکنولوژی مدارات مجتمع، نویسه خوانها نیز متحول شدند. این تکنولوژی موجب به وجود آمدن آرایههای نوری بزرگتری شد که علاوه بر بالا بردن کیفیت اسکنر، سرعت تبدیل آن به دادههای دیجیتال را نیز افزایش داد. در خلال سالهای ۱۹۶۰ تا ۱۹۷۰، کاربردهای نویسه خوانی نوری در مراکز غیر علمی و تحقیقاتی رواج پیدا کرد. بانکها، بیمارستان، مراکز پست، شرکتهای بیمه و شرکتهای پروازی، سازمانهای تجاری و همچنین صنایعی چون شرکتهای چاپ روزنامه از جمله مراکز استفادهکننده از نویسه خوانی نوری محسوب میشدند.[2]
توسعه سختافزاری سیستمهای کامپیوتری موجب شد که تحقیقات مربوط به نویسه خوان نه تنها در مراکز علمی که حتی در مراکز تجاری نیز انجام شود. البته به دلیل ضعیف بودن سیستمهای کامپیوتری و همچنین نوظهور بودن روشهای به کار رفته در استخراج داده، اسکنهای انجام شده از صفحات ضعیف بوده و موجبات خطاهای زیادی در محاسبات میشدند. برای رفع مشکلات، استانداردهایی برای چاپ فونت و جوهر مورد استفاده کاغذها وضع شد. از جمله این استانداردها میتوان به فونتهای جدید چون OCRA اشاره کرد. کار استانداردسازی این فونتها در آمریکا توسط مؤسسه استاندارد ملی و در اروپا به وسیلهٔ انجمن تولیدکنندگان کامپیوتر اروپا توسعه یافت. این استاندارد بعداً توسط مؤسسه استاندارد جهانی (ISO) نیز تحت پوشش قرار داده شد. به عنوان نتیجه ای از این کارها، تشخیص دستخط به امری مقرون به صرفه و در عین حال دقیقتر از گذشته تبدیل شد. این دستآورد همچنین موجب شد کیفیت چاپ کاغذهای مورد استفاده در نویسه خوانی نوری نیز متحول شود. این تحولات موجب شد که انقلابی در نحوه ورود دادههای دستنویس به کامپیوتر ایجاد شود و به دنبال این تحول، شغل هزاران نفر از کارکنانr که تا قبل از این مسئول پانج کردن کارتهای ورود اطلاعات به کامپیوتر بودند، از بین رفت.
توسعه تکنیکها
با توسعه روشها و تحقیقات انجام گرفته در حوزه نویسه خوانی نوری، نیاز برای سیستمهای پیشرفته تر شدید تر میشد. این نیاز به دلیل رشد بسیار زیاد دادهها بود. دستخطهای تولید شده شامل آدرسهای نوشته شده روی پاکتهای نامه، مبالغ چک، مشخصات فردی در فرمهای نامنویسی و همچنین تعیین مبالغ نوشته شده در فرمها و فاکتورهای مالی بود. روشهای اولیه به کار رفته در نویسه خوانی نوری بیشتر شامل تطابق ساده خطوط و ویژگیهای هندسی دستخط بود. اما این تکنیکها برای تشخیص دستخط در فرمها و اسناد مطلوب نبودند. برای از بین بردن این مشکل، کمیته استاندارد در آمریکا، ژاپن، کانادا و برخی از کشورهای اروپایی، مدلهایی برای نوشتار تبیین کردند تا دستخط در مکانهایی مخصوص و با شرایطی خاص نوشته شوند. برای مثال قوانین جدید نوشتار، نویسندگان اسناد را ملزم میکرد تا درشت تر بنویسند، حلقههای موجود در بین نوشتار را ببندند، کارکترها را به یکدیگر نچسبانند و…. با وجود این قوانین نویسه خوانی نوری برای چندین سال همچنان به رشد خود ادامه داد.[4]
دوران نوین
با گسترش سختافزار سیستمها و بعد از سالها تلاش در زمینه تحقیقات و به وجود آمدن روشهای کارآمد، نویسه خوانی نوری وارد دوران جدیدی شد. در دوران جدید دیگر نیاز به رعایت قوانین خاص برای نوشتار نبود. افراد میتوانند به حالت عادی متنهای خود را بنویسند و محدودیتهای نوشتار از بین رفت. روشهای جدید، بسیار قدرتمندتر شدند به نحوی که استخراج ویژگی و طبقهبندی دادهها نسبت به زمانهای قبل متحول شدند. امروزه دستخطها به وسیله اسکنرهای قدرتمند وارد سیستم میشوند تا مراحل زیر را طی کنند.
- پیش پردازش: با ورود دستخط، مرحله پیش پردازش کیفیت تصویر ورودی را بهبود میبخشد و ناحیه مورد نظر را برای تشخیص دستخط انتخاب میͺند.
- .استخراج ویژگی: در مرحله استخراج ویژگی، ویژگیهای قابل تشخیص دربرداری با عنوان بردار ویژگی ذخیره شده و برای پردازش به مرحله بعد ارسال میشوند.
- طبقهبندی: در مرحله طبقهبندی، بردار ویژگی برای تشخیص کلمات و حروف مورد تجزیه و تحلیل قرار میگیرد.
کاربردها
- وارد کردن دادهها برای سندهای تجاری
- استخراج اطلاعات کلیدی از اسناد بیمه به صورت خودکار
- تبدیل سریع نسخههای متنی به سندهای چاپ شده مثل اسکن کتاب برای پروژه گوتنبرگ
- قابل جستجو کردن متن تصاویر الکترونیک از کتابهای چاپ شده مثل گوگل بوکس
- فریب دادن سامانههای ضد ربات مثل کپچا
- کمک به نابینایان
انواع
- نویسهخوانی نوری
- واژهخوانی نوری
- نویسهخوانی هوشمند
- واژهخوانی هوشمند
تکنیکها
- پیشپردازش
- تشخیص نویسه
- پسپردازش
- بهینهسازی مختص نرمافزار
یادداشتها
جستارهای وابسته
منابع
- ویکیپدیای انگلیسی
- نویسهخوانی نوری از واژههای مصوب فرهنگستان زبان و ادب فارسی به جای optical character recognition یا OCR در انگلیسی و در حوزهٔ رایانه است. «فرهنگ واژههای مصوّب فرهنگستان: ۱۳۷۶ تا ۱۳۸۵، بخش لاتین». فرهنگستان زبان و ادب فارسی. ص. ۱۴۴. بایگانیشده از اصلی در ۱۲ مه ۲۰۱۲. دریافتشده در ۷ فروردین ۱۳۹۱.
- Character recognition systems: a guide for students and practioners. Hoboken, N.J.: Wiley-Interscience. ۲۰۰۷. شابک ۹۷۸۰۴۷۰۱۷۶۵۲۸.
- Schantz, Herbert F. (1982). The history of OCR, optical character recognition. [Manchester Center, Vt.]: Recognition Technologies Users Association. ISBN 9780943072012.
- "Optical Character Recognition (OCR) – How it works". Nicomsoft.com. Retrieved June 16, 2013.