بازشناسی دستنويس های فارسی

بازشناسی دستنويس های فارسی توسط کامپیوتر

در اكثر مجموعه هايي كه با جمع‌آوري عمومي اطلاعات سروكار دارند، براي باز شناسی دستنويس های زبان فارسی توسط کامپیوتر با مشکل اساسی روبرو هستند. بدین منظور در موج نو جوانان با هوش و دانای ایرانی مرتبط با این دانش فعاليت وسيعي آغاز نموده اند که مسئله مهم طراحي و پياده سازي سيستمی برای بازشناسي كلمات دستنويس فارسي با حروف گسسته و لغت ‌نامه معين با استفاده از يك شبكة عصبي سلسله مراتبي جهت استفاده از كامپيوتر در خواندن متنهاي دستنويس انجام شود. با انقلاب دانایی، و رشد و توسعة علوم انفورماتيك ‌حجم اطلاعات غير كاغذي افزايش يافته، ولی همچنان در عمل اطلاعات كاغذي سهم خود را در مجموعه اطلاعات از دست نداده است. علاوه بر آن تبديل اطلاعات قبلي كه عمدتاً روي كاغذ ثبت شده‌اند به اطلاعات كامپيوتري، قدم مهمي در راه اتوماسيون سيستمهای اداری به‌ شمار می‌ رود. از طرف ديگر هنوز اطلاعات حجيمي مانند انواع آزمونها، پرسش نامه‌ها و غیره وجود دارند، كه توسط افراد عادي ارائه می ‌شود و اپراتور بايد آنها را به كامپيوتر وارد كند و در بيشتر مواقع سيستمهاي OCR، حلقة گمشده اين زنجير به شمار مي‌رود. در خط عربی و فارسی تلاشها بسياري براي طراحي و پياده سازي سيستمهاي OCR در دستور کار قرار گرفته، البته اكثر اين سيستمها يا بر خواندن متن‌هاي تايپ شده متمركز شده‌اند و يا توجه اصلي خود را به تقطيع حروف پيوسته به‌ هم، كه يكي از مسايل اصلي تشخيص دستخط به شمار مي‌رود، معطوف كرده‌اند. اين پژوهش بررسي حالتي از OCR را به عهده داشته است كه در عين ساده‌ سازی مساله، مي‌توانند مشكل ورود اطلاعات بسياري از محيط‌ های اداری را مرتفع سازد. هدف از اين سيستم بازشناسي حروف گسسته فارسي ‌است كه در تشخيص كلمه‌اي از يك لغت ‌نامة معين مورد استفاده واقع مي‌شود. با توجه به اينكه اين سيستم، نياز به بازشناسي دنباله پيوستة حروف ندارد، در مورد حروف دست ‌نويس دقت باز شناسي بالايي دارد ضمن توجه به وجود لغت‌ نامه معين، از آناليز زباني مناسب استفاده شده، خطاي بازشناسي تا حدي كاهش يافته و کار با اين سيستم را در موارد كاربردي عملي ساخته است. ويژگي ‌هاي این کار جدا سازي آماری حروف است، شناسايي هر حرف توسط مجموعه‌اي از شبكه‌هاي عصبي است كه به ‌صورت سلسله ‌مراتبي به هم متصل شده‌اند. تقسيم‌بندي حروف به گروه‌بندي مناسب براي تقسيم‌ بهينه عمليات شناسايي بين شبكه ‌هاي عصبي پياده سازي شده از ويژگي ‌هاي اين پژوهش است و آناليز زباني انجام شده نيز براي كاهش احتمال خطا بر مبناي اطلاعات گروه ‌بندي و با استفاده از لغت ‌نامة اسامي اول 120 هزار نفر انجام شده است. آزمون هاي انجام شده بر روي دستخط 200 نفر نشان‌دهنده درصد باز شناسي متوسط %77.2 براي شناسايي حروف گسسته و %84.4 براي شناسايي كلمات لغت ‌نامه است.

به طور خلاصه، مراحل انجام شده در اين پژوهش به اين شرح است، ابتدا بانك اطلاعاتي وسيعي از دستخط‌ هاي مختلف تهيه شده است كه فرم هايي را با حروف منقطع پر كرده‌اند. همچنين بانك اطلاعاتي مناسبي نيز براي لغت ‌نامة مورد ‌نياز تهيه شده كه در اين مورد اسامي اول مرد و زن شركت ‌كننده در يك آزمون ورودی بزرگ مورد استفاده قرار‌گرفته است. سپس بانك اطلاعاتي كلمات، براي آموزش و تست يك شبكة عصبي سلسله مراتبي به كار برده شده و يك الگوريتم آناليز زباني آماري نيز براي تصحيح خطا هاي سيستم باز شناسي حروف از روي لغت ‌نامه تهيه شده است. براي تصحيح اشتباه‌ های احتمالي در هر دو بانك اطلاعاتي، هر دو به شكل دستي كنترل و پالايش شده‌اند. مرحله پيش پردازش شامل خواندن فايل تصوير هر كاراكتر، حذف نويز و دو سطحی كردن هر حرف است. در مرحله بعد ويژگي هاي مورد نظر از تصوير سياه و سفيد استخراج مي ‌شوند و به مرحله تصميم ‌گيري كه شامل چند شبكه عصبي متصل به هم است، ارسال مي ‌گردند. خروجي اين مرحله كه شماره كاراكتر بازشناسي شده در جدول الفبا خواهد بود، براي حذف خطا هاي احتمالي به مرحلة آناليز زباني ارسال مي‌شود. دراين مرحله مجموعة كاراكتر هاي بازشناسي شده، با اطلاعات لغت ‌نامة موجود مقايسه شده، و جواب نهايي به‌ دست مي‌آيد. با توجه به شباهت بسيار زياد بعضي حروف فارسي به هم (ج،چ،ح،خ) و يا (س، ش، ص و…) جدا سازي اين حروف با مشكل روبرو است و يك شبكة عصبي كه بتواند تمام اين حروف را از هم جدا كند، حداقل‌هاي محلي بسياري خواهد داشت. در اين تحقيق ابتدا گروههاي مناسبي از حروف با كمك الگوريتم‌ هاي خوشه ‌بندي، شواهد شهودي و آزمون و خطا تهيه شده است، ‌سپس يك شبكة عصبي MLP براي جدا سازي اين گروه‌ها از هم آموزش ديده ‌است.

گروه ‌بندي به اين صورت انجام شده كه ابتدا با استفاده از معيارهاي شهودی دسته ‌بندي‌ هاي اوليه پيشنهادي انجام شده است مثلاً از {ب، پ، ت و ث} يك گروه تشكيل گردیده سپس سعي شده است كه شبكة عصبي MLP آموزش داده شود، در صورتي كه در اثر فرآيند آموزش، شبكه توانايی تفكيك هر گروه از گروه هاي ديگر را پيدا كند، اين امر نشان ‌دهنده آن است كه اين گروه به خوبي انتخاب شده ولي در عمل گروه هايي هستند كه با هم اشتباه مي‌‌شوند. در اين صورت اين دو گروه با هم يك گروه بزرگتر را تشكيل داده‌اند ({س و ش} و{ص و ض}) همچنين با استفاده از روش كوانيتزاسيون برداري با الگوريتم آموزش LBG با معيار فاصله اقليدسي سعي شده است كه تعداد اعضاي هر گروه محدود شود و گروههاي كوچكتري با اعضاي كمتري به دست آيند. دسته بندي و آموزش مجدد آنقدر تكرار شده است كه شبكه با حداكثر تعداد گروههاي ممكن به خوبي بتواند گروهها را از هم تفكيك كند. در نهايت دسته‌بندي زير به عنوان بهترين دسته‌بندي در شبكة عصبي تفكيك گروهها انتخاب شده است:‍

{ ا }/{ ب، پ، ت، ث }/{ ج، چ، ح، خ، ع، غ }/{ س، ش، ص، ض، ق، ن، ي }

{ د، ذ }/{ ر، ز، ژ } / { ط، ظ }/{ ف }/{ ك، گ }/{ ل }/ { م }/{ و }/{ هر}.

لازم به ذكر است كه ويژگيهاي مورد استفاده در شبكة عصبي تشخيص گروهها، از تصاوير بدون نقطه استخراج شده است و به همين دليل ويژگيهاي حاصل از حروف داخل هر دسته بسيار شبيه هستند. پس از تشخيص دسته‌ها، اينكه يك شبكة عصبي جديد، عناصر درون ‌دسته‌ای را از هم تفكيك كند، بسيار امكان پذير است و آموزش اين شبكة عصبي با حداقل ‌هاي محلي كمتري روبرو خواهد شد. از اين رو، در مرحلة بعد سعي شده است كه به ازاي هر دستة جدا شده، يك شبكة عصبي MLP آموزش داده شود تا عناصر درون دسته‌اي را تفكيك كند تا هر دسته را به دسته‌هاي كوچكتر بشكند. اين مرحله در مورد دسته‌هاي زير انجام شده است:

{ب،پ،ت،ث،}¬{ب،پ} / {ت،ث} {د،ذ} ¬ {د} / {ذ}

{ر،ز،ژ} ¬ {ر} / {ز} / {ژ} {ط،ظ} ¬ {ط} / {ظ}

در اين مرحله ويژگيهاي حروف بدون حذف نقطه‌هاي آنها استخراج شده‌اند تا زير‌دسته‌‌ها، توسط ويژگيها قابل تفكيك باشد. روشهاي آموزش مختلفي براي شبكه‌هاي عصبي مورد استفاده آزموده شد كه در نهايت تلفيقي از الگوريتمهاي Adaptive gradient descent learning rule و Momentum gradient descent learning rule براي آموزش كلية شبكه‌هاي عصبي سيستم مناسب تشخيص داده شد. اجزاي سيستم پيشنهادي بر روي محيط Matlab پياده ‌سازي شده است، در ادامه به جزئيات نحوة پياده ‌سازي پرداخته مي ‌شود. براي تهية بانك اطلاعاتي حروف با دستخط ‌هاي مختلف، از فرم‌هاي جدول ‌بندي شده‌اي استفاده شده است كه افراد مختلف حروف الفبا را به ترتيب در آن مي‌ نوشتند. در مجموع دستخط 200 نفر در بانك اطلاعاتي حروف جمع‌آوري شده است. 100 نفر از اين افراد دانشجويان كارشناسي دانشگاه تهران و 100 نفر ديگر، افراد غير انتخابي با سطح تحصيلي متوسط ديپلم بوده‌اند، سپس اين فرمها با دقت 300 dpi اسكن و قطعه بندي شده است. همچنين مجموعه بانك اطلاعاتي به صورت دستي ويرايش شده و اشتباه‌های موجود در نگارش يا خطا هاي بزرگ در رعايت مكان حروف حذف شده‌اند و بعد از ويرايش انجام شده، اندازه بانك اطلاعاتي حدود %80 بانك اطلاعاتي اوليه شده است. ممكن است در جريان اسكن فرمها، تصاوير دوران يافته باشد كه مقدار زاويه اين دوران با استفاده از تبديل تصوير فرم به دست آمده و اين دوران از تصوير حذف شده است، در صورتي كه در اسكن فرمها دقت كافي وجود داشته باشد، اين مرحله با توجه به تعداد عمليات بسيار زياد آن لزومي ندارد. با توجه به اينكه عمليات پردازش روي تصاوير دو سطحي بسيار سريعتر است و در سطوح خاكستري مربوط به هر تصوير، اطلاعات مفيد مهمي وجود ندارد، سطوح خاكستري تصاوير در اين مرحله به دو سطح تقليل مي‌يابد، آستانة مورد نظر از تصاوير به صورت وفقي و با استفاده از هيستوگرام سطوح خاكستري هر حرف و منطبق با ويژگيهاي سطوح خاكستري منطقة هر حرف به دست آمده است.

چون سيستم براي باز شناسي كلمات با لغت ‌نامه معين طراحي شده است، استفاده از آناليز زباني با كمك لغت ‌نامه مي ‌‌تواند خطا هاي مرحله بازشناسي حروف را جبران كند. براي اين كار يك پايگاه داده با 120هزار كلمه از اسامي افراد شركت كننده در يك آزمون ورودي تهيه شد كه شامل حدود 5 هزار نام متمايز با فراواني هاي مختلف بود. با توجه به اينكه در اين سيستم بازشناسي خطايي در تشخيص تعداد حروف هر كلمه وجود ندارد، بانك اطلاعاتي كلمات با تعداد حروف متفاوت از هم جدا شدند. تابع هزينه مورد استفاده در آناليز زباني پياده سازي شده به اين شكل است كه اگر هر حرف كلمة بازشناسي شده با حرف متناظر آن در يك كلمة لغت ‌نامه يكسان باشد ، فاصلة صفر در نظر گرفته مي شود. در صورتي كه اين دو حرف از يك گروه باشند، فاصله 1 و در غير اين صورت فاصله 2 محسوب مي شود. فواصل با هم و با ارزش آن كلمه در لغت‌نامه جمع مي‌شوند. كمترين فاصلة كلمة بازشناسي شده نمايانگر بهترين كلمة متناظر در لغت نامه خواهد بود. در صورت تقاضای علاقمندان منابع را ارسال می کنم.

حمله اسکندر مقدونی به ایران بزرگترین دروغ تاریخ و

حمله چنگیز مغول به ایران سومین دروغ بزرگ تاریخ

و مقالات مهم سنت گریزی و دانایی قرن 21 در

وبلاگ انوش راوید بنام: جنبش برداشت دروغها از تاریخ ایران

http://www.ravid.blogfa.com

+ نوشته شده در پنجشنبه بیست و چهارم اردیبهشت ۱۳۸۸ ساعت 15:25 توسط انوش راوید |

انوش راوید

مطالب و مقالات از وبسایت ارگ ایران www.arq.ir

بازشناسی دستنويس های فارسی

پیوندهای روزانه

نوشته‌های پیشین

پیوندها