بازشناسی دستنويس های فارسی توسط کامپیوتر
در اكثر مجموعه هايي كه با جمعآوري عمومي اطلاعات سروكار دارند، براي باز شناسی دستنويس های زبان فارسی توسط کامپیوتر با مشکل اساسی روبرو هستند. بدین منظور در موج نو جوانان با هوش و دانای ایرانی مرتبط با این دانش فعاليت وسيعي آغاز نموده اند که مسئله مهم طراحي و پياده سازي سيستمی برای بازشناسي كلمات دستنويس فارسي با حروف گسسته و لغت نامه معين با استفاده از يك شبكة عصبي سلسله مراتبي جهت استفاده از كامپيوتر در خواندن متنهاي دستنويس انجام شود. با انقلاب دانایی، و رشد و توسعة علوم انفورماتيك حجم اطلاعات غير كاغذي افزايش يافته، ولی همچنان در عمل اطلاعات كاغذي سهم خود را در مجموعه اطلاعات از دست نداده است. علاوه بر آن تبديل اطلاعات قبلي كه عمدتاً روي كاغذ ثبت شدهاند به اطلاعات كامپيوتري، قدم مهمي در راه اتوماسيون سيستمهای اداری به شمار می رود. از طرف ديگر هنوز اطلاعات حجيمي مانند انواع آزمونها، پرسش نامهها و غیره وجود دارند، كه توسط افراد عادي ارائه می شود و اپراتور بايد آنها را به كامپيوتر وارد كند و در بيشتر مواقع سيستمهاي OCR، حلقة گمشده اين زنجير به شمار ميرود. در خط عربی و فارسی تلاشها بسياري براي طراحي و پياده سازي سيستمهاي OCR در دستور کار قرار گرفته، البته اكثر اين سيستمها يا بر خواندن متنهاي تايپ شده متمركز شدهاند و يا توجه اصلي خود را به تقطيع حروف پيوسته به هم، كه يكي از مسايل اصلي تشخيص دستخط به شمار ميرود، معطوف كردهاند. اين پژوهش بررسي حالتي از OCR را به عهده داشته است كه در عين ساده سازی مساله، ميتوانند مشكل ورود اطلاعات بسياري از محيط های اداری را مرتفع سازد. هدف از اين سيستم بازشناسي حروف گسسته فارسي است كه در تشخيص كلمهاي از يك لغت نامة معين مورد استفاده واقع ميشود. با توجه به اينكه اين سيستم، نياز به بازشناسي دنباله پيوستة حروف ندارد، در مورد حروف دست نويس دقت باز شناسي بالايي دارد ضمن توجه به وجود لغت نامه معين، از آناليز زباني مناسب استفاده شده، خطاي بازشناسي تا حدي كاهش يافته و کار با اين سيستم را در موارد كاربردي عملي ساخته است. ويژگي هاي این کار جدا سازي آماری حروف است، شناسايي هر حرف توسط مجموعهاي از شبكههاي عصبي است كه به صورت سلسله مراتبي به هم متصل شدهاند. تقسيمبندي حروف به گروهبندي مناسب براي تقسيم بهينه عمليات شناسايي بين شبكه هاي عصبي پياده سازي شده از ويژگي هاي اين پژوهش است و آناليز زباني انجام شده نيز براي كاهش احتمال خطا بر مبناي اطلاعات گروه بندي و با استفاده از لغت نامة اسامي اول 120 هزار نفر انجام شده است. آزمون هاي انجام شده بر روي دستخط 200 نفر نشاندهنده درصد باز شناسي متوسط %77.2 براي شناسايي حروف گسسته و %84.4 براي شناسايي كلمات لغت نامه است.
به طور خلاصه، مراحل انجام شده در اين پژوهش به اين شرح است، ابتدا بانك اطلاعاتي وسيعي از دستخط هاي مختلف تهيه شده است كه فرم هايي را با حروف منقطع پر كردهاند. همچنين بانك اطلاعاتي مناسبي نيز براي لغت نامة مورد نياز تهيه شده كه در اين مورد اسامي اول مرد و زن شركت كننده در يك آزمون ورودی بزرگ مورد استفاده قرارگرفته است. سپس بانك اطلاعاتي كلمات، براي آموزش و تست يك شبكة عصبي سلسله مراتبي به كار برده شده و يك الگوريتم آناليز زباني آماري نيز براي تصحيح خطا هاي سيستم باز شناسي حروف از روي لغت نامه تهيه شده است. براي تصحيح اشتباه های احتمالي در هر دو بانك اطلاعاتي، هر دو به شكل دستي كنترل و پالايش شدهاند. مرحله پيش پردازش شامل خواندن فايل تصوير هر كاراكتر، حذف نويز و دو سطحی كردن هر حرف است. در مرحله بعد ويژگي هاي مورد نظر از تصوير سياه و سفيد استخراج مي شوند و به مرحله تصميم گيري كه شامل چند شبكه عصبي متصل به هم است، ارسال مي گردند. خروجي اين مرحله كه شماره كاراكتر بازشناسي شده در جدول الفبا خواهد بود، براي حذف خطا هاي احتمالي به مرحلة آناليز زباني ارسال ميشود. دراين مرحله مجموعة كاراكتر هاي بازشناسي شده، با اطلاعات لغت نامة موجود مقايسه شده، و جواب نهايي به دست ميآيد. با توجه به شباهت بسيار زياد بعضي حروف فارسي به هم (ج،چ،ح،خ) و يا (س، ش، ص و…) جدا سازي اين حروف با مشكل روبرو است و يك شبكة عصبي كه بتواند تمام اين حروف را از هم جدا كند، حداقلهاي محلي بسياري خواهد داشت. در اين تحقيق ابتدا گروههاي مناسبي از حروف با كمك الگوريتم هاي خوشه بندي، شواهد شهودي و آزمون و خطا تهيه شده است، سپس يك شبكة عصبي MLP براي جدا سازي اين گروهها از هم آموزش ديده است.
گروه بندي به اين صورت انجام شده كه ابتدا با استفاده از معيارهاي شهودی دسته بندي هاي اوليه پيشنهادي انجام شده است مثلاً از {ب، پ، ت و ث} يك گروه تشكيل گردیده سپس سعي شده است كه شبكة عصبي MLP آموزش داده شود، در صورتي كه در اثر فرآيند آموزش، شبكه توانايی تفكيك هر گروه از گروه هاي ديگر را پيدا كند، اين امر نشان دهنده آن است كه اين گروه به خوبي انتخاب شده ولي در عمل گروه هايي هستند كه با هم اشتباه ميشوند. در اين صورت اين دو گروه با هم يك گروه بزرگتر را تشكيل دادهاند ({س و ش} و{ص و ض}) همچنين با استفاده از روش كوانيتزاسيون برداري با الگوريتم آموزش LBG با معيار فاصله اقليدسي سعي شده است كه تعداد اعضاي هر گروه محدود شود و گروههاي كوچكتري با اعضاي كمتري به دست آيند. دسته بندي و آموزش مجدد آنقدر تكرار شده است كه شبكه با حداكثر تعداد گروههاي ممكن به خوبي بتواند گروهها را از هم تفكيك كند. در نهايت دستهبندي زير به عنوان بهترين دستهبندي در شبكة عصبي تفكيك گروهها انتخاب شده است:
{ ا }/{ ب، پ، ت، ث }/{ ج، چ، ح، خ، ع، غ }/{ س، ش، ص، ض، ق، ن، ي }
{ د، ذ }/{ ر، ز، ژ } / { ط، ظ }/{ ف }/{ ك، گ }/{ ل }/ { م }/{ و }/{ هر}.
لازم به ذكر است كه ويژگيهاي مورد استفاده در شبكة عصبي تشخيص گروهها، از تصاوير بدون نقطه استخراج شده است و به همين دليل ويژگيهاي حاصل از حروف داخل هر دسته بسيار شبيه هستند. پس از تشخيص دستهها، اينكه يك شبكة عصبي جديد، عناصر درون دستهای را از هم تفكيك كند، بسيار امكان پذير است و آموزش اين شبكة عصبي با حداقل هاي محلي كمتري روبرو خواهد شد. از اين رو، در مرحلة بعد سعي شده است كه به ازاي هر دستة جدا شده، يك شبكة عصبي MLP آموزش داده شود تا عناصر درون دستهاي را تفكيك كند تا هر دسته را به دستههاي كوچكتر بشكند. اين مرحله در مورد دستههاي زير انجام شده است:
{ب،پ،ت،ث،}¬{ب،پ} / {ت،ث} {د،ذ} ¬ {د} / {ذ}
{ر،ز،ژ} ¬ {ر} / {ز} / {ژ} {ط،ظ} ¬ {ط} / {ظ}
در اين مرحله ويژگيهاي حروف بدون حذف نقطههاي آنها استخراج شدهاند تا زيردستهها، توسط ويژگيها قابل تفكيك باشد. روشهاي آموزش مختلفي براي شبكههاي عصبي مورد استفاده آزموده شد كه در نهايت تلفيقي از الگوريتمهاي Adaptive gradient descent learning rule و Momentum gradient descent learning rule براي آموزش كلية شبكههاي عصبي سيستم مناسب تشخيص داده شد. اجزاي سيستم پيشنهادي بر روي محيط Matlab پياده سازي شده است، در ادامه به جزئيات نحوة پياده سازي پرداخته مي شود. براي تهية بانك اطلاعاتي حروف با دستخط هاي مختلف، از فرمهاي جدول بندي شدهاي استفاده شده است كه افراد مختلف حروف الفبا را به ترتيب در آن مي نوشتند. در مجموع دستخط 200 نفر در بانك اطلاعاتي حروف جمعآوري شده است. 100 نفر از اين افراد دانشجويان كارشناسي دانشگاه تهران و 100 نفر ديگر، افراد غير انتخابي با سطح تحصيلي متوسط ديپلم بودهاند، سپس اين فرمها با دقت 300 dpi اسكن و قطعه بندي شده است. همچنين مجموعه بانك اطلاعاتي به صورت دستي ويرايش شده و اشتباههای موجود در نگارش يا خطا هاي بزرگ در رعايت مكان حروف حذف شدهاند و بعد از ويرايش انجام شده، اندازه بانك اطلاعاتي حدود %80 بانك اطلاعاتي اوليه شده است. ممكن است در جريان اسكن فرمها، تصاوير دوران يافته باشد كه مقدار زاويه اين دوران با استفاده از تبديل تصوير فرم به دست آمده و اين دوران از تصوير حذف شده است، در صورتي كه در اسكن فرمها دقت كافي وجود داشته باشد، اين مرحله با توجه به تعداد عمليات بسيار زياد آن لزومي ندارد. با توجه به اينكه عمليات پردازش روي تصاوير دو سطحي بسيار سريعتر است و در سطوح خاكستري مربوط به هر تصوير، اطلاعات مفيد مهمي وجود ندارد، سطوح خاكستري تصاوير در اين مرحله به دو سطح تقليل مييابد، آستانة مورد نظر از تصاوير به صورت وفقي و با استفاده از هيستوگرام سطوح خاكستري هر حرف و منطبق با ويژگيهاي سطوح خاكستري منطقة هر حرف به دست آمده است.
چون سيستم براي باز شناسي كلمات با لغت نامه معين طراحي شده است، استفاده از آناليز زباني با كمك لغت نامه مي تواند خطا هاي مرحله بازشناسي حروف را جبران كند. براي اين كار يك پايگاه داده با 120هزار كلمه از اسامي افراد شركت كننده در يك آزمون ورودي تهيه شد كه شامل حدود 5 هزار نام متمايز با فراواني هاي مختلف بود. با توجه به اينكه در اين سيستم بازشناسي خطايي در تشخيص تعداد حروف هر كلمه وجود ندارد، بانك اطلاعاتي كلمات با تعداد حروف متفاوت از هم جدا شدند. تابع هزينه مورد استفاده در آناليز زباني پياده سازي شده به اين شكل است كه اگر هر حرف كلمة بازشناسي شده با حرف متناظر آن در يك كلمة لغت نامه يكسان باشد ، فاصلة صفر در نظر گرفته مي شود. در صورتي كه اين دو حرف از يك گروه باشند، فاصله 1 و در غير اين صورت فاصله 2 محسوب مي شود. فواصل با هم و با ارزش آن كلمه در لغتنامه جمع ميشوند. كمترين فاصلة كلمة بازشناسي شده نمايانگر بهترين كلمة متناظر در لغت نامه خواهد بود. در صورت تقاضای علاقمندان منابع را ارسال می کنم.
حمله اسکندر مقدونی به ایران بزرگترین دروغ تاریخ و
حمله چنگیز مغول به ایران سومین دروغ بزرگ تاریخ
و مقالات مهم سنت گریزی و دانایی قرن 21 در
وبلاگ انوش راوید بنام: جنبش برداشت دروغها از تاریخ ایران
http://www.ravid.blogfa.com