پردازش رایانه‌ای زبان

رایانه و زبان فارسی - ۳۲

۱۵ اسفند ۱۴۰۰ | ۱۶:۱۵ کد : ۲۶۳۶۸ اینجا فارسی زبان بین‌المللی است
تعداد بازدید:۱۸۸
رایانه و زبان فارسی - ۳۲

رایانه و زبان فارسی - ۳۲
ابزارهای پایه در پردازش رایانه‌ای زبان: ریشه‌یابی و بن‌واژه‌سازی
دکتر هادی ویسی
...................................................
دانشمندترینشانند ⤆ دانش+مند+ترین+شان+ ند 
زمانی که در اینترنت کلمه «کتابها» را جستجو می‌کنید، علاوه بر صفحاتی که خود این کلمه را دارند، اگر صفحاتی در آنها «کتاب» یا «کتابهایی» هم وجود داشته باشد، با احتمال بالا پاسخ مناسبی برای شما خواهند بود، کاری که در گوگل و سایر موتورهای بازیابی اطلاعات متنی انجام می‌شود، چرا که از «ریشه» کلمات در نمایه‌گذاری و جستجو استفاده می‌شود. ریشه‌یابی (Stemming) و بن‌واژه‌سازی (Lemmatization) ابزارهایی برای تبدیل صورت‌های مختلف یک کلمه به صورت اصلی آن (ریشه) است که در برخی ازکاربردهای پردازش متن مانند بازیابی اطلاعات کاربرد دارد. برخی از روش‌های ریشه‌یابی با الهام از قواعد تصریفی، تلاش در حذف وندها دارند که گاهی منجر به تحلیل نادرست می‌شود (مانند حذف ان به عنوان پسوند جمع که باعث خطا در کلماتی مانند مهمان می‌شود)، اما در بن‌واژه‌سازی با استفاده از اطلاعات بافت جمله (با بهره‌گیری از تحلیل‌های دیگر مانند برچسب‌زنی اجزای کلام) و روش‌های نوین مبتنی بر تحلیل ساختواژی (صرفی و اشتقاقی) مانند مبدل حالت متناهی(FST)، تشخیص دقیق‌تری از ریشه کلمه ارائه می‌شود.
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا (دانش‌آموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.

کلید واژه ها: ابزارهای پایه در پردازش رایانه‌ای زبان رایانه و زبان فارسی هادی ویسی موسسه دهخدا آموزش زبان فارسی ریشه‌یابی بن‌واژه‌سازی​​​​​​​ Stemming Lemmatization تحلیل ساخت‌واژی مبدل حالت متناهی


نظر شما :