پردازش رایانهای زبان
رایانه و زبان فارسی - ۲۸

رایانه و زبان فارسی - ۲۸
ابزارهای پایه در پردازش رایانهای زبان: رفع ابهام معنایی (WSD)
دکتر هادی ویسی
...................................................
من شیر را خوردم – I ate the lion
زمانی که بخواهیم کلماتی مانند شیر (دارای ۳ معنی مختلف)، سیر (۴ معنی)، مهر (۴ معنی)، کف (۵ معنی) و زبان (۲ معنی) را در یک سامانه ترجمه ماشینی به معادل آن در زبان دیگری برگردانیم، نیاز است بدانیم کدام معنی آن مد نظر است. ابهام معنایی در این کلمات و دهها کلمه همنگاره (Homograph) دیگر که دارای شکل نوشتاری یکسان اما معنی متفاوتی هستند، در سامانههای مختلف پردازش زبان مانند ترجمه، متنخوان، چتبات و ... منجر به اشتباه عملکردی آنها میشود و رفع این ابهام یک ضرورت است.
مساله رفع ابهام معنایی، هرچند در گذشته بر اساس اطلاعات موجود در شبکههای واژگانی و گنجواژهها بوده، اما امروزه به آن به عنوان یک مساله دستهبندی نگاه میشود که کلمهای مانند شیر باید بر اساس بافت متن، به یکی از سه دسته معنی آن انتساب داده شود؛ و برای این کار از روشهای یادگیری آماری، SVM و شبکه عصبی استفاده میشود. رویکرد نوظهور به حل این مساله، استفاده از تعبیه کلمات حساس به بافت، مانند BERT، است که برخلاف روشهای باناظر، نیاز به داده برچسبدار برای ساخت مدل را مرتفع میکند.
...................................................
پینوشت: امروزه با همهگیر شدن نقش رایانهها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوریهای مرتبط با رایانه بیبهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشتهای کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشتها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغتنامهٔ دهخدا (دانشآموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وبگاه و شبکههای اجتماعیِ مؤسسهٔ لغتنامهٔ دهخدا منتشر میشود.
نظر شما :