پردازش رایانه‌ای زبان

رایانه و زبان فارسی - ۲۶

۱۲ دی ۱۴۰۰ | ۱۱:۲۲ کد : ۲۴۸۴۴ اینجا فارسی زبان بین‌المللی است
تعداد بازدید:۹۲
رایانه و زبان فارسی - ۲۶

رایانه و زبان فارسی - ۲۶
ابزارهای پایه در پردازش رایانه‌ای زبان: برچسب‌زنی نحوی
دکتر هادی ویسی
...................................................
«آن مرد دیروز در جلو در مرد» 
در این جمله، کلمه «مرد» اول نقش اسم دارد و دومی نقش فعل، و کلمه «در» اول حرف اضافه است و دومی اسم. این یکی از راه‌های رفع ابهام از کلمات در حین پردازش است که با تعیین نقش دستوری کلمات در متن محقق شده است، فرایندی که به آن برچسب‌زنی اجزای کلام (POS) گفته می‌شود. رفع ابهام از کلمات هم‌نگاره (Homograph) مانند «مرد، کرد، مهر و ...»، در سامانه‌های تبدیل متن به گفتار و رفع ابهام در کلمات هم‌نامی (Homonym) مانند «در، زبان، شیر و ...» در سامانه‌های ترجمه ماشینی، از جمله کاربردهای این روش برچسب‌زنی متن است.
برچسب‌زنی اجزای کلام برای تعداد زیادی از کلمات در یک متن کار آسانی است چراکه حدود ۶۰% از کلمات یک متن، امکان داشتن فقط یک برچسب را دارند و این برچسب‌زنی در مورد کلماتی که می‌توانند بیش از یک نقش دستوری را داشته باشند، موضوعیت دارد. هرچند در گذشته از روش مبتنی بر قاعده (بر اساس محل کلمه در بافت جمله) استفاده می‌شد، اما رویکرد غالب امروزی، مبتنی بر مدل‌سازی دنباله‌ای داده‌محور با روش‌های آماری (مانند HMM و RBF) و شبکه عصبی (به ویژه شبکه‌های RNN و مبدل‌ها) است. 
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا (دانش‌آموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.

کلید واژه ها: رایانه و زبان فارسی پردازش رایانه‌ای زبان دکتر هادی ویسی موسسه دهخدا آموزش زبان فارسی برچسب‌زنی نحوی​​​​​​​ کلمات هم‌نگاره Homograph روش مبتنی بر قاعده مدل‌سازی دنباله‌ای داده‌محور شبکه عصبی RNN HMM RBF


نظر شما :