پردازش رایانهای زبان
رایانه و زبان فارسی - ۳۴

رایانه و زبان فارسی - ۳۴
ابزارهای پایه در پردازش رایانهای زبان: حذف ایستواژهها (Stop Words)
دکتر هادی ویسی
...................................................
«به نظرم گوشی خوبی است و قیمت آن مناسبه⤆ نظرم گوشی خوبی قیمت مناسبه»
در برخی از کاربردهای پردازش متن مانند تحلیل احساس و دستهبندی موضوع، برخی از کلمات که پرتکرار هستند و بار محتوایی در آن کاربرد ندارد (مانند از، و، به، است، شد و غیره)، میتوانند به منظور کاهش افزونگی و بار محاسباتی پردازش حذف شوند. این کلمات که اغلب از نوع حروف و برخی فعلها هستند، ایستواژه نامیده میشوند. برای حذف ایستواژهها، لیستی از آنها تهیه شده (که معمولا از یک کاربرد به کاربرد دیگر متفاوت است) و قبل از پردازش اصلی روی متن، به عنوان یک گام پیشپردازش، از متنها حذف میشود. بدیهی است در برخی کاربردها مانند ترجمه ماشینی و درک معنایی (مانند استفاده در چتباتها) این نوع کلمات دارای بار مفهومی مرتبط هستند و نباید حذف شوند
...................................................
پینوشت: امروزه با همهگیر شدن نقش رایانهها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوریهای مرتبط با رایانه بیبهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشتهای کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشتها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغتنامهٔ دهخدا (دانشآموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وبگاه و شبکههای اجتماعیِ مؤسسهٔ لغتنامهٔ دهخدا منتشر میشود.
نظر شما :