پردازش رایانه‌ای زبان

رایانه و زبان فارسی - ۳۴

۲۱ فروردین ۱۴۰۱ | ۱۷:۳۸ کد : ۲۶۹۰۴ اینجا فارسی زبان بین‌المللی است
تعداد بازدید:۲۰۸
رایانه و زبان فارسی - ۳۴

رایانه و زبان فارسی - ۳۴
ابزارهای پایه در پردازش رایانه‌ای زبان: حذف ایست‌واژه‌ها (Stop Words)
دکتر هادی ویسی
...................................................
«به نظرم گوشی خوبی است و قیمت آن مناسبه⤆ نظرم گوشی خوبی قیمت مناسبه»
در برخی از کاربردهای پردازش متن مانند تحلیل احساس و دسته‌بندی موضوع، برخی از کلمات که پرتکرار هستند و بار محتوایی در آن کاربرد ندارد (مانند از، و، به، است، شد و غیره)، می‌توانند به منظور کاهش افزونگی و بار محاسباتی پردازش حذف شوند. این کلمات که اغلب از نوع حروف و برخی فعل‌ها هستند، ایست‌واژه نامیده می‌شوند. برای حذف ایست‌واژه‌ها، لیستی از آنها تهیه شده (که معمولا از یک کاربرد به کاربرد دیگر متفاوت است) و قبل از پردازش اصلی روی متن، به عنوان یک گام پیش‌پردازش، از متن‌ها حذف می‌شود. بدیهی است در برخی کاربردها مانند ترجمه ماشینی و درک معنایی (مانند استفاده در چت‌بات‌ها) این نوع کلمات دارای بار مفهومی مرتبط هستند و نباید حذف شوند
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا (دانش‌آموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.

کلید واژه ها: رایانه و زبان فارسی ابزارهای پایه در پردازش رایانه‌ای زبان ایست‌واژه‌ها دکتر هادی ویسی موسسه دهخدا آموزش زبان فارسی Stop Words


( ۲ )

نظر شما :