پردازش رایانه‌ای زبان

رایانه و زبان فارسی - ۲۲

۱۴ آذر ۱۴۰۰ | ۰۹:۵۳ کد : ۲۴۰۸۳ اینجا فارسی زبان بین‌المللی است
تعداد بازدید:۸۰
رایانه و زبان فارسی - ۲۲

رایانه و زبان فارسی - ۲۲
کاربردهای پردازش رایانه‌ای زبان: دسته‌بندی اسناد
دکتر هادی ویسی
...................................................
اگر یک وب‌سایت جمع‌آوری اخبار داشته باشید که از مراجع مختلف مانند خبرگزاری‌های گوناگون به صورت لحظه‌ای اخبار منتشر شده توسط آنها را دریافت می‌کنید و در سایت خود بازنشر می‌کنید، یکی از کارهای اصلی‌ای که باید انجام بدهید این است که خبرهای دریافتی را در دسته‌های موضوعی موردنظر خود (مانند فرهنگی، علمی، اقتصادی و ...) دسته‌بندی کنید. انجام این کار که آن را تشخیص موضوع هم می‌گویند، علاوه بر وب‌سایت‌های مرجع خبر، در کاربردهای دیگری مانند پایش و تحلیل فضای مجازی مورد نیاز است. 
روش‌ها: در گذشته دسته‌بندی خودکار موضوع با استفاده از روش‌های مبتنی بر قاعده، مانند استفاده از کلمات تخصصی رایج هر موضوع (مانند بسکتبال برای موضوع ورزشی یا بانک برای اقتصادی) انجام می‌شده که کارایی پایینی دارد. امروزه، رویکرد رایج که منجر به دقت بالا در تشخیص درست موضوع شده، روش‌های یادگیری ماشین، به ویژه روش‌های آماری و شبکه عصبی عمیق هستند و از جمله روش‌های نمایش اسناد در آنها، TFIDF (روشی قدیمی اما هنوز مناسب برای این کاربرد)، Word2Vec و BERT است. برای تمایز دادن اسناد با موضوع‌های مختلف ابتدا لازم است ایست‌واژه‌ها (کلماتی که در همه اسناد در همه موضوع‌ها پرتکرار هستند، مانند «و»، «را»، «است» و ...) را حذف کنید!
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا (دانش‌آموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.

کلید واژه ها: پردازش رایانه‌ای زبان رایانه و زبان فارسی دکتر هادی ویسی موسسه دهخدا آموزش زبان فارسی دسته‌بندی اسناد تحلیل فضای مجازی شبکه عصبی TFIDF Word2Vec BERT


نظر شما :