پردازش رایانه‌ای زبان

رایانه و زبان فارسی - ۳۱

۱۷ بهمن ۱۴۰۰ | ۱۱:۰۰ کد : ۲۵۷۷۳ اینجا فارسی زبان بین‌المللی است
تعداد بازدید:۱۷۹
رایانه و زبان فارسی - ۳۱

رایانه و زبان فارسی - ۳۱
ابزارهای پایه در پردازش رایانه‌ای زبان: نمایش کلمات/ متن 
دکتر هادی ویسی
...................................................

در دنیای رایانه که همه پردازش‌ها بر پایه اعداد است، برای پردازش متون نیز لازم است کلمات و اسناد متنی به نمایش عددی تبدیل شوند. با داشتن نمایش عددی مناسب از کلمات (تبدیل هر کلمه به یک بردار عددی)، می‌توان از این نمایش برای تحلیل‌های نحوی، ساخت‌واژی و معنایی کلمات استفاده کرد (مشابه موارد نشان داده شده در شکل)؛ و به صورت مشابه، بعد از تبدیل هر سند متنی به یک بردار عددی معادل، می‌توان از این بردار برای تشابه‌یابی دو متن، تحلیل احساس، تشخیص موضوع و غیره استفاده کرد.  
روش‌های اولیه برای نمایش عددی کلمات و اسناد، مبتنی بر وجود یا عدم کلمات در یک سند (one-hot/binary)، شمارش تکرار کلمات (TF) و توجه به تمایز وجود کلمات در اسناد مختلف (TFIDF) بوده است که این روش‌های سبد کلمات (Bag of Word) به دلیل عدم توجه به ترتیب کلمات در متن و بافت جمله کارایی خوبی ندارد. امروزه، رویکرد مبتنی بر تعبیه (Embedding) که به بافت متن توجه دارد، با روش‌های آماری-جبری (مانند LSA و Glove) و یا روش‌های مبتنی بر شبکه عصبی و یادگیری عمیق (مانند Word2Vec، FastText و Bert) منجر به نمایش دقیق‌تر شده و کارایی بالاتری دارند.
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا (دانش‌آموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.

کلید واژه ها: ابزارهای پایه در پردازش رایانه‌ای زبان رایانه و زبان فارسی هادی ویسی موسسه دهخدا آموزش زبان فارسی نمایش کلمات تشابه‌یابی دو متن تحلیل احساس یادگیری عمیق


نظر شما :