پردازش رایانهای زبان
رایانه و زبان فارسی - ۳۱

رایانه و زبان فارسی - ۳۱
ابزارهای پایه در پردازش رایانهای زبان: نمایش کلمات/ متن
دکتر هادی ویسی
...................................................
در دنیای رایانه که همه پردازشها بر پایه اعداد است، برای پردازش متون نیز لازم است کلمات و اسناد متنی به نمایش عددی تبدیل شوند. با داشتن نمایش عددی مناسب از کلمات (تبدیل هر کلمه به یک بردار عددی)، میتوان از این نمایش برای تحلیلهای نحوی، ساختواژی و معنایی کلمات استفاده کرد (مشابه موارد نشان داده شده در شکل)؛ و به صورت مشابه، بعد از تبدیل هر سند متنی به یک بردار عددی معادل، میتوان از این بردار برای تشابهیابی دو متن، تحلیل احساس، تشخیص موضوع و غیره استفاده کرد.
روشهای اولیه برای نمایش عددی کلمات و اسناد، مبتنی بر وجود یا عدم کلمات در یک سند (one-hot/binary)، شمارش تکرار کلمات (TF) و توجه به تمایز وجود کلمات در اسناد مختلف (TFIDF) بوده است که این روشهای سبد کلمات (Bag of Word) به دلیل عدم توجه به ترتیب کلمات در متن و بافت جمله کارایی خوبی ندارد. امروزه، رویکرد مبتنی بر تعبیه (Embedding) که به بافت متن توجه دارد، با روشهای آماری-جبری (مانند LSA و Glove) و یا روشهای مبتنی بر شبکه عصبی و یادگیری عمیق (مانند Word2Vec، FastText و Bert) منجر به نمایش دقیقتر شده و کارایی بالاتری دارند.
...................................................
پینوشت: امروزه با همهگیر شدن نقش رایانهها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوریهای مرتبط با رایانه بیبهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشتهای کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشتها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغتنامهٔ دهخدا (دانشآموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وبگاه و شبکههای اجتماعیِ مؤسسهٔ لغتنامهٔ دهخدا منتشر میشود.
نظر شما :