پردازش رایانهای زبان
رایانه و زبان فارسی - ۳۳

رایانه و زبان فارسی - ۳۳
ابزارهای پایه در پردازش رایانهای زبان: قطعهبندی/واحدسازی (Tokenization)
دکتر هادی ویسی
...................................................
امید رفته بود وبا دوستانش خوش حال می خندید ⤆ امید، رفته بود، و، با، دوستانش، خوشحال، میخندید،
اولین گام در پردازش هر متنی (برای ترجمه، تحلیل احساس، تبدیل به گفتار، درک معنایی و ...)، تبدیل آن به قطعات کوچکتر شامل جمله، عبارت و قطعه پایه (Token) مانند کلمه است. این کار هرچند در ظاهر ساده است و میتواند با استفاده از علائم سجاوندی (مانند نقطه، علامت سوال و ...) و فاصله (Space) به عنوان جداکننده انجام شود، اما به دلیل وجود واحدهای چندقطعهای (Multi Token Units) مانند «خوش حال» که باید یک قطعه در نظر گرفته شوند، و قطعههای چند واحدی (Multi Unit Tokens) مانند «وبا» که باید چند قطعه در نظر گرفته شوند، کار آسانی نیست!
پیادهسازی قواعد نگارشی و فاصلهگذاری استاندارد، اعمال خطایابی املایی، جمعآوری لیست واحدهای چندقطعهای (شامل روشهای نگارش آنها و صورت استاندارد معادل)، بهرهگیری از قواعد ابتکاری و گاهی استفاده از روشهای آماری از جمله روشهای مورد استفاده در قطعهبندی است.
...................................................
پینوشت: امروزه با همهگیر شدن نقش رایانهها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوریهای مرتبط با رایانه بیبهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشتهای کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشتها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغتنامهٔ دهخدا (دانشآموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وبگاه و شبکههای اجتماعیِ مؤسسهٔ لغتنامهٔ دهخدا منتشر میشود.
نظر شما :