پردازش رایانه‌ای زبان

رایانه و زبان فارسی - ۳۳

۲۲ اسفند ۱۴۰۰ | ۱۹:۰۳ کد : ۲۶۵۲۰ اینجا فارسی زبان بین‌المللی است
تعداد بازدید:۲۵۴
رایانه و زبان فارسی - ۳۳

رایانه و زبان فارسی - ۳۳
ابزارهای پایه در پردازش رایانه‌ای زبان: قطعه‌بندی/واحدسازی (Tokenization)
دکتر هادی ویسی
...................................................
امید رفته بود وبا دوستانش خوش حال می‌ خندید ⤆ امید، رفته بود، و، با، دوستانش، خوشحال، می‌خندید، ‌
اولین گام در پردازش هر متنی (برای ترجمه، تحلیل احساس، تبدیل به گفتار، درک معنایی و ...)، تبدیل آن به قطعات کوچک‌تر شامل جمله، عبارت و قطعه پایه (Token) مانند کلمه است. این کار هرچند در ظاهر ساده است و می‌تواند با استفاده از علائم سجاوندی (مانند نقطه، علامت سوال و ...) و فاصله (Space) به عنوان جداکننده انجام شود، اما به دلیل وجود واحدهای چندقطعه‌ای (Multi Token Units) مانند «خوش حال» که باید یک قطعه در نظر گرفته شوند، و قطعه‌های چند واحدی (Multi Unit Tokens) مانند «وبا» که باید چند قطعه در نظر گرفته شوند، کار آسانی نیست! 
پیاده‌سازی قواعد نگارشی و فاصله‌گذاری استاندارد، اعمال خطایابی املایی، جمع‌آوری لیست واحدهای چندقطعه‌ای (شامل روش‌های نگارش آنها و صورت استاندارد معادل)، بهره‌گیری از قواعد ابتکاری و گاهی استفاده از روش‌های آماری از جمله روش‌های مورد استفاده در قطعه‌بندی است.
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا (دانش‌آموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.

کلید واژه ها: پردازش رایانه‌ای زبان رایانه و زبان فارسی ابزارهای پایه در پردازش رایانه‌ای زبان قطعه‌بندی واحدسازی Tokenization هادی ویسی موسسه دهخدا آموزش زبان فارسی


نظر شما :