تألیف لغتنامه‌ها

نشست دگرگونی دیجیتال(۲)

۲۹ مهر ۱۴۰۰ | ۱۲:۲۲ کد : ۲۲۶۵۵ اینجا فارسی زبان بین‌المللی است
تعداد بازدید:۱۵۷

دیجیتال کردن فرایند تألیف لغتنامه‌ها- دکتر مهرنوش شمس‌فرد
نشست دگرگونی دیجیتال در لغت‌نامه دهخدا وآموزش زبان فارسی - قسمت دوم

.............

توضیح: نشست «دگرگونی دیجیتال در لغت‌نامه دهخدا وآموزش زبان فارسی»، عنوان یک نشست تخصصی است که در شهریورماه ۱۴۰۰ در اولین جشنواره دیجیتال دانشگاه تهران، توسط مؤسسه لغت‌نامه دهخدا و مرکز بین‌المللی آموزش زبان فارسی به صورت برخط برگزار شد. در این نشست دکتر محمود بی‌جن خان (استاد دانشگاه تهران و رئیس مؤسسه لغت‌نامه دهخدا و مرکز بین المللی آموزش زبان فارسی دانشگاه تهران)، دکتر مهرنوش شمس فرد (دانشیار دانشگاه شهید بهشتی) و دکتر دارا تفضلی (پژوهشگر در دانشگاه نیوکاسل استرالیا) به ارائه مطلب پرداختند. مدیریت این نشست بر عهده دکتر هادی ویسی (دانشیار دانشکده علوم و فنون دانشگاه تهران و معاون علمی مؤسسه دهخدا) بود که ایشان نیز در خصوص چگونگی دیجیتال شدن مؤسسه دهخدا، مطلب خود را ارائه کردند. برای استفاده بهتر علاقه‌مندان این نشست به صورت نوشتاری پیاده سازی شده و در سه قسمت در اختیار علاقه مندان قرار می‌گیرد. همچنین نسخه دیداری و شنیداری این نشست در وبگاه مؤسسه لغت‌نامه دهخدا (ذیل همین صفحه) قرار دارد.

.............

هادی ویسی: خانم دکتر شمس‌فرد، برای افرادی که در حوزه پردازش زبان طبیعی کار می‌کنند چهره شناخته شده‌ای هستند. ایشان مدرک دکتری هوش مصنوعی دارند و دانشیار دانشکده مهندسی علوم و کامپیوتر دانشگاه شهید بهشتی هستند. ایشان مدیر آزمایشگاه پردازش زبان و و مدیر پروژه هستان شناسی زبان فارسی هستند. بیش از ده سال است که در این حوزه فعالیت می‌کنند و در حوزه زباشناسی رایانشی یکی از گنجینه‌های زبان فارسی هستند. ایشان همچنین مدیر گروه زبان و رایانه فرهنگستان زبان و ادب فارسی، مدیر چند پروژه مرتبط با تالیف و توسعه مانند اتوماسیون فرهنگ نویسی (سامانه فرهنگ‌یار) و مولف چندین کتاب و فصل کتاب و انتشارات با ارزش در این حوزه نیز بوده‌اند. من بار دیگر ضمن تشکر از قبول زحمت خانم دکتر شمس‌فرد، جلسه را در اختیار ایشان قرار می‌دهم.

مهرنوش شمس‌فرد: خیلی ممنون آقای دکتر ویسی از دعوتتون و ارائه مفیدی که داشتید و معرفی بنده. اگر اجازه فرمایید من بحثم را تحت عنوان «دیجیتال کردن فرایند تالیف لغتنامه‌ها» خدمتتان ارائه می‌کنم. من یک مقدمه‌ای در مورد اساساً واژه نامه‌ها و منابع واژگانی خواهم گفت و سعی می‌کنم سه نمونه از کارهای انجام شده در این حوزه را معرفی کنم.
قبل از اینکه وارد پنل گفتگو بشویم، منابع واژگانی‌ما - در واقع پیکره‌های واژگانی و واژه نامه‌ها- منابعی هستند که هر مدخل آن‌ها، یک واژه یا یک عبارت است و برای مدخل اطلاعاتی ذخیره می‌شود. در نتیجه تفاوت این منابع واژگانی در اطلاعاتی که ما برای مداخل ذخیره می‌کنیم لغت نامه‌ها، واژگان‌های دوزبانه و تک زبانه، دیکشنری‌ها، فرهنگ‌های لغت، فرهنگ جامع، اصطلاح نامه، دانشنامه و همه این‌ها در واقع، ذیل همین عنوان قرار می‌گیرند. پس مطالبی را که من در مورد دیجیتال کردن آن‌ها خواهم گفت بر همه این‌ها می‌تواند تسری پیدا کند.
فرایند عمو‌می تالیف و نشر را می‌توانیم در چهار مرحله: یافتن و انتخاب مدخل، یافتن تالیف و ویژگی‌های مدخل و یافتن ارجاعات و روابط خلاصه کنیم و درنهایت نگهداشت و به روز رسانی این منبع چیزی است که باید توجه ویژه شود که البته در آن، یافتن و انتخاب مدخل، تهیه و یا ارجاع به پیکره مناسب، خیلی مهم است که آن را هم بعداً در موردش صحبت خواهم کرد.
اگر ما بخواهیم در تالیف لغت‌نامه از ماشین استفاده کنیم از چند منظر می‌توانیم اینکار را انجام دهیم یکی اینکه سیستم‌های اتوماسیونی بسازیم که به تالیف انسانی کمک کند.. اینکه واقعاً مولف انسان است و ما فقط آن فضای لازم را برای کمک به آن، در واقع اتوماتیک کردن این فرایند ایجاد کنیم. دوم اینکه ما بیاییم اساساً تالیف را خودکار بکنیم حالا در بخش‌هایی و نه الزاماً همه بخش‌ها. از مکانیزم‌های هوشمند و سیستم‌های هوشمند پردازشی استفاده کنیم و در واقع بخشی از آن دیتا که قرار است انسان در این تالیف ایجاد کند ماشین برایش فراهم کند.
جای دیگری که می‌توانیم استفاده کنیم در نشرو نگه داشت و بروز رسانی است. مثلاً کاری که موسسه دهخدا برای لغت‌نامه دهخدا انجام داده یا فرهنگستان در بعضی از دانشنامه‌ها انجام داده است. در واقع نشرش را الکترونیکی کرده و دسترسی را به آن‌ها فراهم کرده است و نگهداری می‌کند و عملاً بروز رسانی اینجا اتفاق می‌افتد. من روی طیفی از ساخت دستی یا تالیف دستی این واژه نامه‌ها تا تولید سیستم‌های هوشمند تولید واژگان این‌ها را قرار داده‌ام. در اینجا سه تا محصول را معرفی می‌کنم استفاده از ابزارهای اتوماتیک تالیف در محصول فرهنگیار استفاده از جمع سپاری و خرد جمعی در محصول واژه یار و استفاده از سیستم‌های هوشمند تولید واژگان در محصول فارسی.
ابتدا به فرهنگنویسی با فرهنگیار یک نگاهی داشته باشیم. فرهنگیار، یک محصولی است که ما برای فرهنگستان زبان و ادب فارسی برای تولید فرهنگ جامع زبان فارسی تولید کردیم. در فرهنگ نگاری سنتی قبل از اینکه اساساً خیلی کامپیوتر وارد این حوزه شود، مثلاً زمانی که مرحوم دهخدا لغتنامه دهخدا را می‌نوشتند، این بود که حجم زیادی از کتب باید مطالعه می‌شد، مداخل از داخل این کتب استخراج می‌شد و فیش‌برداری به صورت دستی انجام می‌شد و در نهایت حجم زیادی از فیش‌ها را داشتیم، که شما گفتید ۲.۵ میلیون فیش برای لغت‌نامه دهخدا موجود است حالا اگر کسی بخواهد از این‌ها فرهنگ بسازد باید فرایند فرهنگ نویسی دستی را ایجاد کند، یعنی همه این فیش‌ها را مطالعه کند و بینشان ارجاع ایجاد کند و من این را می‌گویم «فرهنگ نگاری باستانی» تا «سنتی».
یک قدم جلوترکاری بود که فرهنگستان قبل از ورود ما به این مجموعه انجام می‌داد. در این فرایند مدیر مجموعه از روی کتاب‌های متعددی پیکره‌ای را تولید کرده بود. کتاب پیکره نگارها را می‌خواندند و جملاتی را که انتخاب می‌‌کردند به عنوان شواهد داخل یک فایل اکسل وارد می‌کردند و بعد یک ابزار «فاکس‌پرو»یی هم داشتند که می‌‌توانستند در محیط آن جستجو کنند. که البته خیلی ضعیف بود با دقت کم و سرعت کم. در همان شیوه وقتی می‌خواستند فرهنگ نگاری انجام دهند، مدیر گروه تعدادی «سرمدخل» را تحویل تالیف نگارها می‌داد و مولفین در فایل‌های word با شیوه نامه‌ای که داشتند - که همه هم رعایت نمی‌‌کردند- وارد می‌‌کردند و این فایل‌ها را پرینت می‌‌گرفتند و پرینت‌ها بین افراد مختلف دست به دست می‌‌شد. روی پرینت‌ها، ویراستاری انجام می‌شد. یعنی علامت‌ها و یادداشت‌ها دستی روی پرینت‌ها اعمال می‌شد و بر‌می‌گشت. این فرایند تکرار می‌شد تا اینکه نهایتاً یک تعداد فایل word ایجاد می‌شد که لازم بود با هم ادغام شوند، تناقض‌ها رفع شود، ارجاعات ایجاد شود و در نهایت پس از ایجاد فرمت و صورت بندی نهایی، برای چاپ ارسال شود که از اشکالات این فرایند می‌توان به کندی زیاد و طاقت فرسا بودن مراحل کار اشاره کرد.
زمانی که ما به این مجموعه پیوستیم، بیش از ده سال بود که این فرآیند برای جلد اول فرهنگ جامع طول کشیده بود و هنوز این جلد چاپ نشده بود و هزینه گزافی برای رعایت مسائل جانبی هزینه شده بود مثل نوع قلم، اندازه، ساختاراسناد در word، چک کردن سازگاری‌ها بین wordهای مختلف توسط تالیف نگاران یا ویراستاران که اصلاً وظیفه آن‌ها نبود و روش متمرکزی برای ذخیره سازی مداخل موجود نبود. همچنین اگر کامپیوتر یکی از این عزیزان هاردش از دست می‌رفت، کل مدخل‌ها از بین رفته بود روش منظمی برای تجمیع مداخل نگاشته شده وجود نداشت. ناسازگاری به وفور دیده می‌شد و راهی برای پیگیری موثر کامنت‌هایی که ویراستار می‌گذاشت و انجامش می‌داد، بین نسخه‌های مختلف وجود نداشت. جستجوی الکترونیکی عملاً در فرهنگ ممکن نبود و خیلی به صورت ضعیف در این فایل‌ها فقط با کیبورد امکان جستجو داشت.
ما یک سامانه به اسم فرهنگیار و در دو بخش ایجاد کردیم. یک بخش پیکره‌نگاری و یک بخش فرهنگ‌نویسی داشت که کل فرایند را الکترونیکی کردیم و که کاهش زمان و هزینه داشتیم. در خصوص امکانات، این سامانه اجازه می‌داد افراد همزمان، فرهنگ نگاری را در محیط وب انجام دهند و به صورت خودکار به پیکره هم وصل شوند در نتیجه تغییرات فرهنگ و پیکره همزمان به روز می‌شدند. از طریق فرهنگ‌نویسی هم امکان اضافه کردن شاهد به پیکره وجود داشت. اگر طرف ما هرکاری روی پیکره - تگ های پی یو اس و تگ سنس- اضافه می‌شد، همزمان یک پیکره تگ خورده برای کاربران ایجاد می‌کردیم و هم اینکه فرهنگ بود. امکان مرتب سازی و خروجی فرهنگ در هر زمان فراهم بود یعنی آن چیزی که قرار بود چاپ شود دیده می‌شد و امکان اصلاح وجود داشت. جستجوها به روز رسانی شد و کاربران را به دسترسی‌های مختلف تعریف کردیم و به این ترتیب به صورت خودکار جایی که فرهنگ‌نگار مدخلی را درست می‌کرد، ویراستار می‌توانست کامنت بگذارد یا اصلاح بخواهد و فرهنگ نگار می‌توانست پاسخ آن اصلاح را بدهد که همه این موارد در همان ابزار فرهنگیار انجام می‌شد.
در پشت صحنه نیز ما یک داده ساخت یافته‌ای را هم فراهم کردیم که هر زمان فرهنگستان اجازه استفاده از آن را می‌داد، کسانی که کار تالیف زبان می‌کردند، از آن داده عظیم می‌توانستند استفاده کنند. همچنین کارهای نرم افزاری مثل: ذخیره سازی امن، پشتیبانی، نسخه بندی‌ها و تغییر فرمت در هر زمان، از ویژگی‌های فرهنگیار بود. به عنوان نمونه دو اسکرین شات از خروجی فرهنگیار را ملاحظه فرمایید. همانطور که می‌بینید مثلاً قبلاً در این زیر‌نویس و یا بالانویس‌ها، اگر یک سنس می‌خواستید اضافه کنید، به دلیل اینکه دستی انجام می‌شد، کل ریفرنس‌های صفحه‌های قبل وبعد به هم می‌خورد، اگر مدخلی به این مدخل ریفرنس داده بود وگفته بود ریفرنس دوم، آن هم به می‌خورد و اصلاً امکان بروز‌رسانی نبود. به عبارت دیگر زمانی‌که ما وارد پروژه فرهنگ جامع شدیم، اصلاً فرهنگ جامع امکان ادامه حیات نداشت، یعنی باید همانجا قطعش می‌کردند و الان الحمدالله - تا قبل از کرونا- جلد سوم فرهنگ هم به کمک فرهنگیار چاپ شده و خدا را شاکریم که توانستیم خدمتی را ارائه کنیم.
در بحث بعدی من می‌خواهم یک نمونه از کار جمع سپاری خدمتتان ارائه کنم. یکی از معضلاتی که گروه واژه گزینی در خروجی‌های واژه‌گزینی روبرو بود، این بود که سرعت افزایش واژهای خارجی در متون- خصوصاً در متون علمی- به مراتب بیشتر از سرعت واژه‌گزینی فرهنگستان بود. ما برای اینکه کمک کنیم به کسانی که احتیاج به معادل های فارسی دارند و منتظر فرهنگستان نمانند، یا وقتی در این انتظار هستند، واژه‌های متعدد و بعضاً غلط تولید نکنند؛ سامانه «واژه یاب» را پیشنهاد کردیم. این سامانه چند وظیفه اصلی داشت؛ یکی دسترسی به معادل‌های مصوب فرهنگستان، که با انواع جستجوها یعنی: واژه انگلیسی با حروف انگلیسی، واژه انگلیسی با حروف فارسی، تلفظ کلمه، کلمه فارسی، بخشی از کلمه و یا حتی توضیح کلمه؛ این سامانه بازیابی می‌کند که در فرهنگستان چنین چیزی وجود نداشت. در این سامانه افراد می‌توانند معادل واژه جدید، پیشنهاد دهند یا ویرایش واژه جدید پیشنهاد دهند و در سامانه به اسم آن فرد ثبت می‌شود و امتیاز مشخصی به او تعلق می‌گیرد و بقیه می‌توانند رای دهند. این فرایند باعث می‌شود افرادی که به دنبال یک معادل هستند، وقتی می‌بینند این معادل را مثلاً چون آقای دکتر بی‌جن‌خان معرفی کرده‌اند، پس امتیاز بالایی دارد و از آن استفاده می‌کنند. یا معادل های دیگر را می‌ببینند و لایک و دیس‌لایک‌ها باعث می‌شود که ما در نهایت کلماتی را که جستجو روی آن‌ها زیاد بوده، یعنی اینکه عامه مردم به آن نیاز داشتن و یا آن‌هایی را که لایک بالا خورده، یا آن‌هایی که افراد شناخته شده‌تری معرفی کردند، همه اینها را دسته بندی می‌کنیم و برای گروه واژه گزینی، برای تصویب، ارسال می‌کنیم.
از پنل مدیریتی به علت کمی‌زمان عبور می‌کنم. چهل هزار مدخل از طرف فرهنگستان در این سیستم است، تعدادی مدخل از کتاب‌ها‌یی که همکارامان تالیف کردند وارد کردیم و حدود یکهزار واژه در حوزه کامپیوتر اضافه شده است. همچنین ما استقبال می‌کنیم از اینکه درحوزه‌های دیگر یا در همین حوزه، دوستان معادل‌هایی را که دارند برای ما ارسال کنند که وارد سامانه واژه یاب کنیم.
آخرین سیستمی‌که می‌خواهم درمودش صحبت کنم خلاصه سیستم «فارسی نت» است. اینجا دیگر ما نزدیک به انتهای طیف هستیم- البته در واقع ما هر چقدر جلو برویم سیستم‌های هوشمند می‌توانند ابزارهای پیشرفته‌تری ایجاد کنند - در واقع جایی هستیم که ما از هوش مصنوعی استفاده کردیم، برای اینکه مدخل‌ها، تعاریفشان و روابطشان را بتوانیم تولید کنیم. در فارس نت، ما یکصد هزار مدخل واژگانی داریم-کلمه و عبارت- اینها هر کدامشان دارای یک تعداد سنس هستند، دارای مقوله نحوی هستند و شکل اصلی و شکل‌های دیگر نوشتاریشان را داریم. اگر یک واژه را به چند گونه می‌نویسیم، همه آن‌ها در فارس نت وجود دارد. شکل‌های گفتاری اصلی و گونه‌های گفتاری دیگرشان را داریم. اگر گاهی اوقات مثلاً: مِداد و مَداد، این شکل‌های گفتاری هم دیده شده اما شکل گفتاری اصلی به گویش تهرانی است. اصطلاعات نوعی شامل سنس‌های مختلف کلمه، اطلاعات نحوی شامل اطلاعات نحوی آن معنای مختلف برای هر سنس و هر نحوی را نگه می‌داریم. هر معنی را در مجموعه ترادف می‌گوییم با چه کلمه‌هایی مترادف است. برای مجموعه ترادف در واقع دسته معناییش توضیح و مثال داریم و روابط درون‌مقوله‌ای و بین مقوله‌ای مختلف مثل روابط شمول، پدر فرزندی، جزء واژگی، کل واژگی، مقدار، روابط مربوط به آرمانهای معنایی مثل عامل پذیر، ابزار، مکان و غیره و وروابط بین سنس‌ها و روابط اشتباهی، تضاد، هم گروهی و روابط بین افعال مرکب و اجزاء شان را داریم. من اینجا چند نمونه می‌آورم. مثلاً: مدخل «لطمه زدن» هم در معنای اسم مصدری داریم، هم در معنای فعلی، و اسم مصدری به صورت آوایی داریم که این اسم مرکب و اسم مصدری است و برای شکل فعلیش صورت آوایی را داریم. بن ماضی، بن مضارع، معلوم یا مجهول، گذارو چه نوع گذاری، اصطلاح هست یا نه، روابط معنایی، کلمه یا مدخل. مثلاً واژه «شانه» دارای چند معنی است: شانه خاکی کنار جاده که رابطه دارد با آسفالت. حالا هر کدام این رنگ‌های یک معنی را دارد: شانه تخم مرغ، شانه عسل، شانه کتف، شانه‌ای که سرمان را با آن شانه می‌کنیم و اینها همه روابط معنایی کلمه شانه است. برای همان واژه شانه می‌بینیم که هر معنیش اطلاعات نحوی هم دارد مثلاً اسم عام یا خوانش آن چیست؟ شکل آوایی آن چیست؟ که در هر سنسی توضیح و مثالش را داریم. به عنوان آمار همانطور که گفتم ۱۰۰ هزار واژه داریم که برای آن‌ها ۱۹ هزار صورت دیگر نوشته شده است. ۸ هزار صورت دیگر آوایی و ۱۱۳ هزار سنس معنی، ۴۱ هزار مجموع ترادف و ۱۰۰ هزار رابطه بین این مجموعه‌ها، ۳۱ هزار بین معانی و از این مجموع ۳۲ هزار ترادف به انگلیسی نگاشته شده است.
من به عنوان جمع بندی در اسلاید آخر می‌خواهم بگویم ابزارهای مختلفی برای فرهنگ نگاری تالیف لغت‌نامه‌ها و ایجاد واژگان مختلف فراهم شده است ولی هنوز خیلی از مولفین از شیوه‌های قدیمی‌برای تالیف لغت‌نامه یا فرهنگ استفاده می‌کنند. به کارگیری روش‌های هوش مصنوعی می‌تواند کمک شایانی به تالیف منابع بزرگ‌تر، دقیق‌تر و با حجم زمان کمتر داشته باشد ولی لازمه آن این است که متخصصین علوم انسانی با امکانات فناوری آشنا شوند و متخصصین فناوری با نیازهای جامعه علوم انسانی و به طور خاص حوزه زبانشناسی یا تولید واژه نامه‌ها.
من در تجربه‌ای که تا حالا داشتم- بیش از بیست سال تجربه زبان فارسی و بیش از ۱۵ سال با مجموعه‌های علوم انسانی خصوصاً زبانشناسی- به نظر من در حوزه تالیف لغت‌نامه، بزرگترین مانع مقاومت زبانشناسان در حرکت به سمت دیجیتالی شدن است موضوعی را که آقای دکتر ویسی گفتند با ایجاد این فرهنگ، انشالله این مانع بر طرف خواهد شد. من نکته دیگری ندارم و تشکر می‌کنم و در خدمتتون هستم.

دکتر ویسی: خیلی متشکرم خانم دکتر شمس فرد. مثل همیشه عالی بود.

.................

پایان قسمت دوم نشست


لینک دانلود فایل

کلید واژه ها: دگرگونی دیجیتال در لغت‌نامه دهخدا دکتر مهرنوش شمس فرد موسسه دهخدا آموزش زبان فارسی دیجیتال کردن فرایند تألیف لغتنامه‌ها


نظر شما :