وردنت
وردنت (به انگلیسی: WordNet) یک پایگاه دادگانِ واژگانی برای زبان انگلیسی است. وردنت واژههای انگلیسی را به مجموعههای مترادفی که synsets نامیده میشود، گروهبندی میکند، تعاریف کوتاه عمومی را بهدست میدهد، و روابط مترادفهای گوناگون را با این مجموعههای مترادف ضبط میکند. هدف جمعکردن دو قسمت: برای تولید ترکیبی از دیکشنری و مجموعه اطلاعات است که ذاتاً خیلی مفید است و برای پشتیبانی از تحلیل متن خودکار و کاربردهای هوش مصنوعی بهکار میرود. پایگاه دادگان و ابزارهای نرمافزار تحت پروانههای بیاسدی است و میتوان آنها را رایگان دانلود و از آن استفاده کرد. این پایگاه دادگان را همچنین میتوان آنلاین پیمایش کرد.
انتشار ابتدایی | اواسط دهه ۱۹۸۰ |
---|---|
انتشار پایدار | |
سیستمعامل | یونیکس، لینوکس، سولاریس |
حجم | 16MB |
در دسترس به | انگلیسی |
گونه | پایگاه داده واژگانی |
وبگاه |
تاریخ و اعضای تیم
WordNet در لابراتوار علوم شناختی در دانشگاه پرینستون تحت مدیریت استاد روانشناسی، جرج آرمیتاژ میلر در ۱۹۸۵ که از ۱۹۸۵ فعالیت خود را آغاز کرده ایجاد شد و در سالهای اخیر نیز تحت مدیریت کریستین فلابوم قرار داشتهاست. این پروژه پشتیبانی مالی خود را از آژانسهای دولتی دریافت میکند، منجمله بنیاد ملی علوم، DARPA، دفتر فناوریهای پراکنده (سابقاً: فعالیتهای پیشرفته تحقیق و توسعه)، و REFLEX. جرج میلر و کریستین فلابوم در سال ۲۰۰۶ به دلیل فعالیت روی WordNet برنده جایزه آنتونیو زامپولی شدند.
محتوای پایگاه داده
در نوامبر ۲۰۱۲، آخرین نسخه آنلاین WordNet، ۳٫۱ بود. دیتابیس آن حاوی ۱۵۵٫۲۸۷ کلمه بود به ۱۱۷٫۶۵۹ ترکیب مختلف و مجموعاً ۲۰۶٫۹۴۱ جفت کلمه معنادار، چیده شده بودند. اندازه این دیتابیس به شکل فشرده حدود ۱۲ مگابایت بود. WordNet شامل گروههای لغوی اسمها، فعلها، صفتها و قیدها بود اما حرفهای اضافه، صفتهای اشاره و دیگر لغات کاربردی را نادیده گرفته بود. واژههای گروههای مشابه لغوی که نسبتاً مترادف بودند، در یک گروه نحوی دستهبندی میشدند. این گروهها شامل کلمات ساده و نیز هم خانوادهها مانند خوردن و تناول کردن میباشند. مجموعه واژههای چند معنایی در گروههای مختلف مترادف قرار میگیرند. معنای یک مترادف میتواند از طریق توضیح مختصر یک کلمه دیگر یا چند مثال کاربردی، بیشتر روشن شود. یک نمونه از مترادفهای صفتی عبارتند از: خوب، درست، مناسب- (مناسبترین یا درستترین برای یک هدف خاص؛ زمان خوب برای کاشت گوجه فرنگی، زمان مناسب برای عمل، زمان درست برای انجام تغییرات بزرگ اجتماعی). همه مترادفها با دیگر مترادفهای مرتبط هممعنی، ارتباط دارند. این روابط، که بین همه گروههای لغوی مشترک نیستند، عبارتند از:
اسامی
هایپرنیمها: Y یک هایپرنیم X است اگر هر X یک نوع Y باشد (کانین یک هایپرنیم از خانواده سگهاست) هیپونیمها: Y یک هیپونیم از X است اگر هر Y یک نوع X باشد (سگ یک هیپونیم از خانواده کانین هاست) عبارات متناسب: Y یک شرط متناسب از X است اگر X و Y دارای هاپرنیم مشترک باشند (گرگ یک عبارت متناسب از سگ است، و سگ یک عبارت متناسب از گر) مرونیم: Y یک مرونیک از X است اگر Y بخشی از X باشد (پنجره یک مرونیم از ساختمان است) هولونیم: Y یک هولونیم از X است اگر X بخشی از Y باشد (ساختمان یک هولونیم از پنجره است)
فعلها
هایپرنیم: فعل Y یک هایپرنیم از فعل X است اگر فعالیت X یک نوع Y باشد (درک کردن یک هایپرنیم از گوش کردن است) تروپونیم: فعل Y یک تروپونیم از فعل X است اگر فعالیت Y به نوعی از طریق فعالیت X انجام شود (تلفظ کردن یک تروپونیم از صحبت کردن است) مشروط: فعل Y شرطی از X است اگر با انجام X شما باید Y را هم انجام دهید (خرناس کردن مشروط به خوابیدن است) عبارات متناسب: افعالی که دارای هایپرنیم مشترکند (تلفظ کردن و فریاد زدن) این روابط معنایی در میان اهمه اعضای مترادفهای مرتبط وجود دارد. اعضای (واژههای) مترادف مجزا میتوانند از طریق روابط لغوی نیز به هم مرتبط شوند. برای مثال (یک معنای) از اسم مدیر مرتبط با (یک معنا از) کلمه مدیریت میباشد که از آن نوعی ارتباط ریختشناسی معنایی است. کارکردهای ریختشناسی نرمافزار توزیع شده روی دیتابیس، تلاشیست برای کاهش قیاس منطقی یا شکل ریشه ای یک واژه از ورودی کاربرد. شکلهای بیقاعده در یک فهرست ذخیره میشوند و برای مثال، گذشته فعال خوردهاست، خورده بود میشود.
ساختار دانش
هم اسمها هم فعلها به صورت سلسله مراتبی چیده میشوند و بر اساس هایپرنیم یا روابط ISA تعریف میشوند. برای نمونه، یک معنای کلمه سگ در سلسله مراتب هایپرنیم زیر یافت میشود. کلماتی که در یک سطح قرار میگیرند، اعضای مترادف یکسان را نشان میدهند. هر مجموعه از مترادفها دارای یک شاخص منحصربه فرد است. dog, domestic dog, Canis familiaris => canine, canid => carnivore => placental, placental mammal, eutherian, eutherian mammal => mammal => vertebrate, craniate => chordate => animal, animate being, beast, brute, creature, fauna => ...
در سطح بالا، این سلسله مراتبها به صورت ۲۵ درخت شروع برای اسمها و ۱۵ مورد برای فعلها چیده شدهاند (که فایلهای لغتنویسی در سطح خاص نامیده میشوند). همه اینها مرتبط با یک مترادف ابتدایی منحصربه فرد به نام ورودی میباشند. سلسله مراتب اسمها نیز خیلی پایینتر از سلسله مراتب فعلهاست. صفتها در درختان سلسله مراتبی چیده نشدهاند. در واقع دو متضاد محوری مانند گرم و سرد، ساختارهای دوگانه را تشکیل میدهند. در حالی که مترادفهای مرتبط مانند بخار کردن و خنک شدن، از طریق روابط مشابهت به یکدیگر مرتبط میشوند. صفتها میتوانند با این روش به صورت دمبل تصویرسازی شوند تا به صورت درخت.
ابعاد زبانی-روانی WordNet
هدف اولیه پروژه WordNet، ایجاد یک دیتابیس لغوی است که عمدتاً تشکیل شده از تئوریهای حافظه معنایی انسان که در اواخر دهه ۱۹۶۰ مطرح شدند. تجربیات یا آزمایشها زبانی-روانی نشان میدهند متکلمین دانش خود از مفاهیم را به شکل اقتصادی سلسله مراتبی، سازماندهی میکنند. زمان بازیابی مورد نیاز برای دسترسی به دانش مفهومی، ارتباط نزدیکی با تعداد سلسله مراتبهایی دارد که متکلم به آنها برای عبور به سمت دسترسی به دانش نیاز دارد؛ بنابراین متکلمین میتوانند با سرعت بیشتری میتوانند تأیید کنند که قناریها میتوانند آواز بخوانند، چون قناری یک پرنده آوازخوان است (خواندن یک ویژگی ذخیره شده در همان سطحی است که قناری ذخیره شده)، اما برای تأیید اینکه قناریها میتوانند پرواز کنند، نیاز به زمان تأیید کمی بیشتر است (جایی که آنها باید به مفهوم پرنده در سطح خیلی بالاتر رجوع کنند)، و حتی زمان بیشتری برای تأیید اینکه قناریها پوست دارند لازم است (چون لازم است به سطوح مختلف هیپونومی تا سطح بالای حیوان مراجعه شود). در حالی که این آزمایشها و تئوریهای پشت آنها عمدتاً مورد انتقاد قرار میگیرند، بخشی از ساختار WordNet منطبق با شواهد آزمایشها تجربی است. برای مثال، مشکل در قدرت تکلم به صورت خاص روی توانایی متکلمین برای تولید واژههای گروههای خاص معنایی تأثیر میگیرد، چیزی که سلسله مراتب WordNet محسوب میشود. صفتهای متضاد (صفتهای اصلی WordNet در ساختار دمبلی) خیلی بیشتر از اینکه به صورت تصادفی روی دهند، به صورت همزمان آورده میشوند، نکته ای که در مورد خیلی از زبانها صدق میکند.
وردنت از نظر هستی شناسی واژگان
وردنت بعضی اوقات یک هستیشناسی نامیده میشود (یه ادعای محکم که سازندگانش آن را نمیسازند. رابطههای هم خانوادگی و وابستگی بین اسمهای هممعنی میتوانند به عنوان روابط تخصصی بین دستههای مفهومی ترجمه شوند. به عبارت دیگر ووردنت میتواند به عنوان یک هستیشناسی واژگان در علم رایانه ترجمه و استفاده شود. با این وجود یک چنین هستیشناسی ای باید قبل از اینکه استفاده شود اصلاح شود چرا که صدها ناسازگاری معنایی مبتدی دارد مانند(۱) وجود تخصصهای رایج در دستههای منحصر به فرد و(۲) فراوانی در سلسله مراتب تخصص. از این فراتر تبدیل وردنت به یک هستیشناسی واژگان قابل استفاده برای ارایهٔ علمی باید در بربگیرد (۱) شخیص روابط تخصصی به بالای واژه و نمونهٔ روابط و (۲) شریک شود با شناسندههای منحصر به فرد ذاتی هر دسته. با این وجود این چنین اصلاحات و و تبدیلات به عنوان بخشی از مجتمع سازی وردنت۱٫۷ به علوم قابل ارتقا با تشریک مساعی برپایهٔ webKB-2 انجام و مدرک سازی شدهاند. بیشتر پروژههایی که ادعای دوباره استفاده کردن از وردنت را برای برنامههای کاربردی براساس علوم (عموماً بازیابی اطلاعات متمایل به علم) دارند به سادگی مستقیماً از آن استفاده میکنند. وردنت همچنین به وسیلهٔ یک هیبرید بالا و پایین متالوجی به یک مشخصهٔ خودمونی تبدیل شدهاست برای بازگشایی روابط از وردنت و این انجمنها را در یک ست لغات روابط مفهومی ترجمه میکند که بهطور غیررسمی در DOLCE هستیشناسی شالوده ای تعریف شدهاند. در بیشتر کارها که ادعا میکنند وردنتی یکپارچه در هستیشناسی دارند محتوای وردنت به سادگی در مواقعی که ضروریه اصلح نشدهاند در عوض وردنت به شدت در مواقع مناسب باز ترجمه و به روزرسانی شدهاست. این در حالتیه که بهطور مثال سطح بالایی هستیشناسی وردنت طبق OntoClean یا وقتی که وردنت استفاده شده به عنوان یک منبع ابتدایی برای ساخت کلاسهای SENSUS هستیشناسی باز ساخت یافتهاست.
محدودیتها
وردنت شامل اطلاعاتی از قبیل تلفظ لغات نمیشود و تنها اطلاعات محدودی در رابطه با کاربرد لغات دارد. وردنت هدف دارد که بیشتر لغات روز انگلیسی را پوشش دهد و شامل تعداد زیادی از دامنههای واژگان فنی نمیشود. وردنت معمولترین روش برای درک لغات از طریق لغت نامهٔ محاسباتی انگلیسی میباشد. با این وجود استدلال آوردهاند که وردنت برتریهای حسی را رمزگذاری میکند به طوری که آنها خیلی ریز هستند. این مسئله سیستم WSD را از رسیدن به یک سطح از نمایش که با انسانها مشترک شود را بازمیدارد. مسئلهٔ دانهدانه بودن به پیشنهاد طبقهبندی کردن روشها که بهطور اتوماتیک وار حسهای مشترک لغات مشابه را گروهبندی میکند خدشه وارد میکند.
گواهی شده در مقابل وردنتهای متنباز
بعضی وردنتها متعاقباً برای دیگر زبانها ساخته شدهاست. برآورد A 2012 وردنتها و میزان مقبولیتشان را فهرست میکند. در یک تلاش بی وقفهٔ کاربرد وردنتها تشکیلات وردنت جهانی به آهستگی وردنتها را به یک دامنهٔ باز جایی که محققان و توسعه دهنگان به سادگی میتوانند دسترسی پیدا کنند و از وردنت به عنوان منابع زبان برای تولید علوم هستیشناسی و لغوی در وظایف پردازش زبان طبیعی استفاده میکنند باز گواهی کرد. وردنت دوزبانهٔ باز دسترسی به وردنتهای گواهی باز را در زبانهای مختلف فراهم میکند که تمامی آنها به PWN متصل شدهاند. هدف راحت کردن کار برای استفاده از وردنتها در زبانهای چندگانه است.
برنامههای کاربردی
وردنت برای تعداد مختلفی از اهداف در سیستمهای اطلاعاتی از قبیل حس لغوی و بازیابی اطلاعات و طبقهبندی خودکار متن و خلاصه سازی خودکار متن و ماشین ترجمه و حتی نسل خودکار جدول معمایی استفاده شدهاست. یک استفاده رایج از وردنت اندازهگیری شباهتهای بین لغات است. الگوریتمهای مختلفی پیشنهاد شده و این شامل اندازهگیری فاصلهٔ بین لغات و هممعنیها در ساختار گراف وردنت است مانند شمارش تعداد لبهها بین هممعنیها. اینجوری که دو لغت یا هممعنی نزدیک به هم مثل معنیهایشان نزدیک به هم هستند. یک تعداد وردنت براساس الگوریتمهای تشابه لغات در یک مجموعهٔ Perl به نام تشابه وردنت در یک مجموعهٔ زبان Python به نام NLTK پیادهسازی شدهاند. بقیهٔ وردنتها بر اساس تکنیکهای تشابه پیچیده شاملADW هستند که پیادهسازی آنها در زبان Java قابل دسترس است. وردنت همچنین قادر به متصل شدن به بقیهٔ واژگان است.
وجوه مشترک
دانشگاه پرینستون به یک لیست از پروژههایی که شامل لینکهایی به بعضی از وجوه مشترک برنامهنویسی برنامههای کاربردی استفاده شده میشود که مقدور هستند برای دسترسی به وردنتی که در حال استفاده از زبانها و محیطهای مختلفی است دست یافتهاست.
پیوند به بیرون
مقالههای مرتبط
منابع
مشارکتکنندگان ویکیپدیا. «WordNet». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲ فوریهٔ ۲۰۱۳.