وردنت

وردنت (به انگلیسی: WordNet) یک پایگاه دادگانِ واژگانی برای زبان انگلیسی است. وردنت واژه‌های انگلیسی را به مجموعه‌های مترادفی که synsets نامیده می‌شود، گروه‌بندی می‌کند، تعاریف کوتاه عمومی را به‌دست می‌دهد، و روابط مترادف‌های گوناگون را با این مجموعه‌های مترادف ضبط می‌کند. هدف جمع‌کردن دو قسمت: برای تولید ترکیبی از دیکشنری و مجموعه اطلاعات است که ذاتاً خیلی مفید است و برای پشتیبانی از تحلیل متن خودکار و کاربردهای هوش مصنوعی به‌کار می‌رود. پایگاه دادگان و ابزارهای نرم‌افزار تحت پروانه‌های بی‌اس‌دی است و می‌توان آن‌ها را رایگان دانلود و از آن استفاده کرد. این پایگاه دادگان را همچنین می‌توان آنلاین پیمایش کرد.

وردنت
در این تصویر وردنت خودش را تعریف کرده است.
انتشار ابتداییاواسط دهه ۱۹۸۰
انتشار پایدار
3.1
ژوئن ۲۰۱۱ (۲۰۱۱-۰۶)[1]
سیستم‌عاملیونیکس، لینوکس، سولاریس
حجم16MB
در دسترس بهانگلیسی
گونهپایگاه داده واژگانی
وبگاه

تاریخ و اعضای تیم

WordNet در لابراتوار علوم شناختی در دانشگاه پرینستون تحت مدیریت استاد روانشناسی، جرج آرمیتاژ میلر در ۱۹۸۵ که از ۱۹۸۵ فعالیت خود را آغاز کرده ایجاد شد و در سال‌های اخیر نیز تحت مدیریت کریستین فلابوم قرار داشته‌است. این پروژه پشتیبانی مالی خود را از آژانس‌های دولتی دریافت می‌کند، منجمله بنیاد ملی علوم، DARPA، دفتر فناوری‌های پراکنده (سابقاً: فعالیت‌های پیشرفته تحقیق و توسعه)، و REFLEX. جرج میلر و کریستین فلابوم در سال ۲۰۰۶ به دلیل فعالیت روی WordNet برنده جایزه آنتونیو زامپولی شدند.

محتوای پایگاه داده

در نوامبر ۲۰۱۲، آخرین نسخه آنلاین WordNet، ۳٫۱ بود. دیتابیس آن حاوی ۱۵۵٫۲۸۷ کلمه بود به ۱۱۷٫۶۵۹ ترکیب مختلف و مجموعاً ۲۰۶٫۹۴۱ جفت کلمه معنادار، چیده شده بودند. اندازه این دیتابیس به شکل فشرده حدود ۱۲ مگابایت بود. WordNet شامل گروه‌های لغوی اسمها، فعلها، صفتها و قیدها بود اما حرفهای اضافه، صفتهای اشاره و دیگر لغات کاربردی را نادیده گرفته بود. واژه‌های گروه‌های مشابه لغوی که نسبتاً مترادف بودند، در یک گروه نحوی دسته‌بندی می‌شدند. این گروه‌ها شامل کلمات ساده و نیز هم خانواده‌ها مانند خوردن و تناول کردن می‌باشند. مجموعه واژه‌های چند معنایی در گروه‌های مختلف مترادف قرار می‌گیرند. معنای یک مترادف می‌تواند از طریق توضیح مختصر یک کلمه دیگر یا چند مثال کاربردی، بیشتر روشن شود. یک نمونه از مترادف‌های صفتی عبارتند از: خوب، درست، مناسب- (مناسب‌ترین یا درست‌ترین برای یک هدف خاص؛ زمان خوب برای کاشت گوجه فرنگی، زمان مناسب برای عمل، زمان درست برای انجام تغییرات بزرگ اجتماعی). همه مترادف‌ها با دیگر مترادف‌های مرتبط هم‌معنی، ارتباط دارند. این روابط، که بین همه گروه‌های لغوی مشترک نیستند، عبارتند از:

اسامی

هایپرنیم‌ها: Y یک هایپرنیم X است اگر هر X یک نوع Y باشد (کانین یک هایپرنیم از خانواده سگهاست) هیپونیم‌ها: Y یک هیپونیم از X است اگر هر Y یک نوع X باشد (سگ یک هیپونیم از خانواده کانین هاست) عبارات متناسب: Y یک شرط متناسب از X است اگر X و Y دارای هاپرنیم مشترک باشند (گرگ یک عبارت متناسب از سگ است، و سگ یک عبارت متناسب از گر) مرونیم: Y یک مرونیک از X است اگر Y بخشی از X باشد (پنجره یک مرونیم از ساختمان است) هولونیم: Y یک هولونیم از X است اگر X بخشی از Y باشد (ساختمان یک هولونیم از پنجره است)

فعلها

هایپرنیم: فعل Y یک هایپرنیم از فعل X است اگر فعالیت X یک نوع Y باشد (درک کردن یک هایپرنیم از گوش کردن است) تروپونیم: فعل Y یک تروپونیم از فعل X است اگر فعالیت Y به نوعی از طریق فعالیت X انجام شود (تلفظ کردن یک تروپونیم از صحبت کردن است) مشروط: فعل Y شرطی از X است اگر با انجام X شما باید Y را هم انجام دهید (خرناس کردن مشروط به خوابیدن است) عبارات متناسب: افعالی که دارای هایپرنیم مشترکند (تلفظ کردن و فریاد زدن) این روابط معنایی در میان اهمه اعضای مترادف‌های مرتبط وجود دارد. اعضای (واژه‌های) مترادف مجزا می‌توانند از طریق روابط لغوی نیز به هم مرتبط شوند. برای مثال (یک معنای) از اسم مدیر مرتبط با (یک معنا از) کلمه مدیریت می‌باشد که از آن نوعی ارتباط ریخت‌شناسی معنایی است. کارکردهای ریخت‌شناسی نرم‌افزار توزیع شده روی دیتابیس، تلاشیست برای کاهش قیاس منطقی یا شکل ریشه ای یک واژه از ورودی کاربرد. شکلهای بی‌قاعده در یک فهرست ذخیره می‌شوند و برای مثال، گذشته فعال خورده‌است، خورده بود می‌شود.

ساختار دانش

هم اسمها هم فعلها به صورت سلسله مراتبی چیده می‌شوند و بر اساس هایپرنیم یا روابط ISA تعریف می‌شوند. برای نمونه، یک معنای کلمه سگ در سلسله مراتب هایپرنیم زیر یافت می‌شود. کلماتی که در یک سطح قرار می‌گیرند، اعضای مترادف یکسان را نشان می‌دهند. هر مجموعه از مترادف‌ها دارای یک شاخص منحصربه فرد است. dog, domestic dog, Canis familiaris => canine, canid => carnivore => placental, placental mammal, eutherian, eutherian mammal => mammal => vertebrate, craniate => chordate => animal, animate being, beast, brute, creature, fauna => ...

در سطح بالا، این سلسله مراتب‌ها به صورت ۲۵ درخت شروع برای اسمها و ۱۵ مورد برای فعلها چیده شده‌اند (که فایل‌های لغت‌نویسی در سطح خاص نامیده می‌شوند). همه اینها مرتبط با یک مترادف ابتدایی منحصربه فرد به نام ورودی می‌باشند. سلسله مراتب اسمها نیز خیلی پایین‌تر از سلسله مراتب فعلهاست. صفتها در درختان سلسله مراتبی چیده نشده‌اند. در واقع دو متضاد محوری مانند گرم و سرد، ساختارهای دوگانه را تشکیل می‌دهند. در حالی که مترادف‌های مرتبط مانند بخار کردن و خنک شدن، از طریق روابط مشابهت به یکدیگر مرتبط می‌شوند. صفتها می‌توانند با این روش به صورت دمبل تصویرسازی شوند تا به صورت درخت.

ابعاد زبانی-روانی WordNet

هدف اولیه پروژه WordNet، ایجاد یک دیتابیس لغوی است که عمدتاً تشکیل شده از تئوری‌های حافظه معنایی انسان که در اواخر دهه ۱۹۶۰ مطرح شدند. تجربیات یا آزمایش‌ها زبانی-روانی نشان می‌دهند متکلمین دانش خود از مفاهیم را به شکل اقتصادی سلسله مراتبی، سازماندهی می‌کنند. زمان بازیابی مورد نیاز برای دسترسی به دانش مفهومی، ارتباط نزدیکی با تعداد سلسله مراتب‌هایی دارد که متکلم به آن‌ها برای عبور به سمت دسترسی به دانش نیاز دارد؛ بنابراین متکلمین می‌توانند با سرعت بیشتری می‌توانند تأیید کنند که قناری‌ها می‌توانند آواز بخوانند، چون قناری یک پرنده آوازخوان است (خواندن یک ویژگی ذخیره شده در همان سطحی است که قناری ذخیره شده)، اما برای تأیید اینکه قناری‌ها می‌توانند پرواز کنند، نیاز به زمان تأیید کمی بیشتر است (جایی که آن‌ها باید به مفهوم پرنده در سطح خیلی بالاتر رجوع کنند)، و حتی زمان بیشتری برای تأیید اینکه قناری‌ها پوست دارند لازم است (چون لازم است به سطوح مختلف هیپونومی تا سطح بالای حیوان مراجعه شود). در حالی که این آزمایش‌ها و تئوری‌های پشت آن‌ها عمدتاً مورد انتقاد قرار می‌گیرند، بخشی از ساختار WordNet منطبق با شواهد آزمایش‌ها تجربی است. برای مثال، مشکل در قدرت تکلم به صورت خاص روی توانایی متکلمین برای تولید واژه‌های گروه‌های خاص معنایی تأثیر می‌گیرد، چیزی که سلسله مراتب WordNet محسوب می‌شود. صفتهای متضاد (صفتهای اصلی WordNet در ساختار دمبلی) خیلی بیشتر از اینکه به صورت تصادفی روی دهند، به صورت همزمان آورده می‌شوند، نکته ای که در مورد خیلی از زبانها صدق می‌کند.

وردنت از نظر هستی شناسی واژگان

وردنت بعضی اوقات یک هستی‌شناسی نامیده می‌شود (یه ادعای محکم که سازندگانش آن را نمی‌سازند. رابطه‌های هم خانوادگی و وابستگی بین اسم‌های هم‌معنی می‌توانند به عنوان روابط تخصصی بین دسته‌های مفهومی ترجمه شوند. به عبارت دیگر ووردنت می‌تواند به عنوان یک هستی‌شناسی واژگان در علم رایانه ترجمه و استفاده شود. با این وجود یک چنین هستی‌شناسی ای باید قبل از اینکه استفاده شود اصلاح شود چرا که صدها ناسازگاری معنایی مبتدی دارد مانند(۱) وجود تخصص‌های رایج در دسته‌های منحصر به فرد و(۲) فراوانی در سلسله مراتب تخصص. از این فراتر تبدیل وردنت به یک هستی‌شناسی واژگان قابل استفاده برای ارایهٔ علمی باید در بربگیرد (۱) شخیص روابط تخصصی به بالای واژه و نمونهٔ روابط و (۲) شریک شود با شناسنده‌های منحصر به فرد ذاتی هر دسته. با این وجود این چنین اصلاحات و و تبدیلات به عنوان بخشی از مجتمع سازی وردنت۱٫۷ به علوم قابل ارتقا با تشریک مساعی برپایهٔ webKB-2 انجام و مدرک سازی شده‌اند. بیشتر پروژه‌هایی که ادعای دوباره استفاده کردن از وردنت را برای برنامه‌های کاربردی براساس علوم (عموماً بازیابی اطلاعات متمایل به علم) دارند به سادگی مستقیماً از آن استفاده می‌کنند. وردنت همچنین به وسیلهٔ یک هیبرید بالا و پایین متالوجی به یک مشخصهٔ خودمونی تبدیل شده‌است برای بازگشایی روابط از وردنت و این انجمن‌ها را در یک ست لغات روابط مفهومی ترجمه می‌کند که به‌طور غیررسمی در DOLCE هستی‌شناسی شالوده ای تعریف شده‌اند. در بیشتر کارها که ادعا می‌کنند وردنتی یکپارچه در هستی‌شناسی دارند محتوای وردنت به سادگی در مواقعی که ضروریه اصلح نشده‌اند در عوض وردنت به شدت در مواقع مناسب باز ترجمه و به روزرسانی شده‌است. این در حالتیه که به‌طور مثال سطح بالایی هستی‌شناسی وردنت طبق OntoClean یا وقتی که وردنت استفاده شده به عنوان یک منبع ابتدایی برای ساخت کلاس‌های SENSUS هستی‌شناسی باز ساخت یافته‌است.

محدودیت‌ها

وردنت شامل اطلاعاتی از قبیل تلفظ لغات نمی‌شود و تنها اطلاعات محدودی در رابطه با کاربرد لغات دارد. وردنت هدف دارد که بیشتر لغات روز انگلیسی را پوشش دهد و شامل تعداد زیادی از دامنه‌های واژگان فنی نمی‌شود. وردنت معمول‌ترین روش برای درک لغات از طریق لغت نامهٔ محاسباتی انگلیسی می‌باشد. با این وجود استدلال آورده‌اند که وردنت برتری‌های حسی را رمزگذاری می‌کند به طوری که آن‌ها خیلی ریز هستند. این مسئله سیستم WSD را از رسیدن به یک سطح از نمایش که با انسان‌ها مشترک شود را بازمی‌دارد. مسئلهٔ دانه‌دانه بودن به پیشنهاد طبقه‌بندی کردن روش‌ها که به‌طور اتوماتیک وار حس‌های مشترک لغات مشابه را گروه‌بندی می‌کند خدشه وارد می‌کند.

گواهی شده در مقابل وردنت‌های متن‌باز

بعضی وردنت‌ها متعاقباً برای دیگر زبان‌ها ساخته شده‌است. برآورد A 2012 وردنت‌ها و میزان مقبولیتشان را فهرست می‌کند. در یک تلاش بی وقفهٔ کاربرد وردنت‌ها تشکیلات وردنت جهانی به آهستگی وردنت‌ها را به یک دامنهٔ باز جایی که محققان و توسعه دهنگان به سادگی می‌توانند دسترسی پیدا کنند و از وردنت به عنوان منابع زبان برای تولید علوم هستی‌شناسی و لغوی در وظایف پردازش زبان طبیعی استفاده می‌کنند باز گواهی کرد. وردنت دوزبانهٔ باز دسترسی به وردنت‌های گواهی باز را در زبان‌های مختلف فراهم می‌کند که تمامی آن‌ها به PWN متصل شده‌اند. هدف راحت کردن کار برای استفاده از وردنت‌ها در زبان‌های چندگانه است.

برنامه‌های کاربردی

وردنت برای تعداد مختلفی از اهداف در سیستم‌های اطلاعاتی از قبیل حس لغوی و بازیابی اطلاعات و طبقه‌بندی خودکار متن و خلاصه سازی خودکار متن و ماشین ترجمه و حتی نسل خودکار جدول معمایی استفاده شده‌است. یک استفاده رایج از وردنت اندازه‌گیری شباهت‌های بین لغات است. الگوریتم‌های مختلفی پیشنهاد شده و این شامل اندازه‌گیری فاصلهٔ بین لغات و هم‌معنی‌ها در ساختار گراف وردنت است مانند شمارش تعداد لبه‌ها بین هم‌معنی‌ها. اینجوری که دو لغت یا هم‌معنی نزدیک به هم مثل معنی‌هایشان نزدیک به هم هستند. یک تعداد وردنت براساس الگوریتم‌های تشابه لغات در یک مجموعهٔ Perl به نام تشابه وردنت در یک مجموعهٔ زبان Python به نام NLTK پیاده‌سازی شده‌اند. بقیهٔ وردنت‌ها بر اساس تکنیک‌های تشابه پیچیده شاملADW هستند که پیاده‌سازی آن‌ها در زبان Java قابل دسترس است. وردنت همچنین قادر به متصل شدن به بقیهٔ واژگان است.

وجوه مشترک

دانشگاه پرینستون به یک لیست از پروژه‌هایی که شامل لینک‌هایی به بعضی از وجوه مشترک برنامه‌نویسی برنامه‌های کاربردی استفاده شده می‌شود که مقدور هستند برای دسترسی به وردنتی که در حال استفاده از زبان‌ها و محیط‌های مختلفی است دست یافته‌است.

پیوند به بیرون

وب‌گاه رسمی وردنت

مقاله‌های مرتبط

منابع

مشارکت‌کنندگان ویکی‌پدیا. «WordNet». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲ فوریهٔ ۲۰۱۳.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.