دیبیپدیا
دی بی پدیا (از "دی بی" برای "پایگاه داده") یک پروژه با هدف استخراج محتوای ساختاری از اطلاعات ایجاد شده در پروژه ویکیپدیا است. این اطلاعات ساختاری بر روی وب جهانی در دسترس است.
توسعهدهنده(ها) |
|
---|---|
انتشار ابتدایی | ۱۰ ژانویه ۲۰۰۷ |
انتشار پایدار | دی بی پدیا 2016-10
July 4, 2017 |
مخزن | |
نوشتهشده با | |
سیستمعامل | سرور جهانی |
پروانه | GNU General Public License |
وبگاه |
توضیحات
دی بی پدیا به کاربران اجازه میدهد تا به صورت معنا شناختی روابط و خواص منابع ویکیپدیا را جستجو کنند، از جمله پیوندهایی به مجموعه دادههای مرتبط. تیم برنرز-لی دی بی پدیا را به عنوان یکی از معروفترین بخشهای متمرکز در ارتباط با دادههای متمرکز توضیح دادهاست.
زمینه
این پروژه توسط افرادی در دانشگاه آزاد برلین و دانشگاه لایپزیگ با همکاری نرمافزار لینکهای باز آغاز شد؛ و اولین مجموعه داده در دسترس عموم در سال ۲۰۰۷ منتشر شد. تحت مجوزهای آزاد (CC-BY-SA) در دسترس است، به دیگران اجازه داده میشود تا مجموعه دادهها را دوباره استفاده کنند؛ با این وجود، از مجوز داده باز استفاده نمیکند تا حقوق پایگاه داده سوئی را لغو کند.
مقالات ویکیپدیا عمدتاً شامل متن آزاد هستند، اما شامل اطلاعات ساختاری شده در مقالاتی همچون جداول «جعبه اطلاعات» (پانلهای کشویی که در بالا سمت راست نمای پیش فرض بسیاری از مقالات ویکیپدیا یا در ابتدا نسخههای تلفن همراه)، اطلاعات طبقهبندی، تصاویر، مختصات جغرافیایی و لینکها به صفحات وب خارجی. این اطلاعات ساختاری استخراج و قرار داده شده در یک مجموعه داده یکسان است که میتواند مورد پرسش قرار گیرد.
مجموعه داده
مجموعه داده دی بی پدیا توضیح داده شدهاست. ۴٫۵۸ میلیون نهاد، از جمله ۴٫۲۲ میلیون نفر در هستیشناسی پایدار، از جمله ۱٬۴۴۵٬۰۰۰ نفر، ۷۳۵٬۰۰۰ مکان، ۱۲۳٬۰۰۰ آلبوم موسیقی، ۸۷٬۰۰۰ فیلم، ۱۹٬۰۰۰ بازی ویدئویی، ۲۴۱٬۰۰۰ سازمان، ۲۵۱٬۰۰۰ گونه و ۶٬۰۰۰ بیماری، طبقهبندی شدهاند. مجموعه دادهها دارای برچسبها و خلاصه ای از این اشخاص تا ۱۲۵ زبان میباشد. ۲۵٫۲ میلیون لینک به تصاویر و ۲۹٫۸ میلیون لینک به صفحات وب خارجی. علاوه بر این، حاوی حدود ۵۰ میلیون لینک به سایر مجموعه دادههای RDF)، ۸۰٫۹) میلیون لینک به دستههای ویکیپدیا و ۴۱٫۲ میلیون دسته (YAGO2) است. دی بی پدیا از چارچوب توصیف منابع (RDF) برای نشان دادن اطلاعات استخراج شده و از سه میلیارد (RDF) سه برابر استفاده میکند، که ۵۸۰ میلیون از نسخه انگلیسی ویکیپدیا و ۲٫۴۶ میلیارد از دیگر زبانها استخراج شدهاست.
از این مجموعه داده، اطلاعاتی که در سراسر چندین صفحه پخش میشود، میتواند استخراج شود، مثلاً نویسندهٔ کتاب میتواند از صفحات مربوط به کار یا نویسنده ایجاد شود.
یکی از چالشهای استخراج اطلاعات از ویکیپدیا این است که مفاهیم مشابه را میتوان با استفاده از پارامترهای مختلف در کادر اطلاعات و سایر قالبها، مانند | زادگاه = و | محل تولد = بیان کرد. به این ترتیب، پرس و جو در مورد اینکه در آن مردم متولد شدند، باید هر دو این خواص را جستجو کنند تا نتایج کاملتری کسب کنند. در نتیجه، زبان نقشهبرداری دی بی پدیا برای کمک به نقشهبرداری این خواص به هستی شناسایی در حالی که کاهش تعداد مترادفها توسعه یافتهاست. با توجه به تنوع زیادی اطلاعات جعبه و خواص در استفاده در ویکیپدیا، روند توسعه و بهبود این نقشهها به کمکهای عمومی باز شدهاست.
نسخه ۲۰۱۴ در سپتامبر ۲۰۱۴ منتشر شد. یک تغییر اصلی از نسخههای قبلی بود که متون انتزاعی استخراج شد. بهطور خاص، اجرای یک آینه محلی از ویکیپدیا و بازیابی خلاصههای ارائه شده از آن، متون را بهطور قابل توجهی پاک تر کردهاست. همچنین یک مجموعه داده جدید استخراج شده از ویکیپدیا معرفی شد.
مثالها
دی بی پدیا اطلاعات واقعی را از صفحات ویکیپدیا استخراج میکند، به کاربران اجازه میدهد تا پاسخهای سوالاتی را که در سراسر مقالات متعدد ویکیپدیا منتشر میشوند پیدا کنند. دادهها با استفاده از یک زبان پرس و جو مانند (SQL) برای (RDF) به نام (SPARQL) قابل دسترسی هستند. به عنوان مثال، تصور کنید که شما علاقهمند به سری ژاپنی (shōjo manga Tokyo Mew Mew) هستید و میخواهید ژانرهای دیگر کارهای نوشته شده توسط تصویرگر خود را پیدا کنید. دی بی پدیا اطلاعاتی از نوشتههای ویکیپدیا را در توکیو میو میو در آثاری مانند سوپر عروسک لیساچان و هر کوپید دارد. از آنجا که دی بی پدیا اطلاعات را به یک پایگاه داده ساده تبدیل میکند، پرس و جو زیر میتواند بدون نیاز به دانستن دقیقاً کدام ورود هر قطعه اطلاعات را پر کند و ژانرهای مرتبط را لیست کند.
از موارد استفاده کنید
دی بی پدیا دامنه گستردهای از اشخاص را پوشش میدهد که زمینههای مختلف دانش انسانی است. این باعث میشود که یک مرکز طبیعی برای اتصال مجموعه دادهها باشد، در حالی که مجموعه دادههای خارجی میتواند به مفاهیم آن پیوند دهد. مجموعه داده دی بی پدیا در سطح (RDF) با دیگر مجموعه دادههای باز در وب ارتباط برقرار میکند. این برنامه را قادر میسازد دادههای دی بی پدیا را با دادههای این مجموعه دادهها غنی سازی کند. در سپتامبر ۲۰۱۳ بیش از ۴۵ میلیون لینک بین دی بی پدیا و مجموعه دادههای خارجی وجود دارد از جمله فری بیسOpenCyc), UMBEL, GeoNames, MusicBrainz, CIA World Fact Book, DBLP)، پروژه گوتنبرگ، (DBtune Jamendo, Eurostat, UniProt, Bio2RDF و US) دادههای سرشماری طرح ابتکاری تامسون رویترز کالاهای باز، پروژه اطلاعات مرتبط با داده باز شدهاست از نیویورک تایمز، ((API Zemanta)(Spotlight دی بی پدیا نیز شامل پیوندهایی به دی بی پدیا است. بیبیسی ازدی بی پدیا برای کمک به سازماندهی محتوای آن استفاده میکند. فاویکی با استفاده از دی بی پدیا برای برچسب زدن معنایی همچنین سامسونگ دی بی پدیا را در «پلتفرم اشتراک دانش» خود قرار میدهد.
چنین منبع غنی از دانش متقاطع ساختار یافته، زمینه ای مناسب برای سیستمهای هوش مصنوعی است. دی بی پدیا به عنوان یکی از منابع دانش در آی بی ام واتسون جاسوسی مورد استفاده قرار گرفت! سیستم برنده
آمازون یک مجموعه اطلاعات دی بی پدیا را فراهم میکند که میتواند در برنامههای وب سرویسهای آمازون ادغام شود.
نورافکن دی بی پدیا
نورافکن دی بی پدیا یک ابزار برای اعلان اشاره به منابع دی بی پدیا در متن است. این اجازه میدهد که منابع اطلاعاتی بدون ساختار را از طریق دی بی پدیا به ابر داده ابر مرتبط کند. نورافکن دی بی پدیا استخراج نام مؤسسه نامیده میشود، از جمله شناسایی نهاد و وضوح نام (به بیان دیگر، ابهام). همچنین میتواند برای شناسایی نام شرکت و سایر اطلاعات استخراج اطلاعات مورد استفاده قرار گیرد. هدف نورافکن دی بی پدیا برای قابل تنظیم برای بسیاری از موارد استفاده است. به جای تمرکز بر چند نوع نهاد، این پروژه تلاش میکند از حاشیهنویسی تمام ۳٫۵ میلیون نهادها و مفاهیم از بیش از ۳۲۰ کلاس در دی بی پدی حمایت کند. این پروژه در ژوئن ۲۰۱۰ در گروه سیستمهای مبتنی بر وب در دانشگاه آزاد برلین آغاز شد.
نورافکن دی بی به عنوان یک سرویس وب برای آزمایش و یک (API) جاوا / مقیاس API مجوز از طریق پروانه آپاچی به صورت عمومی در دسترس است. توزیع نورافکن دی بی پدیا شامل یک پلاگین جی کوئری است که به توسعه دهندگان اجازه میدهد صفحات را در هر نقطه از صفحات وب با اضافه کردن یک خط به صفحه خود اضافه کنند. مشتریان نیز در جاوا یا پی اچ پی در دسترس هستند. این ابزار از طریق صفحه آزمایشی و خدمات وب به زبانهای مختلفی مدیریت میکند. بینالمللی بودن برای هر زبان ای که نسخه ویکیپدیا دارد، پشتیبانی میشود.
منابع
- مشارکتکنندگان ویکیپدیا. «DBpedia». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۱۶ فوریهٔ ۲۰۱۸.