دی‌بی‌پدیا

دی بی پدیا (از "دی بی" برای "پایگاه داده") یک پروژه با هدف استخراج محتوای ساختاری از اطلاعات ایجاد شده در پروژه ویکی‌پدیا است. این اطلاعات ساختاری بر روی وب جهانی در دسترس است.

دی بی پدیا
توسعه‌دهنده(ها)
انتشار ابتدایی۱۰ ژانویه ۲۰۰۷ (۲۰۰۷-۰۱-10)
انتشار پایدار
دی بی پدیا 2016-10
July 4, 2017
مخزن
نوشته‌شده با
سیستم‌عاملسرور جهانی
پروانهGNU General Public License
وبگاه

توضیحات

دی بی پدیا به کاربران اجازه می‌دهد تا به صورت معنا شناختی روابط و خواص منابع ویکی‌پدیا را جستجو کنند، از جمله پیوندهایی به مجموعه داده‌های مرتبط. تیم برنرز-لی دی بی پدیا را به عنوان یکی از معروفترین بخش‌های متمرکز در ارتباط با داده‌های متمرکز توضیح داده‌است.

زمینه

این پروژه توسط افرادی در دانشگاه آزاد برلین و دانشگاه لایپزیگ با همکاری نرم‌افزار لینک‌های باز آغاز شد؛ و اولین مجموعه داده در دسترس عموم در سال ۲۰۰۷ منتشر شد. تحت مجوزهای آزاد (CC-BY-SA) در دسترس است، به دیگران اجازه داده می‌شود تا مجموعه داده‌ها را دوباره استفاده کنند؛ با این وجود، از مجوز داده باز استفاده نمی‌کند تا حقوق پایگاه داده سوئی را لغو کند.

مقالات ویکی‌پدیا عمدتاً شامل متن آزاد هستند، اما شامل اطلاعات ساختاری شده در مقالاتی همچون جداول «جعبه اطلاعات» (پانل‌های کشویی که در بالا سمت راست نمای پیش فرض بسیاری از مقالات ویکی‌پدیا یا در ابتدا نسخه‌های تلفن همراه)، اطلاعات طبقه‌بندی، تصاویر، مختصات جغرافیایی و لینک‌ها به صفحات وب خارجی. این اطلاعات ساختاری استخراج و قرار داده شده در یک مجموعه داده یکسان است که می‌تواند مورد پرسش قرار گیرد.

مجموعه داده

مجموعه داده دی بی پدیا توضیح داده شده‌است. ۴٫۵۸ میلیون نهاد، از جمله ۴٫۲۲ میلیون نفر در هستی‌شناسی پایدار، از جمله ۱٬۴۴۵٬۰۰۰ نفر، ۷۳۵٬۰۰۰ مکان، ۱۲۳٬۰۰۰ آلبوم موسیقی، ۸۷٬۰۰۰ فیلم، ۱۹٬۰۰۰ بازی ویدئویی، ۲۴۱٬۰۰۰ سازمان، ۲۵۱٬۰۰۰ گونه و ۶٬۰۰۰ بیماری، طبقه‌بندی شده‌اند. مجموعه داده‌ها دارای برچسب‌ها و خلاصه ای از این اشخاص تا ۱۲۵ زبان می‌باشد. ۲۵٫۲ میلیون لینک به تصاویر و ۲۹٫۸ میلیون لینک به صفحات وب خارجی. علاوه بر این، حاوی حدود ۵۰ میلیون لینک به سایر مجموعه داده‌های RDF)، ۸۰٫۹) میلیون لینک به دسته‌های ویکی‌پدیا و ۴۱٫۲ میلیون دسته (YAGO2) است. دی بی پدیا از چارچوب توصیف منابع (RDF) برای نشان دادن اطلاعات استخراج شده و از سه میلیارد (RDF) سه برابر استفاده می‌کند، که ۵۸۰ میلیون از نسخه انگلیسی ویکی‌پدیا و ۲٫۴۶ میلیارد از دیگر زبان‌ها استخراج شده‌است.

از این مجموعه داده، اطلاعاتی که در سراسر چندین صفحه پخش می‌شود، می‌تواند استخراج شود، مثلاً نویسندهٔ کتاب می‌تواند از صفحات مربوط به کار یا نویسنده ایجاد شود.

یکی از چالش‌های استخراج اطلاعات از ویکی‌پدیا این است که مفاهیم مشابه را می‌توان با استفاده از پارامترهای مختلف در کادر اطلاعات و سایر قالب‌ها، مانند | زادگاه = و | محل تولد = بیان کرد. به این ترتیب، پرس و جو در مورد اینکه در آن مردم متولد شدند، باید هر دو این خواص را جستجو کنند تا نتایج کاملتری کسب کنند. در نتیجه، زبان نقشه‌برداری دی بی پدیا برای کمک به نقشه‌برداری این خواص به هستی شناسایی در حالی که کاهش تعداد مترادف‌ها توسعه یافته‌است. با توجه به تنوع زیادی اطلاعات جعبه و خواص در استفاده در ویکی‌پدیا، روند توسعه و بهبود این نقشه‌ها به کمک‌های عمومی باز شده‌است.

نسخه ۲۰۱۴ در سپتامبر ۲۰۱۴ منتشر شد. یک تغییر اصلی از نسخه‌های قبلی بود که متون انتزاعی استخراج شد. به‌طور خاص، اجرای یک آینه محلی از ویکی‌پدیا و بازیابی خلاصه‌های ارائه شده از آن، متون را به‌طور قابل توجهی پاک تر کرده‌است. همچنین یک مجموعه داده جدید استخراج شده از ویکی‌پدیا معرفی شد.

مثال‌ها

دی بی پدیا اطلاعات واقعی را از صفحات ویکی‌پدیا استخراج می‌کند، به کاربران اجازه می‌دهد تا پاسخ‌های سوالاتی را که در سراسر مقالات متعدد ویکی‌پدیا منتشر می‌شوند پیدا کنند. داده‌ها با استفاده از یک زبان پرس و جو مانند (SQL) برای (RDF) به نام (SPARQL) قابل دسترسی هستند. به عنوان مثال، تصور کنید که شما علاقه‌مند به سری ژاپنی (shōjo manga Tokyo Mew Mew) هستید و می‌خواهید ژانرهای دیگر کارهای نوشته شده توسط تصویرگر خود را پیدا کنید. دی بی پدیا اطلاعاتی از نوشته‌های ویکی‌پدیا را در توکیو میو میو در آثاری مانند سوپر عروسک لیساچان و هر کوپید دارد. از آنجا که دی بی پدیا اطلاعات را به یک پایگاه داده ساده تبدیل می‌کند، پرس و جو زیر می‌تواند بدون نیاز به دانستن دقیقاً کدام ورود هر قطعه اطلاعات را پر کند و ژانرهای مرتبط را لیست کند.

از موارد استفاده کنید

دی بی پدیا دامنه گسترده‌ای از اشخاص را پوشش می‌دهد که زمینه‌های مختلف دانش انسانی است. این باعث می‌شود که یک مرکز طبیعی برای اتصال مجموعه داده‌ها باشد، در حالی که مجموعه داده‌های خارجی می‌تواند به مفاهیم آن پیوند دهد. مجموعه داده دی بی پدیا در سطح (RDF) با دیگر مجموعه داده‌های باز در وب ارتباط برقرار می‌کند. این برنامه را قادر می‌سازد داده‌های دی بی پدیا را با داده‌های این مجموعه داده‌ها غنی سازی کند. در سپتامبر ۲۰۱۳ بیش از ۴۵ میلیون لینک بین دی بی پدیا و مجموعه داده‌های خارجی وجود دارد از جمله فری بیسOpenCyc), UMBEL, GeoNames, MusicBrainz, CIA World Fact Book, DBLP)، پروژه گوتنبرگ، (DBtune Jamendo, Eurostat, UniProt, Bio2RDF و US) داده‌های سرشماری طرح ابتکاری تامسون رویترز کالاهای باز، پروژه اطلاعات مرتبط با داده باز شده‌است از نیویورک تایمز، ((API Zemanta)(Spotlight دی بی پدیا نیز شامل پیوندهایی به دی بی پدیا است. بی‌بی‌سی ازدی بی پدیا برای کمک به سازماندهی محتوای آن استفاده می‌کند. فاویکی با استفاده از دی بی پدیا برای برچسب زدن معنایی همچنین سامسونگ دی بی پدیا را در «پلتفرم اشتراک دانش» خود قرار می‌دهد.

چنین منبع غنی از دانش متقاطع ساختار یافته، زمینه ای مناسب برای سیستم‌های هوش مصنوعی است. دی بی پدیا به عنوان یکی از منابع دانش در آی بی ام واتسون جاسوسی مورد استفاده قرار گرفت! سیستم برنده

آمازون یک مجموعه اطلاعات دی بی پدیا را فراهم می‌کند که می‌تواند در برنامه‌های وب سرویس‌های آمازون ادغام شود.

نورافکن دی بی پدیا

نورافکن دی بی پدیا یک ابزار برای اعلان اشاره به منابع دی بی پدیا در متن است. این اجازه می‌دهد که منابع اطلاعاتی بدون ساختار را از طریق دی بی پدیا به ابر داده ابر مرتبط کند. نورافکن دی بی پدیا استخراج نام مؤسسه نامیده می‌شود، از جمله شناسایی نهاد و وضوح نام (به بیان دیگر، ابهام). همچنین می‌تواند برای شناسایی نام شرکت و سایر اطلاعات استخراج اطلاعات مورد استفاده قرار گیرد. هدف نورافکن دی بی پدیا برای قابل تنظیم برای بسیاری از موارد استفاده است. به جای تمرکز بر چند نوع نهاد، این پروژه تلاش می‌کند از حاشیه‌نویسی تمام ۳٫۵ میلیون نهادها و مفاهیم از بیش از ۳۲۰ کلاس در دی بی پدی حمایت کند. این پروژه در ژوئن ۲۰۱۰ در گروه سیستم‌های مبتنی بر وب در دانشگاه آزاد برلین آغاز شد.

نورافکن دی بی به عنوان یک سرویس وب برای آزمایش و یک (API) جاوا / مقیاس API مجوز از طریق پروانه آپاچی به صورت عمومی در دسترس است. توزیع نورافکن دی بی پدیا شامل یک پلاگین جی کوئری است که به توسعه دهندگان اجازه می‌دهد صفحات را در هر نقطه از صفحات وب با اضافه کردن یک خط به صفحه خود اضافه کنند. مشتریان نیز در جاوا یا پی اچ پی در دسترس هستند. این ابزار از طریق صفحه آزمایشی و خدمات وب به زبان‌های مختلفی مدیریت می‌کند. بین‌المللی بودن برای هر زبان ای که نسخه ویکی‌پدیا دارد، پشتیبانی می‌شود.

جستارهای وابسته

منابع

    This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.