برچسب‌گذاری جزء کلام

در زبان‌شناسی پیکره‌ای، برچسب‌گذاری جزء کلام (به انگلیسی: Part-of-speech tagging) یا برچسب‌گذاری دستوری یا ابهام‌زدایی رده واژه، فرایند برچسب‌گذاری یک واژه در یک متن است، که آن برچسب متناظر با رده جزء کلامی خاص آن واژه می‌باشد.[1] این تناظر بر اساس «تعریف واژه» و نیز «بافت واژه» (یعنی رابطه آن با واژه های مجاور و مرتبط در عبارت، جمله، یا بند (پاراگراف)) تعیین می شود.[2]

  • برای مثال شناسایی واژه‌ها به عنوان «اسم»، «فعل»، «صفت»، «قید» و غیره نوعی برچسب‌گذاری جزء کلام است.[2]

به برچسب‌زنی جزء کلام، برچسب‌گذاری POS، یا برچسب‌گذاری PoS، یا POST نیز می‌گویند.[2]

بعضی کلمات ممکن است یک یا چند برچسب داشته‌باشند. اگر یک کلمه بیش از یک برچسب داشته‌باشد، نیاز به ابهام‌زدایی دارد.

برچسب‌گذاری اجزای کلام، بنا به روشِ انجام کار، هم به‌صورت دستی انجام می‌شود و هم در آن از الگوریتم‌های برچسب‌گذاری مختلفی استفاده می‌شود. ازجملهٔ این الگوریتم‌ها می‌توان به مدل مخفی مارکوف، الگوریتم باوم-ولچ، و برآورد درست‌نمایی بیشینه اشاره کرد.

تاکنون از روش‌های برچسب‌گذاری گوناگونی در زبان‌های مختلف استفاده شده‌است. این روش‌ها را می‌توان به دو دستهٔ اصلی تقسیم‌بندی کرد: اولین دسته روش‌های آماری است که با استفاده از پیکره‌های برچسب‌خورده انجام می‌شوند. دستهٔ دوم، روش‌های غیرآماری است که با استفاده از یادگیری ماشین، برچسب‌گذاری را انجام می‌دهند.

تاریخچه

پیکرهٔ براون

اولین پیکرهٔ بزرگِ ساخته‌شده برای زبان انگلیسی، پیکرهٔ براون بوده‌است. این پیکره در اواسط دههٔ ۱۹۶۰ میلادی در دانشگاه براون ایالات متحده ساخته شد. این پیکره دارای حدود یک‌میلیون کلمه (۵۰۰ متنِ تقریباً ۲۰۰۰کلمه‌ای) است که با استفاده از یک برنامه، که دارای فهرستی از برچسب‌های مختلف بود، برچسب‌گذاری شد.

صحّت و درستیِ برچسب‌گذاری در پیکرهٔ براون ۷۰٪ بود. بعد از آن، خطاها به‌صورت دستی در دانشگاه استنفورد ایالات متحده اصلاح شد که باعث بهبود کارایی آن شد.

استفاده از مدل مخفی مارکوف

در اواسط دههٔ ۱۹۸۰ میلادی، محققان در اروپا شروع به استفاده از مدل پنهانِ مارکُف برای ابهام‌زدایی از برچسب‌گذاری اجزای کلام کردند.

جستارهای وابسته

  1. "POS tags". Sketch Engine. Lexical Computing. 2018-03-27. Retrieved 2018-04-06.
  2. "Part-of-speech tagging". Wikipedia. 2020-02-15.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.