متنکاوی
متنکاوی، به دادهکاویای که بر روی متن انجام شود اشاره دارد. همچنین به عنوان آنالیز متن نیز شناخته میشود که منظور از آن فرایند استخراج اطلاعات با کیفیت از متن است. اطلاعات پر کیفیت، بهطور معمول از فهم الگوها و گرایشها از طریق معانی و به وسیلهٔ یادگیری الگوهای آماری حاصل میشود. متن کاوی معمولاً درگیر در فرایند ساختاردهی به ورودیهای متنی (معمولاً تجزیه، همراه با افزودن برخی ویژگیها تفاسیر زبانی و حذف موارد اضافی و درج موارد بعدی در پایگاه داده انجام میگیرد)، استخراج الگوهای درون دادههای ساختار یافته، و در نهایت ارزیابی و تفسیر خروجیها است. «پر کیفیت» در متن کاوی معمولاً به ترکیبی از مرتبط بودن، نو ظهور بودن و جالب بودن اشاره دارد. وظایف متن کاوی معمول شامل دستهبندی متون، خوشه بندی متون، استخراج معنی و مفهوم، تولید ردهبندی دانهای، تجزیه و تحلیل احساسات، خلاصه کردن اسناد و مدلسازی ارتباط موجودیتها است. (بطور مثال یادگیری ارتباط بین موجودیتها)
آنالیز متن درگیر در بازیابی اطلاعات، آنالیز لغوی برای مطالعه توزیع فرکانس لغات، شناخت الگو، برچسب گذاری/حاشیه نویسی، استخراج اطلاعات، تکنیکهای داده کاوی شامل آنالیز اتصال و ارتباط، بصری سازی، و آنالیز پیشگویانه است. هدف نهایی، اساساً تبدیل متن به داده برای آنالیز از طریق کاربرد پردازش زبانهای طبیعی و متدهای تحلیلی است.
یک کاربرد معمول، جهت اسکن مجموعهای از اسناد نوشته شده در یک زبان طبیعی و مدل کردن مجموعه اسناد برای اهداف کلاسبندی پیشگویانه یا پرکردن یک پایگاه داده یا ایندکس جستجو با اطلاعات استخراج شدهاست.
متن کاوی در مقابل آنالیز متن
اصطلاح آنالیز متن یک مجموعه از تکنیکهای زبانشناسی، آمار و یادگیری ماشینی را توضیح میدهد که محتوای اطلاعات منابع متنی را برای هوشمند سازی کسب و کار، آنالیز اکتشافی داده، تحقیقها یا سرمایهگذاری ساختار داده و مدل میکند. این اصطلاح تقریباً مترادف متن کاوی است. اصطلاح آنالیز متن بیشتر در کسبوکار مورد استفاده قرار میگیرد در حالی که متن کاوی حوزه کاربرهای قدیمیتر به ویژه تحقیقها علوم وابسته به زندگی و هوشمند سازی دولتها استفاده میشود.
اصطلاح آنالیز متن همچنان شرح میدهد که کاربرد آنالیز متن برای پاسخ به مشکلهای کسب و کار، چه وابسته یا مستقل از پرس و جو و آنالیزهای میدانی و دادههای عددی باشد. واضح است که ۸۰ درصد از اطلاعات وابسته به کسب و کار در شکلی بدون ساختار و متنی است. این تکنیکها و فرایندها دانشی – حقایق، قواعد کسب و کار و ارتباطات – را کشف و ارائه مینمایند که در غیر این صورت در ساختاری متنی، غیرقابل نفوذ برای فرایندهای خودکار باقی مانده بودند.
فرایند متن کاوی
زیر وظایف، معمولاً شامل:
- بازیابی اطلاعات یا شناسایی یک پیکره متنی، گام مقدماتی است: جمعآوری یا شناختن یک مجموعه از موارد متنی، بر روی وب یا نگه داشته شده روی فایلهای سیستمی، پایگاه داده یا محتوای سیستم پیکره متنی، برای آنالیز.
- اگر چه برخی سیستمهای آنالیز متن منحصراً متدهای آماری پیشرفته را اجرا مینمایند، بسیاری دیگر پردازش زبانهای طبیعی را بسیار گستردهتر اجرا مینمایند، مثل برچسب زنی اجزای کلام، تجزیهکننده نحوی یا دیگر انواع آنالیز زبانی.
- Named entity recognition از تکنیکهای اماری جهت شناختن نامها استفاده میکند: مردم، سازمانها، نام مکانها، اختصارهای خاص و غیره. ابهام زدایی – با استفاده از راهنماهای متنی –ممکن است نیاز شود برای آنکه تعیین گردد کلمه “Ford” میتواند به یک رئیسجمهور سابق آمریکا، یک کارخانه خودروسازی، یک ستاره سینما، یک رودخانه یا موجودیتی دیگر ارجاع داشته باشد.
- تشخیص الگوی تعیین شده موجودیت: ویژگیهایی مانند شماره تلفن، آدرس ایمیل، مقادیر (همراه با واحد) میتوانند از طریق regular expression یا دیگر الگوهای تطبیق داده شود.
- Coreference: شناسایی گروه اسمی و دیگر اصطلاحهایی که به شی ای یکسان ارجاع دارند.
- استخراج ارتباط، حقیقت و رخداد: تشخیص همبستگی بین موجودیتها و دیگر اطلاعات درون متن.
- آنالیز نیت، درگیر در فهم ذهنی (نه حقیقی) اجزاء و استخراج فرمهای مختلف نگرشی اطلاعات مانند احساس، عقیده، حالت و هیجان است. تکنیکهای آنالیز متن در آنالیز کردن نیت و مقصود موجودیتها، مفاهیم یا سطح موضوع و در تشخیص عقیده و نظر اجزاء کمککننده هستند.
جستارهای وابسته
- علم دادهها
- زبانشناسی
- آمار
- یادگیری ماشینی
- پردازش زبانهای طبیعی
- داده کاوی
- آکادمی دادهکاوی
- فراوانی وزنی تیاف-آیدیاف