ان-گرم

در حوزه‌های زبان‌شناسی رایانشی و احتمالات، n-gram دنباله‌ای پیوسته از n قلم در یک دنبالهٔ معین از متن یا کلام است. بسته به کاربردشان، اقلام می‌توانند واج، هجا، حرف، واژه، یا جفت‌باز باشند. n-gramها معمولاً از یک پیکرهٔ متنی یا شفاهی جمع‌آوری می‌شوند. وقتی اقلام مورد مطالعه واژه باشند، معمولاً به n-gramها «شینگلز» گفته می‌شود.

به n-gram با اندازه‌های یک، دو، و سه به ترتیب تک‌گرم، دوگرم، و سه‌گرم گفته می‌شود و نامگذاری به همین منوال ادامه می‌یابد.

کاربرد

مدل n-gram نوعی مدل زبانی احتمالاتی است که برای پیش‌بینی قلم بعدی در دنباله‌ای به شکل مرتبهٔ (n − 1) مارکوف به کار می‌رود. امروزه مدل‌های n-gram در احتمالات، نظریهٔ ارتباطات، زبان‌شناسی رایانشی (مثلاً پردازش آماری زبان طبیعی)، زیست‌شناسی رایانشی (مثلاً آنالیز دنباله زیست‌شناختی) و فشرده‌سازی داده‌ها کاربرد گسترده دارند. دو مزیت مهم مدل‌های n-gram (و الگوریتم‌های وابسته) سادگی و میزان‌پذیری است؛ در nهای بزرگ، مدل می‌تواند محتوای بیشتری را با بده‌بستان مشخص زمان–مکان ذخیره کند، و آزمایش‌های کوچک را به‌طور بهینه scale up کند.

مثال

مثال‌هایی از n-gram در رشته‌های مختلف
حوزهواحدنمونهدنبالهٔ ۱-گرمدنبالهٔ ۲-گرمدنبالهٔ ۳-گرم
مرتبهٔ مدل مارکوف حاصله۰۱۲
تعیین توالی پروتئیناسید آمینه… Cys-Gly-Leu-Ser-Trp ……، Cys، Gly، Leu، Ser، Trp، ……، Cys-Gly، Gly-Leu، Leu-Ser، Ser-Trp، ……، Cys-Gly-Leu، Gly-Leu-Ser، Leu-Ser-Trp، …
تعیین توالی دی‌ان‌ایجفت‌باز…AGCTTCGA……، A، G، C، T، T، C، G، A، ……، AG، GC، CT، TT، TC، CG، GA، ……، AGC، GCT، CTT، TTC، TCG، CGA، …
زبان‌شناسی رایانشینویسهتوانا بود هر که دانا بودت، و، ا، ن، ا، _، ب، و، د، _، ه، ر، _، ک، ه، _، د، ا، ن، ا، _، ب، و، دتو، وا، ان، نا، ا_، _ب، بو، ود، د_، _ه، هر، ر_، _ک، که، ه_، _د، دا، ان، نا، ا_، _ب، بو، ود، د_توا، وان، انا، نا_، ا_ب، _بود، بود، ود_، د_ه، _هر، هر_، ر_ک، _که، که_، ه_د، _دا، دان، انا، نا_، ا_ب، _بو، بود
زبان‌شناسی رایانشیواژهتوانا بود هر که دانا بودتوانا، بود، هر، که، دانا، بودتوانا بود، بود هر، هر که، که دانا، دانا بودتوانا بود هر، بود هر که، هر که دانا، که دانا بود

منابع

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.