کاهش ابعاد
در یادگیری ماشین و آمار کاهش بعد یا کاهش ابعاد روند کاهش تعداد متغیرهای تصادفی تحت نظر (Supervised)[1] از طریق به دست آوردن یک مجموعه از متغیرهای اصلی میباشد. کاهش ابعاد را میتوان به انتخاب ویژگی و استخراج ویژگی تقسیم کرد.[2]
انتخاب ویژگی
انتخاب ویژگی روشی است که برای پیدا کردن یک زیر مجموعه از متغیرهای اصلی (آن هارا ویژگیها یا صفات نیز میگویند) تلاش میکند.
برای این عمل سه استراتژی وجود دارد: استراتژی فیلتر (به عنوان مثال افزایش اطلاعات)، استراتژی بستهبندی (به عنوان مثال جستجوهایی با دقت هدایت شونده) و استراتژی جاسازی شده (ویژگیها برای ساختن مدل بر اساس اشتباهات پیش بینی، انتخاب میشوند تا اضافه شوند یا حذف شوند).
در این خصوص مشکلات بهینهسازی ترکیباتی را نگاه کنید.
در برخی از موارد، تجزیه و تحلیل دادهها مانند رگرسیون یا طبقهبندی میتواند در فضای کاهش یافته دقیق تر از فضای اصلی انجام بشود.[3]
استخراج ویژگی
استخراج ویژگی دادهها را در فضای با ابعاد بزرگ به یک فضای ابعاد کمتر تبدیل میکند. تحول دادهها میتواند خطی باشد، همانطور که در تجزیه و تحلیل مولفه اصلی (PCA)، اما بسیاری از تکنیکهای کاهش اندازه غیر خطی نیز وجود دارد.[4][5] برای دادههای چند بعدی، نمایندگی تنسور را میتوان در کاهش ابعاد از طریق یادگیری زیر فضای چند لاین استفاده کرد.[6]
تجزیه تحلیل مولفه اصلی (PCA)
روش اصلی خطی برای کاهش ابعاد، تجزیه و تحلیل مؤلفه اصلی، نقشهبرداری خطی دادهها را به یک فضای بعدی پایینتر انجام میدهد به طوری که واریانس دادهها در نمایش نمایشی کمینه به حداکثر میرسد. در عمل، ماتریس کوواریانس (و بعضی اوقات همبستگی) دادهها ساخته میشود و بردار ویژه در این ماتریس محاسبه میشود. بردارهای اصلی که با بزرگترین مقادیر ویژه (اجزای اصلی) مطابقت دارند، اکنون میتوانند برای بازسازی بخش بزرگی از واریانس دادههای اصلی استفاده شوند. علاوه بر این، چندین بردار اولاً میتوانند به صورت منظم رفتار فیزیکی در مقیاس بزرگ سیستم تفسیر شوند . فضای اصلی (با ابعاد تعداد نقاط) کاهش یافتهاست (با از دست دادن دادهها، اما امیدواریم مهمترین واریانس را حفظ کند) توسط چند بردارهای ویژه به فضا میرسد.
هسته PCA
تجزیه و تحلیل مؤلفه اصلی میتواند با استفاده از ترفند هسته در یک روش غیر خطی استفاده شود. تکنیک حاصل قادر به ساخت نقشههای غیر خطی است که واریانس را در دادهها به حداکثر میرساند. تکنیک حاصل PCA کرنل است.
هسته مبتنی بر گرافیک PCA
دیگر تکنیکهای غیر خطی برجسته شامل تکنیکهای یادگیری منیوفولد، تکنیکهایی مانند Isomap، جابجایی خطی محلی (LLE)، هسین LLE، خصوصیات Laplacian و هماهنگی فضایی مماس محلی (LTSA) میباشد. این تکنیکها یک نماینده دادههای کم حجم با استفاده از یک تابع هزینه ای که خواص محلی را حفظ میکند، ایجاد میکند و میتواند به عنوان تعریف یک هسته مبتنی بر گراف برای PCA Kernel مورد استفاده قرار گیرد.
تفکیک کننده خطی (LDA)
تفکیک کننده خطی (LDA) یک تعمیم جدایی خطی فیشر است، یک روش استفاده شده در آمار، تشخیص الگو و یادگیری ماشین برای یافتن ترکیب خطی از ویژگیهایی که دو یا چند کلاس اشیاء یا رویدادهای را مشخص یا جدا میکند.
خودرمزگذار
خودرمزگذارها میتوانند بهمنظور یادگیری توابع غیرخطی کاهش ابعاد مورد استفاده واقع شوند.
کاهش ابعاد
برای مجموعه دادههای با ابعاد بزرگ (یا به عنوان مثال با تعداد ابعاد بیش از ۱۰) کاهش ابعاد معمولاً قبل از اعمال الگوریتم نزدیکترین همسایگان (k-NN) به منظور جلوگیری از مشقت چند بعدی انجام میشود.[7]
مزایای استفاده از کاهش ابعاد
- فضا، زمان و ذخیرهسازی مورد نیاز را کاهش میدهد.
- از بین بردن چند ستون، عملکرد مدل یادگیری ماشین را بهبود میبخشد.
- هنگامی که به ابعاد بسیار کم مانند 2D یا 3D تبدیل میشود، دادهها به راحتی قابل مشاهده است.
برنامههای کاربردی
تکنیک کاهش ابعادی که گاهی در علوم اعصاب استفاده میشود، ابعاد حداکثر آموزنده است که یک نمایندهٔ پایینتر از یک مجموعه داده را نشان میدهد تا اطلاعاتی که ممکن است در مورد دادههای اصلی حفظ شود.
یادداشت
- Roweis, S. T.; Saul, L. K. (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. 290 (5500): 2323–2326. doi:10.1126/science.290.5500.2323. PMID 11125150.
- Pudil, P.; Novovičová, J. (1998). "Novel Methods for Feature Subset Selection with Respect to Problem Knowledge". In Liu, Huan; Motoda, Hiroshi. Feature Extraction, Construction and Selection. pp. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
- Rico-Sulayes, Antonio (2017). "Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution". Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26–35.
- Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. شابک ۰−۱۲−۳۶۹۴۴۶−۹
- C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
- Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.
- Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "When is “nearest neighbor” meaningful?". Database Theory—ICDT99, 217-235
منابع
- دار کردن، I. (2002) "بررسی ابعاد تکنیکهای کاهش". مرکز علمی کاربردی محاسبات ملی لارنس لیورمور فنی گزارش UCRL-ID-148494
- کانینگهام، P. (2007) "ابعاد کاهش" دانشگاه کالج دوبلین ویژگیهای گزارش UCD-CSI-2007-7
- Zahorian, Stephen A.; Hu, Hongbing (2011). "Nonlinear Dimensionality Reduction Methods for Use with Automatic Speech Recognition". Speech Technologies. doi:10.5772/16863. ISBN 978-953-307-996-7.
- Lakshmi Padmaja, Dhyaram; Vishnuvardhan, B (18 August 2016). "Comparative Study of Feature Subset Selection Methods for Dimensionality Reduction on Scientific Data": 31–34. doi:10.1109/IACC.2016.16. Retrieved 7 October 2016.