خطای میانگین مربعات

در ریاضیات و آمار، خطای میانگین مربعات (انگلیسی: Mean squared error یا به‌طور مخفف MSE) روشی برای برآورد میزان خطاست که در واقع تفاوت بین مقادیر تخمینی و آنچه تخمین زده شده، است. MSE به دو دلیل تقریباً همه جا مثبت است (صفر نیست) یک اینکه تصادفی است و دوم به این دلیل که تخمین‌گر اطلاعاتی که قابلیت تولید تخمین دقیق تری دارد را حساب نمی‌کند. پس این شاخص که مقداری همواره نامنفی دارد، هرچقدر مقدار آن به صفر نزدیکتر باشد، نشان دهنده میزان کمتر خطاست.

MSE شامل واریانس تخمین‌گر و بایاس (سوگیری) است. برای یک برآوردگر غیر بایاس، MSE همان واریانس برآوردگر است. مثل واریانس، MSE همان واحدهای اندازه‌گیری را به عنوان مربع مقادیر تخمین زده شده، دارد. در مقایسه با انحراف معیار ریشه دوم گرفتن از MSE، خطای ریشه میانگین مربع یا انحراف معیار میانگین ریشه (خطای جذر میانگین مربعات) را ارایه می‌دهد.

برای هر برآوردگر غیر بایاس،RSME ریشه دوم واریانس است که به عنوان خطای استاندارد شناخته می‌شود.

روش محاسبه

تعریف MSE بر اساس توصیف تخمین‌گر یا پیش‌بینی کننده متفاوت است.

برای بدست آوردن خطای میانگین مربعات از یک مجموعه یا n داده می‌توان از رابطه زیر استفاده کرد:

که در آن عمل میانگین‌گیری را انجام می‌دهد و مقدار مربع خطای هر داده را محاسبه می‌کند. پس MSE میانگین مربع خطاها است.

تخمین‌گر

MSE از یک تخمین‌گر با توجه به پارامتر نامعلوم به صورت زیر تعریف می‌شود:

.

این تعریف وابسته به پارامتر نامعلوم و MSE یک ویژگی برای تخمین‌گر است. از آنجا که MSE امید ریاضی است پس نمی‌تواند متغیر تصادفی باشد. MSE می‌تواند یک تابع از پارامترهای نامشخص باشد که در این صورت هر تخمین‌گر MSE یک تابع داده بر اساس تخمین پارامترها است، پس یک متغیر تصادفی است. این شاخص را می‌تواند به صورت جمع واریانس تخمین‌گر و مربع بایاس نیز نوشت:

رابطه با واریانس و بایاس یک برآوردگر

در زیر اثبات رابطه خطای میانگین مربعات با واریانس و بایاس یک برآوردگر آورده شده‌است.[1]

رگرسیون

در تجزیه و تحلیل رگرسیون، این شاخص گاهی برای مقدار غیربایاس واریانس خطا مورد استفاده قرار می‌گیرد و این به معنای باقیمانده تقسیم مربعات بر درجه آزادی است. در تجزیه و تحلیل رگرسیون از MSE به عنوان میانگین خطای مربع پیش‌بینی یا خطای مربع میانگین بیرون از نمونه یاد می‌شود و این می‌تواند اشاره ای به میانگین مقدار انحراف مربعات پیش‌بینی‌ها از مقادیر واقعی داشته باشد. این را می‌توان در یک فضای آزمایش خارج از نمونه بررسی کرد.

مثال‌ها

میانگین

فرض کنید یک نمونه تصادفی تایی از داشته باشیم. این نمونه‌ها را از جامعه ای انتخاب کردیم که واحدهای نمونه با جایگزینی انتخاب شده‌اند. این واحدها در یک زمان انتخاب شده‌اند و واحدهای قبلاً انتخاب شده نیز هنوز معتبر هستند. در این حالت تخمین‌گر معمولی برای میانگین نمونه است:

که مقدار مورد انتظار برابر با میانگین واقعی است و MSE برابر است با:

جایی که واریانس جامعه است.

برای توزیع گوسی این بهترین تخمین‌گر غیربایاس است.

واریانس

تخمین‌گر معمولی برای واریانس، واریانس نمونه تصحیح شده‌است:

و MSE:

که در آن چهارمین نقطه توزیع مرکزی یا جامعه است.

با این حال می‌توان از تخمین‌گرهای دیگری برای استفاده کرد که متناسب با هستند و یک انتخاب مناسب همیشه می‌تواند کمترین میزان خطای مینگین مربع را داشته باشد. اگر داشته باشیم:

آنگاه:

و این دارای کمترین مقدار است زمانی که:

در یک توزیع گوسی زمانی که میزان MSE به حداقل می‌رسد.

توزیع گوسی

در جدول زیر می‌توانید چندین تخمین‌گر از مقادیر صحیح جامعه برای حالت گوسی ببینید.

مقدار واقعی تخمین‌گر خطای میانگین مربعات
=تخمین‌گر بدون سوگیری میانگین،
= تخمین‌گر بدون سوگیری واریانس،
= تخمین‌گر بدون سوگیری واریانس،
= تخمین‌گر بدون سوگیری واریانس،

جستارهای وابسته

منابع

  1. Wackerly, Dennis; Mendenhall, William; Scheaffer, Richard L. (2008). Mathematical Statistics with Applications (7 ed.). Belmont, CA, USA: Thomson Higher Education. ISBN 0-495-38508-5.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.