فاصله کوک

در آمار، فاصله کوک یک تخمین متداول از تأثیر یک داده هنگام انجام تحلیل رگرسیون از طریق کمترین مربعات است.[1] در کمترین مربعات، از فاصله کوک می‌توان به چند روش استفاده کرد: برای نشان دادن داده‌های تأثیرگذار که به خصوص ارزش اعتبارسنجی دارند یا نشان دادن مناطقی از فضای داده‌های مستقل که داده‌های بیشتری نیاز دارد. فاصله کوک به نام رالف دنیس کوک، آمارشناس آمریکایی نامگذاری شده‌است که این ایده را در سال ۱۹۷۷ معرفی کرد.[2][3]

تعریف

داده‌هایی که مانده‌های بزرگ دارند (داده‌های پرت) یا تأثیر زیادی بر مدل نهائی دارند ممکن است نتیجه و دقت یک رگرسیون را تحریف کنند. فاصله کوک اثر حذف یک داده‌ها را اندازه‌گیری می‌کند.

ابتدا رگرسیون خطی را با فرمت ماتریسی به این شکل تعریف می‌کنیم:

{\underset {n\times 1}{\mathbf {y} }}={\underset {n\times p}{\mathbf {X} }}\quad {\underset {p\times 1}{\boldsymbol {\beta }}}\quad +\quad {\underset {n\times 1}{\boldsymbol {\varepsilon }}}

در اینجا ${\boldsymbol {\varepsilon }}\sim {\mathcal {N}}\left(0,\sigma ^{2}\mathbf {I} \right)$ خطای رگرسیون و ${\boldsymbol {\beta }}=\left[\beta _{0}\,\beta _{1}\dots \beta _{p-1}\right]^{\mathsf {T}}$ پارامتر رگرسیون خطی است؛ $p$ تعداد متغیرهای مستقل یا پیش‌بینی کننده است و $\mathbf {X}$ ماتریس مقادیر متغیرهای مستقل به همراه یک بردار ثابتِ یک است. تخمین کمترین مربعات عبارت است از $\mathbf {\beta } =\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y}$ ، و در نتیجه پیش‌بینی مدل رگرسیون برای $\mathbf {y}$ با خود این بردار متناسب است:

\mathbf {\widehat {y}} =\mathbf {X} \mathbf {\beta } =\mathbf {X} \left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y} =\mathbf {H} \mathbf {y}

در اینجا $\mathbf {H} \equiv \mathbf {X} (\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}$ .

برای تعریف فاصله کوک به دو تعریف اهرم قدرت و بردار باقیمانده نیاز داریم. عنصر $i$ ام قطر اصلی $\mathbf {H} \,$ که با $h_{ii}\equiv \mathbf {x} _{i}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {x} _{i}$ برابر است،[4] اهرم قدرت داده $i$ ام نام دارد و تفاضل مقادیر مشاهده شده متغیر وابسته و پیش‌بینی آنها بردار باقیمانده نام دارد که با $\mathbf {e} =\mathbf {y} -\mathbf {\widehat {y\,}} =\left(\mathbf {I} -\mathbf {H} \right)\mathbf {y}$ نشان داده می‌شود.

فاصله کوک برای داده $i$ ام را با $D_{i}$ نمایش می‌دهیم که با مقدار پایین برابر است:[5]

D_{i}={\frac {\sum _{j=1}^{n}\left({\widehat {y\,}}_{j}-{\widehat {y\,}}_{j(i)}\right)^{2}}{ps^{2}}}

در اینجا ${\widehat {y\,}}_{j(i)}$ پیش‌بینی برای داده مشاهده شده $j$ ام است زمانی که مدل رگرسیون بدون داده $i$ ام ساخته شود و $s^{2}={\frac {\mathbf {e} ^{\top }\mathbf {e} }{n-p}}$ میانگین خطای مربع مدل رگرسیون است.[6]

فاصله کوک را با استفاده از اهرم قدرت[5] ( $h_{ii}$ ) نیز می‌توان به شکل پایین محاسبه کرد:

D_{i}={\frac {e_{i}^{2}}{ps^{2}}}\left[{\frac {h_{ii}}{(1-h_{ii})^{2}}}\right].

تشخیص داده‌های تأثیرگذار

نظرات مختلفی در مورد انتخاب آستانه مناسب برای فاصله کوک ببرای کشف داده‌های تأثیرگذار وجود دارد. از آنجا که فاصله کوک از توزیع اف با $p$ و $n-p$ درجه آزادی پیروی می‌کند، نقطه میانه این توزیع ( $F_{0.5}(p,n-p)$ ) می‌تواند به عنوان آستانه مورد استفاده قرار بگیرد.[7] از آنجا که این مقدار برای $n$ های بزرگ تقریباً ۱ است می‌توان از شرط $D_{i}>1$ برای پیدا کردن داده‌های تأثیرگذار استفاده کرد.[8] البته فاصله کوک همیشه داده‌های تأثیرگذار را به درستی تشخیص نمی‌دهد.[9]

جستارهای وابسته

رگرسیون خطی

داده پرت

کمترین مربعات

منابع

Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (5th ed.). Upper Saddle River, NJ: Prentice-Hall. p. 422. ISBN 0-13-396821-9. A measure of overall influence an outlying observation has on the estimated $\beta$ coefficients was proposed by R. D. Cook (1979). Cook's distance, D_i, is calculated...
Cook, R. Dennis (February 1977). "Detection of Influential Observations in Linear Regression". Technometrics. American Statistical Association. 19 (1): 15–18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.
Cook, R. Dennis (March 1979). "Influential Observations in Linear Regression". Journal of the American Statistical Association. American Statistical Association. 74 (365): 169–174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.
Hayashi, Fumio (2000). Econometrics. Princeton University Press. pp. 21–23.
"Cook's Distance".
"Statistics 512: Applied Linear Models" (PDF). Purdue University. Archived from the original (PDF) on 2016-11-30. Retrieved 2016-03-25.
Bollen, Kenneth A.; Jackman, Robert W. (1990). "Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases". In Fox, John; Long, J. Scott. Modern Methods of Data Analysis. Newbury Park, CA: Sage. pp. 266. ISBN 0-8039-3366-5.
Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression. New York, NY: Chapman & Hall. ISBN 0-412-24280-X.
Kim, Myung Geun (31 May 2017). "A cautionary note on the use of Cook's distance". Communications for Statistical Applications and Methods. 24 (3): 317–324. doi:10.5351/csam.2017.24.3.317. ISSN 2383-4757.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (5th ed.). Upper Saddle River, NJ: Prentice-Hall. p. 422. ISBN 0-13-396821-9. A measure of overall influence an outlying observation has on the estimated $\beta$ coefficients was proposed by R. D. Cook (1979). Cook's distance, D_i, is calculated...

[2] Cook, R. Dennis (February 1977). "Detection of Influential Observations in Linear Regression". Technometrics. American Statistical Association. 19 (1): 15–18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.

[3] Cook, R. Dennis (March 1979). "Influential Observations in Linear Regression". Journal of the American Statistical Association. American Statistical Association. 74 (365): 169–174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.

[4] Hayashi, Fumio (2000). Econometrics. Princeton University Press. pp. 21–23.

[mathworks-5] "Cook's Distance".

[6] "Statistics 512: Applied Linear Models" (PDF). Purdue University. Archived from the original (PDF) on 2016-11-30. Retrieved 2016-03-25.

[7] Bollen, Kenneth A.; Jackman, Robert W. (1990). "Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases". In Fox, John; Long, J. Scott. Modern Methods of Data Analysis. Newbury Park, CA: Sage. pp. 266. ISBN 0-8039-3366-5.

[8] Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression. New York, NY: Chapman & Hall. ISBN 0-412-24280-X.

[9] Kim, Myung Geun (31 May 2017). "A cautionary note on the use of Cook's distance". Communications for Statistical Applications and Methods. 24 (3): 317–324. doi:10.5351/csam.2017.24.3.317. ISSN 2383-4757.