Mengapa asumsi Normalitas dalam regresi linier

15

Pertanyaan saya sangat sederhana: mengapa kita memilih normal sebagai distribusi yang diikuti oleh istilah kesalahan dalam asumsi regresi linier? Kenapa kita tidak memilih yang lain seperti seragam, t atau apa pun?

Tuan Shi
sumber
5
Kami tidak memilih asumsi normal. Kebetulan bahwa ketika kesalahan itu normal, koefisien model persis mengikuti distribusi normal dan uji-F yang tepat dapat digunakan untuk menguji hipotesis tentang mereka.
AdamO
10
Karena matematika berhasil dengan cukup mudah sehingga orang dapat menggunakannya sebelum komputer modern.
Nat
1
@ AdamO saya tidak mengerti; Anda baru saja menguraikan alasan mengapa kami memilihnya.
JiK
2
@JiK jika saya bisa memilih distribusi, tidak perlu ada statistik sama sekali. Seluruh dunia akan menjadi probabilitas.
AdamO
1
@ Adamo Anda dapat memilih asumsi untuk model Anda ketika Anda melakukan inferensi statistik, jadi saya tidak berpikir itu berarti tidak ada statistik.
JiK

Jawaban:

29

Kami memang memilih distribusi kesalahan lainnya. Dalam banyak kasus Anda dapat melakukannya dengan cukup mudah; jika Anda menggunakan estimasi kemungkinan maksimum, ini akan mengubah fungsi kerugian. Ini tentu dilakukan dalam praktik.

Laplace (kesalahan eksponensial ganda) sesuai dengan setidaknya regresi deviasi absolut / regresi L1 (yang dibahas banyak posting di situs). Regresi dengan t-error kadang-kadang digunakan (dalam beberapa kasus karena mereka lebih kuat untuk kesalahan kotor), meskipun mereka dapat memiliki kelemahan - kemungkinan (dan karena itu negatif dari kerugian) dapat memiliki banyak mode.

Kesalahan seragam sesuai dengan kerugian L (meminimalkan deviasi maksimum); regresi semacam itu kadang-kadang disebut pendekatan Chebyshev (meskipun waspadalah, karena pada dasarnya ada hal lain dengan nama yang sama). Sekali lagi, ini kadang-kadang dilakukan (memang untuk regresi sederhana dan set data bertubuh kecil dengan kesalahan terbatas dengan penyebaran konstan sering cukup mudah ditemukan dengan tangan, langsung di plot, meskipun dalam praktiknya Anda dapat menggunakan metode pemrograman linier, atau algoritma lainnya ; memang, masalah regresi L dan L1 adalah dual dari satu sama lain, yang kadang-kadang dapat menyebabkan jalan pintas untuk beberapa masalah).

Bahkan, inilah contoh model "kesalahan seragam" yang dipasang pada data dengan tangan:

Regresi L-infinity dipasang dengan tangan.  Dua titik "terendah" di bawah strip titik data ditandai, dan dua titik "tertinggi" di atas strip data ditandai.

Sangat mudah untuk mengidentifikasi (dengan menggeser sejajar ke arah data) bahwa empat titik yang ditandai adalah satu-satunya kandidat untuk berada di set aktif; tiga dari mereka benar-benar akan membentuk set aktif (dan sedikit pengecekan segera mengidentifikasi mana tiga mengarah ke band tersempit yang mencakup semua data). Garis di tengah pita itu (ditandai dengan warna merah) kemudian merupakan perkiraan kemungkinan maksimum garis tersebut.

Banyak pilihan model yang mungkin dan beberapa telah digunakan dalam praktik.

Perhatikan bahwa jika Anda memiliki kesalahan aditif, independen, sebaran konstan dengan kepadatan bentuk kexp(c.g(ε)) , memaksimalkan kemungkinan akan sesuai dengan meminimalkanig(ei) , di manaei adalah i th residual.

Namun, ada berbagai alasan mengapa kuadrat adalah pilihan yang populer, banyak di antaranya tidak memerlukan asumsi normalitas.

Glen_b -Reinstate Monica
sumber
2
Jawaban yang bagus Maukah Anda menambahkan beberapa tautan yang memberikan rincian lebih lanjut tentang bagaimana variasi ini digunakan dalam praktik?
rgk
L
1
Seperti yang saya jelaskan dalam teks, saya memasangnya dengan tangan, dengan cara yang sangat mirip dengan pendekatan yang saya jelaskan. Sementara itu dapat dilakukan dengan cukup mudah menggunakan kode, saya benar-benar membuka plot di MS Paint dan mengidentifikasi tiga poin di set aktif (menggabungkan dua di antaranya memberi kemiringan) - dan kemudian memindahkan garis setengah jalan menuju titik ketiga (dengan membagi dua jarak vertikal dalam piksel dan memindahkan garis ke atas yang banyak piksel) - intinya adalah untuk menunjukkan betapa sederhananya ini bisa. Seorang anak dapat diajari untuk melakukannya.
Glen_b -Reinstate Monica
@ Glen_b Memang, saya masih remaja ketika saya diajari untuk melakukan hal itu di laboratorium fisika mahasiswa baru.
Peter Leopold
9

Asumsi normal / Gaussian sering digunakan karena itu adalah pilihan yang paling nyaman secara komputasi. Menghitung estimasi kemungkinan maksimum dari koefisien regresi adalah masalah minimisasi kuadratik, yang dapat diselesaikan dengan menggunakan aljabar linier murni. Pilihan distribusi noise lainnya menghasilkan masalah optimisasi yang lebih rumit yang biasanya harus diselesaikan secara numerik. Secara khusus, masalahnya mungkin non-cembung, menghasilkan komplikasi tambahan.

Normalitas belum tentu asumsi yang baik secara umum. Distribusi normal memiliki ekor yang sangat ringan, dan ini membuat estimasi regresi cukup sensitif terhadap pencilan. Alternatif seperti distribusi Laplace atau Student sering lebih unggul jika data pengukuran mengandung outlier.

Lihat buku mani Peter Huber, Robust Statistics untuk informasi lebih lanjut.

Martin L
sumber
2

Ketika bekerja dengan hipotesis tersebut, regresi berbasis kuadrat-erro dan kemungkinan maksimum memberikan Anda solusi yang sama. Anda juga mampu mendapatkan uji-F sederhana untuk koefisien signifikansi, serta interval kepercayaan untuk prediksi Anda.

Kesimpulannya, alasan mengapa kita sering memilih distribusi normal adalah sifat-sifatnya, yang sering membuat segalanya menjadi mudah. Ini juga bukan asumsi yang sangat ketat, karena banyak tipe data lain akan menerima "jenis normal"

Bagaimanapun, seperti yang disebutkan dalam jawaban sebelumnya, ada kemungkinan untuk menentukan model regresi untuk distribusi lain. Normal hanya menjadi yang paling berulang

David
sumber
2

Glen_b telah menjelaskan dengan baik bahwa regresi OLS dapat digeneralisasi (memaksimalkan kemungkinan alih-alih meminimalkan jumlah kuadrat) dan kami melakukannya memilih distribusi lainnya.

Namun, mengapa distribusi normal sering dipilih ?

Alasannya adalah bahwa distribusi normal terjadi di banyak tempat secara alami. Agak sama seperti kita sering melihat rasio emas atau angka Fibonacci yang terjadi "secara spontan" di berbagai tempat di alam.

Distribusi normal adalah distribusi terbatas untuk sejumlah variabel dengan varian terbatas (atau pembatasan yang tidak terlalu ketat dimungkinkan). Dan, tanpa mengambil batas, itu juga merupakan perkiraan yang baik untuk jumlah variabel yang terbatas. Jadi, karena banyak kesalahan yang diamati terjadi sebagai jumlah dari banyak kesalahan kecil yang tidak teramati, distribusi normal adalah perkiraan yang baik.

Lihat juga di sini Pentingnya distribusi normal

di mana mesin kacang Galton menunjukkan prinsip secara intuitif

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png

Sextus Empiricus
sumber
-1

Mengapa kami tidak memilih distribusi lain? —Kami melakukannya.

yiRxiRnxi

y^i=wxi.

Kehilangan yang mengejutkan biasanya merupakan kerugian yang paling masuk akal:

L=logP(yixi).

Anda dapat menganggap regresi linier sebagai menggunakan kepadatan normal dengan varian tetap dalam persamaan di atas:

L=logP(yixi)(yiy^i)2.

Ini mengarah pada pembaruan berat:

wL=(y^iyi)xi


Secara umum, jika Anda menggunakan distribusi keluarga eksponensial lain, model ini disebut model linier umum . Distribusi yang berbeda sesuai dengan kepadatan yang berbeda, tetapi dapat lebih mudah diformalkan dengan mengubah prediksi, berat, dan target.

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk

η

f(z)=h(z)exp(ηT(z)g(η)).

ηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,
which has the same nice form as linear regression.


As far as I know, the gradient log-normalizer can be any monotonic, analytic function, and any monotonic, analytic function is the gradient log-normalizer of some exponential family.

Neil G
sumber
This is very short and too cryptic for our standards, please also explain surprisal.
kjetil b halvorsen
1
"each link function corresponds to a different distributional assumption" this is very vague. The link function does not have to do with generalizing to different distributional assumptions, but with generalizing the (linear) part that describes the mean of the distribution.
Sextus Empiricus
1
The linked article contains in section '3.1 Normal distribution' > "More generally, as shown in Nelder (1968), we can consider models in which there is a linearizing transformation f and a normalizing transformation g" I do not know what your gradient log-normalizer refers to, and maybe you are speaking about this normalizing transformation? But, that is not the link function. The link function in GLM relates to the linearizing transformation.
Sextus Empiricus
1
Typically certain link functions are used with certain distributional assumptions. But this is not a necessity. So my distributional assumptions are normal in that example, and not Poisson (that was intentional). Some better (more practical and well known) examples are binomial/Bernouilli distributed variables where people work with a probit model or a logit model, thus different link functions but the same (conditional) distributional assumption.
Sextus Empiricus
1
@Neil G: I'm the lazy one? You could easily have included surprisal in the original post, yes? Also, when I am making such comments, is is more for the site than for myself. This site is supposed to be self-contained. I could have/did guess the meaning (even if it is nonstandard terminology in statistics), as you can see from my answer here, entropy
kjetil b halvorsen