Apakah regresi berfungsi pada data yang biasanya tidak didistribusikan?

histogram dari data saya

Saya mencoba melihat apakah variabel x dan y bersama-sama atau secara terpisah mempengaruhi Q_7 secara signifikan (histogram yang di atas). Saya sudah menjalankan tes normalitas Shapiro-Wilk dan mendapatkan yang berikut

shapiro.test(Q_7)
## data:  Q_7
## W = 0.68439, p-value < 2.2e-16

Dengan distribusi ini, apakah regresi berikut ini berfungsi? Atau ada tes lain yang harus saya lakukan?

lm(Q_7 ~ x*y)

regression assumptions kjetil b halvorsen
sumber

periksa residu, bukan data

李哲源

Coba ubah log Q_7. Saat ini sangat miring kanan. Periksa distribusi prediksi juga.

Joe

Lihatlah Teorema Gauss Markov.

G. Grothendieck

Coba dengan transformasi akar kuadrat. Jika Anda memiliki banyak nol, transformasi log mungkin tidak berfungsi dengan baik. Juga, karena Anda berurusan dengan perhitungan, regresi binomial negatif Poisson adalah pilihan yang lebih alami.

utobi

Apa yang dimaksud dengan "bukan data"?

Silverfish

Jawaban:

Analisis regresi mengasumsikan bahwa data terdistribusi normal dikondisikan pada variabel dalam model regresi . Yaitu, jika ini adalah model regresi: mana adalah matriks variabel regressor Anda, adalah (vektor) data yang harus dijelaskan, adalah vektor koefisien pada regressor dan adalah variabilitas acak (biasanya dianggap noise), maka asumsi Normality berlaku ketat untuk , bukan untuk (sunting: yah, sebenarnya itu berlaku untuk distribusi bersyarat

y = X β + ε

$y=X\beta+\varepsilon$

X

$X$

y

$y$

β

$\beta$

ε

$\varepsilon$

ε

$\varepsilon$

y

$y$

y | X

$y|X$ (yang sama dengan distribusi ), tetapi tidak dengan distribusi marginal ). Dengan kata lain, data harus didistribusikan secara normal begitu efek dari regresor telah diperhitungkan, tetapi tidak (tentu) sebelumnya.

ε

$\varepsilon$

y

$y$

Apa yang Anda uji di sini adalah distribusi , di mana yang ingin Anda uji adalah distribusi . Tentu saja Anda tidak tahu , tetapi Anda dapat memperkirakannya dengan menjalankan regresi dan memeriksa distribusi residu (di mana adalah koefisien estimasi dari regresi) . Residu ini merupakan perkiraan , sehingga distribusinya akan menjadi perkiraan distribusi . $y$ $\varepsilon$ $\varepsilon$ $\hat\varepsilon=y-X\hat\beta$ $\hat\beta$ $\hat\varepsilon$ $\varepsilon$ $\varepsilon$

Ruben van Bergen
sumber

Ini adalah ringkasan yang bagus dari hal-hal standar tetapi tampaknya melewatkan fitur utama dari pertanyaan ini, yaitu bahwa dengan respons miring tetapi tidak nol, bentuk fungsional ini sepertinya bukan ide yang bagus. Untuk menghindari prediksi negatif, dan dengan alasan lain, regresi Poisson tampaknya merupakan titik awal yang lebih baik.

Nick Cox

Jawaban singkatnya adalah ya.

Pertama-tama (seperti yang ditunjukkan oleh Ruben van Bergen), distribusi (atau , dalam hal ini) tidak relevan. Jika Anda membuat asumsi distribusi, itu akan menjadi residu Anda , jadi itulah yang harus Anda periksa. $y$ $X$ $\varepsilon$

Tetapi yang lebih penting, Anda tidak memerlukan asumsi normal sama sekali agar estimasi Anda berfungsi. Anda menggunakan lmfungsi R , yang memperkirakan model Anda menggunakan kuadrat terkecil biasa (OLS) . Metode itu akan memberi Anda perkiraan yang benar dari ekspektasi bersyarat pada selama: $Y$ $X$

$\mathbb{E}[\varepsilon|X] = 0$ (tidak ada faktor eksternal yang memengaruhi hasil dan variabel penjelas Anda).
$\mathrm{Var}(\varepsilon) < \infty$ (residu Anda memiliki varian terbatas).

Jika Anda lebih lanjut membuat asumsi bahwa residu Anda tidak berkorelasi dan bahwa mereka semua memiliki varian yang sama, maka teorema Gauss-Markov berlaku dan OLS adalah penaksir linear bias (BLUE) terbaik.

Jika residu Anda berkorelasi atau memiliki varian yang berbeda, maka OLS masih berfungsi tetapi bisa jadi kurang tepat, yang harus tercermin dalam cara Anda melaporkan interval kepercayaan perkiraan Anda (menggunakan, katakanlah kesalahan standar yang kuat ).

Jika Anda juga membuat asumsi bahwa residu Anda terdistribusi secara normal, maka OLS menjadi efisien asimptot karena setara dengan kemungkinan maksimum.

Jadi regresi dapat bekerja lebih baik jika data Anda terdistribusi secara normal, tetapi masih akan berfungsi jika tidak.

thomas
sumber