Saya mencoba melihat apakah variabel x dan y bersama-sama atau secara terpisah mempengaruhi Q_7 secara signifikan (histogram yang di atas). Saya sudah menjalankan tes normalitas Shapiro-Wilk dan mendapatkan yang berikut
shapiro.test(Q_7)
## data: Q_7
## W = 0.68439, p-value < 2.2e-16
Dengan distribusi ini, apakah regresi berikut ini berfungsi? Atau ada tes lain yang harus saya lakukan?
lm(Q_7 ~ x*y)
regression
assumptions
kjetil b halvorsen
sumber
sumber
Q_7
. Saat ini sangat miring kanan. Periksa distribusi prediksi juga.Jawaban:
Analisis regresi mengasumsikan bahwa data terdistribusi normal dikondisikan pada variabel dalam model regresi . Yaitu, jika ini adalah model regresi: mana adalah matriks variabel regressor Anda, adalah (vektor) data yang harus dijelaskan, adalah vektor koefisien pada regressor dan adalah variabilitas acak (biasanya dianggap noise), maka asumsi Normality berlaku ketat untuk , bukan untuk (sunting: yah, sebenarnya itu berlaku untuk distribusi bersyarat
Apa yang Anda uji di sini adalah distribusi , di mana yang ingin Anda uji adalah distribusi . Tentu saja Anda tidak tahu , tetapi Anda dapat memperkirakannya dengan menjalankan regresi dan memeriksa distribusi residu (di mana adalah koefisien estimasi dari regresi) . Residu ini merupakan perkiraan , sehingga distribusinya akan menjadi perkiraan distribusi .y ε ε ε^=y−Xβ^ β^ ε^ ε ε
sumber
Jawaban singkatnya adalah ya.
Pertama-tama (seperti yang ditunjukkan oleh Ruben van Bergen), distribusi (atau , dalam hal ini) tidak relevan. Jika Anda membuat asumsi distribusi, itu akan menjadi residu Anda , jadi itulah yang harus Anda periksa.y X ε
Tetapi yang lebih penting, Anda tidak memerlukan asumsi normal sama sekali agar estimasi Anda berfungsi. Anda menggunakanY X
lm
fungsi R , yang memperkirakan model Anda menggunakan kuadrat terkecil biasa (OLS) . Metode itu akan memberi Anda perkiraan yang benar dari ekspektasi bersyarat pada selama:Jika Anda lebih lanjut membuat asumsi bahwa residu Anda tidak berkorelasi dan bahwa mereka semua memiliki varian yang sama, maka teorema Gauss-Markov berlaku dan OLS adalah penaksir linear bias (BLUE) terbaik.
Jika residu Anda berkorelasi atau memiliki varian yang berbeda, maka OLS masih berfungsi tetapi bisa jadi kurang tepat, yang harus tercermin dalam cara Anda melaporkan interval kepercayaan perkiraan Anda (menggunakan, katakanlah kesalahan standar yang kuat ).
Jika Anda juga membuat asumsi bahwa residu Anda terdistribusi secara normal, maka OLS menjadi efisien asimptot karena setara dengan kemungkinan maksimum.
Jadi regresi dapat bekerja lebih baik jika data Anda terdistribusi secara normal, tetapi masih akan berfungsi jika tidak.
sumber