Saya sedikit bingung tentang apa asumsi regresi linier.
Sejauh ini saya memeriksa apakah:
- semua variabel penjelas berkorelasi linier dengan variabel respons. (Ini yang terjadi)
- ada collinearity antara variabel penjelas. (Ada sedikit collinearity).
- jarak Cook dari titik data model saya di bawah 1 (ini kasusnya, semua jarak di bawah 0,4, jadi tidak ada titik pengaruh).
- residu terdistribusi normal. (Mungkin bukan ini masalahnya)
Tetapi saya kemudian membaca yang berikut:
pelanggaran normalitas sering muncul baik karena (a) distribusi variabel dependen dan / atau independen itu sendiri secara signifikan tidak normal, dan / atau (b) asumsi linearitas dilanggar.
Pertanyaan 1 Ini membuatnya terdengar seolah-olah variabel independen dan dependen perlu didistribusikan secara normal, tetapi sejauh yang saya tahu ini tidak terjadi. Variabel dependen saya dan juga salah satu variabel independen saya tidak terdistribusi secara normal. Haruskah begitu?
Pertanyaan 2 QQ plot normal residu saya terlihat seperti ini:
Itu sedikit berbeda dari distribusi normal dan shapiro.test
juga menolak hipotesis nol bahwa residu berasal dari distribusi normal:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Nilai residu vs pas terlihat seperti:
Apa yang dapat saya lakukan jika residu saya tidak terdistribusi secara normal? Apakah itu berarti model linier sepenuhnya tidak berguna?
Jawaban:
Pertama, saya akan mendapatkan sendiri salinan artikel klasik dan mudah didekati ini dan membacanya: Anscombe FJ. (1973) Grafik dalam analisis statistik The American Statistician . 27: 17–21.
Aktif untuk pertanyaan Anda:
Jawaban 1: Baik variabel dependen maupun independen tidak perlu didistribusikan secara normal. Bahkan mereka dapat memiliki semua jenis distribusi gila. Asumsi normalitas berlaku untuk distribusi kesalahan (Ysaya- Y^saya ).
Jawaban 2: Anda sebenarnya bertanya tentang dua asumsi terpisah dari regresi kuadrat biasa (OLS):
Salah satunya adalah asumsi linearitas . Ini berarti bahwa hubungan antaraY dan X dinyatakan oleh garis lurus (kanan Lurus kembali ke aljabar: y= a + b x , di mana Sebuah adalah y -intercept, dan b . Adalah kemiringan garis) Pelanggaran dari asumsi ini berarti bahwa hubungan tersebut tidak digambarkan dengan baik oleh garis lurus (misalnya, Y adalah fungsi sinusoidal X , atau fungsi kuadratik, atau bahkan garis lurus yang mengubah kemiringan di beberapa titik). Pendekatan dua langkah pilihan saya sendiri untuk mengatasi non-linearitas adalah untuk (1) melakukan semacam regresi smoothing non-parametrik untuk menyarankan hubungan fungsional nonlinear spesifik antara Y dan X (misalnya, menggunakan LOWESS , atau GAM , dll.), dan (2) untuk menentukan hubungan fungsional menggunakan regresi berganda yang mencakup nonlinier dalam X , (misalnya, Y∼ X+ X2 ), atau model regresi kuadrat terkecil nonlinier yang mencakup nonlinieritas dalam parameter X (misalnya Y∼ X+ maks ( X- θ , 0 ) , di manaθ menunjukkan titik di mana garis regresiY padaX berubah kemiringan).
Lain adalah asumsi residu terdistribusi normal. Kadang-kadang seseorang dapat secara valid pergi dengan residu tidak normal dalam konteks OLS; lihat misalnya, Lumley T, Emerson S. (2002) Pentingnya Asumsi Normalitas di Set Data Kesehatan Masyarakat Besar . Tinjauan Tahunan Kesehatan Masyarakat . 23: 151–69. Kadang-kadang, orang tidak bisa (lagi, lihat artikel Anscombe).
sumber
log
, dan transformasi daya sederhana adalah hal biasa.Masalah pertama Anda adalah
terlepas dari jaminan Anda, plot residual menunjukkan bahwa respons yang diharapkan bersyarat tidak linier dalam nilai yang dipasang; model untuk mean salah.
Anda tidak memiliki varian konstan. Model untuk varians salah.
Anda bahkan tidak dapat menilai normalitas dengan masalah-masalah itu di sana.
sumber
Saya tidak akan mengatakan model linear sama sekali tidak berguna. Namun, ini berarti bahwa model Anda tidak benar / sepenuhnya menjelaskan data Anda. Ada bagian di mana Anda harus memutuskan apakah model itu "cukup baik" atau tidak.
Untuk pertanyaan pertama Anda, saya tidak berpikir bahwa model regresi linier mengasumsikan bahwa variabel dependen dan independen Anda harus normal. Namun, ada asumsi tentang normalitas residu.
Untuk pertanyaan kedua, ada dua hal berbeda yang dapat Anda pertimbangkan:
Selain pertanyaan Anda, saya melihat bahwa QQPlot Anda tidak "dinormalisasi". Biasanya lebih mudah untuk melihat plot ketika residu Anda dibakukan, lihat stdres .
Saya harap ini membantu Anda, mungkin orang lain akan menjelaskan ini lebih baik daripada saya.
sumber
Selain jawaban sebelumnya, saya ingin menambahkan beberapa poin untuk meningkatkan model Anda:
Terkadang residu yang tidak normal menunjukkan adanya outlier. Jika ini masalahnya, tangani outlier terlebih dahulu.
Mungkin menggunakan beberapa transformasi memecahkan tujuan.
Selain itu, untuk menangani multi-kolinearitas, Anda dapat merujuk https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution
sumber
Untuk pertanyaan kedua Anda,
Sesuatu yang terjadi pada saya dalam praktik adalah bahwa saya memenuhi respons saya dengan banyak variabel independen. Dalam model overfitted saya memiliki residu yang tidak normal. Meskipun demikian, hasil menyatakan bahwa tidak ada cukup bukti untuk menentukan kemungkinan bahwa beberapa koefisien nol (dengan parutan nilai-p dari 0,2). Jadi dalam model kedua, menghilangkan variabel mengikuti prosedur seleksi mundur saya mendapat residu normal divalidasi baik secara grafis dengan qqplot dan dengan pengujian hipotesis dengan uji Shapiro-Wilk. Periksa apakah ini bisa menjadi kasus Anda.
sumber