Non-normalitas dalam residu

8

Saya merujuk pada posting ini yang tampaknya mempertanyakan pentingnya distribusi normal residu, dengan alasan bahwa ini bersama dengan heteroskedastisitas berpotensi dapat dihindari dengan menggunakan kesalahan standar yang kuat.

Saya telah mempertimbangkan berbagai transformasi - root, log dll - dan semuanya terbukti tidak berguna dalam menyelesaikan masalah sepenuhnya.

Ini adalah plot QQ dari residu saya:

Plot normalitas

Data

  • Variabel dependen: sudah dengan transformasi logaritmik (memperbaiki masalah outlier dan masalah dengan kemiringan dalam data ini)
  • Variabel independen: usia perusahaan, dan sejumlah variabel biner (indikator) (Kemudian saya memiliki beberapa hitungan, untuk regresi terpisah sebagai variabel independen)

The iqrperintah (Hamilton) di Stata tidak menentukan setiap outlier parah yang mengesampingkan normalitas, tetapi grafik di bawah ini menunjukkan sebaliknya dan begitu juga dengan uji Shapiro-Wilk.

Cesare Camestre
sumber
4
Saya tidak akan khawatir dengan grafik seperti itu, penyimpangan tampak cukup ringan. Jika mau, Anda dapat menambahkan batas keyakinan pada grafik tersebut menggunakan qenvpaket.
Maarten Buis
4
Saya setuju dengan @MaartenBuis bahwa Anda tidak perlu terlalu khawatir berdasarkan plot. Saya tidak akan merekomendasikan untuk bergantung pada uji formal normalitas (misalnya uji Shapiro) residu. Dalam sampel besar, tes akan hampir selalu menolak hipotesis . Berikut ini adalah jawaban informatif dari Glen yang membahas persis pertanyaan pengujian formal normalitas residu.
COOLSerdash
4
Lihat juga ini dan ini . Perhatikan juga bahwa ketika ukuran sampel Anda semakin besar, asumsi normal Anda menjadi kurang kritis. Kecuali Anda memiliki banyak prediktor, ketidaknormalan ringan seperti itu seharusnya tidak ada konsekuensinya sama sekali. Masalahnya bukan hanya bahwa tes hipotesis akan menolak ketika sampel besar - mereka menjawab pertanyaan yang salah di ukuran sampel lain juga.
Glen_b -Reinstate Monica
3
Itu p-Nilai mengatakan bahwa penyimpangan dari normalitas lebih besar dari yang diharapkan terjadi secara kebetulan, itu tidak mengatakan bahwa penyimpangan itu cukup besar untuk membahayakan model Anda. Berdasarkan grafik Anda, panggilan penilaian saya adalah Anda baik-baik saja.
Maarten Buis
5
Yang penting adalah efek pada kesimpulan Anda . Satu-satunya bentuk inferensi efek sekecil itu akan berdampak sama sekali adalah dengan interval prediksi ... dan bahkan di sana, saya mungkin akan menggunakannya dengan sedikit penyesuaian, kecuali saya membutuhkan interval prediksi jauh ke ekor ( katakanlah 99% atau lebih). Yang lebih memprihatinkan adalah masalah-masalah seperti ketergantungan dan bias dan kesalahan spesifikasi model untuk mean atau varians.
Glen_b -Reinstate Monica

Jawaban:

9

Salah satu cara Anda dapat menambahkan "rasa seperti tes" ke grafik Anda adalah dengan menambahkan batas kepercayaan di sekitar mereka. Di Stata saya akan melakukan ini seperti ini:

sysuse nlsw88, clear
gen lnw = ln(wage)

reg lnw i.race grade c.ttl_exp##c.ttl_exp union

predict resid if e(sample), resid

qenvnormal resid, mean(0) sd(`e(rmse)') overall reps(20000) gen(lb ub)

qplot resid lb ub, ms(oh none ..) c(. l l)     ///
    lc(gs10 ..) legend(off) ytitle("residual") ///
    trscale(`e(rmse)' * invnormal(@))          ///
    xtitle(Normal quantiles)

masukkan deskripsi gambar di sini

Maarten Buis
sumber
3
Perhatikan bahwa pengguna Stata perlu menginstal qenv(oleh ssc install qenv) pertama.
Nick Cox
Saya akan melihat ini hari ini dan melihat apakah saya bisa mendapatkan kepercayaan diri
Cesare Camestre
Mendapatkan kesalahan: qenvnormal resid, mean (0) se (`e (rmse) ') keseluruhan repetisi (20000) gen (lb ub) - opsi se () tidak diizinkan
Cesare Camestre
1
benar, seharusnya sd(). Adalah normal (tidak ada qenvpermainan kata-kata yang dimaksudkan) bahwa dengan overallopsi ini membutuhkan waktu sangat lama.
Maarten Buis
1
Bantuan untuk qenvnormaltidak menjelaskan bahwa Anda perlu menginstal qplot. Anda diharapkan membaca bantuan. Lebih penting lagi, saya kira Anda menggunakan versi yang sangat lama qplot. Instal dari paket gr42_6 dari stata-journal.com/software/sj12-1
Nick Cox
5

Satu hal yang perlu diingat ketika memeriksa plot qq ini adalah bahwa ekor akan cenderung menyimpang dari garis bahkan jika distribusi yang mendasarinya benar-benar normal dan tidak peduli seberapa besar N. Ini tersirat dalam jawaban Maarten . Ini karena ketika N semakin besar dan semakin besar ekornya akan semakin jauh dan semakin jauh dan semakin jarang. Karena itu akan selalu ada sangat sedikit data di bagian ekor dan mereka akan selalu jauh lebih bervariasi. Jika sebagian besar garis Anda berada di tempat yang diharapkan dan hanya ekor yang menyimpang maka Anda biasanya dapat mengabaikannya.

Salah satu cara yang saya gunakan untuk membantu siswa mempelajari cara menilai plot qq mereka untuk normalitas adalah menghasilkan sampel acak dari distribusi yang diketahui normal dan memeriksa sampel tersebut. Ada latihan di mana mereka menghasilkan sampel dengan berbagai ukuran untuk melihat apa yang terjadi ketika N berubah dan juga yang mengambil sampel distribusi nyata dan membandingkannya dengan sampel acak dengan ukuran yang sama. The TeachingDemos paket R memiliki uji normalitas yang menggunakan jenis yang sama teknik.

# R example - change the 1000 to whatever N you would like to examine
# run several times
y <- rnorm(1000); qqnorm(y); qqline(y)
John
sumber
Setuju, tapi ini adalah salah satu poin kunci Maarten dalam jawabannya dan itulah mengapa interval digunakan untuk menandakan ketidakpastian.
Nick Cox
Apakah Anda menyarankan jawaban ini berlebihan? Saya pikir bagian dari ini tersirat dalam jawaban Maarten tetapi saya tidak berpikir itu adalah poin kunci atau lengkap. Jawaban Maarten baik. Jawaban ini berbeda tetapi terkait.
John
Itu tidak berlebihan, tetapi referensi silang ke jawaban Maarten akan cenderung membantu pembaca di masa depan.
Nick Cox
Untuk menjadi eksplisit tentang hubungan antara ini dan jawaban saya: jika Anda melihat di bawah tenda qenvAnda akan melihat bahwa teknik simulasi ini adalah inti dari bagaimana band-band kepercayaan diri dihitung.
Maarten Buis
1
menambahkan tautan ...
John