Asumsi model linier dan apa yang harus dilakukan jika residual tidak terdistribusi secara normal

22

Saya sedikit bingung tentang apa asumsi regresi linier.

Sejauh ini saya memeriksa apakah:

  • semua variabel penjelas berkorelasi linier dengan variabel respons. (Ini yang terjadi)
  • ada collinearity antara variabel penjelas. (Ada sedikit collinearity).
  • jarak Cook dari titik data model saya di bawah 1 (ini kasusnya, semua jarak di bawah 0,4, jadi tidak ada titik pengaruh).
  • residu terdistribusi normal. (Mungkin bukan ini masalahnya)

Tetapi saya kemudian membaca yang berikut:

pelanggaran normalitas sering muncul baik karena (a) distribusi variabel dependen dan / atau independen itu sendiri secara signifikan tidak normal, dan / atau (b) asumsi linearitas dilanggar.

Pertanyaan 1 Ini membuatnya terdengar seolah-olah variabel independen dan dependen perlu didistribusikan secara normal, tetapi sejauh yang saya tahu ini tidak terjadi. Variabel dependen saya dan juga salah satu variabel independen saya tidak terdistribusi secara normal. Haruskah begitu?

Pertanyaan 2 QQ plot normal residu saya terlihat seperti ini:

pemeriksaan normal residu

Itu sedikit berbeda dari distribusi normal dan shapiro.testjuga menolak hipotesis nol bahwa residu berasal dari distribusi normal:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Nilai residu vs pas terlihat seperti:

residu vs pas

Apa yang dapat saya lakukan jika residu saya tidak terdistribusi secara normal? Apakah itu berarti model linier sepenuhnya tidak berguna?

Stefan
sumber
3
Residual Anda versus plot yang dipasang menunjukkan bahwa variabel dependen Anda memiliki batas bawah. Ini bisa mendorong pola yang Anda lihat. Ini bisa memberi Anda indikasi untuk model alternatif yang dapat Anda pertimbangkan.
Maarten Buis

Jawaban:

25

Pertama, saya akan mendapatkan sendiri salinan artikel klasik dan mudah didekati ini dan membacanya: Anscombe FJ. (1973) Grafik dalam analisis statistik The American Statistician . 27: 17–21.

Aktif untuk pertanyaan Anda:

Jawaban 1: Baik variabel dependen maupun independen tidak perlu didistribusikan secara normal. Bahkan mereka dapat memiliki semua jenis distribusi gila. Asumsi normalitas berlaku untuk distribusi kesalahan ( YiY^i ).

Jawaban 2: Anda sebenarnya bertanya tentang dua asumsi terpisah dari regresi kuadrat biasa (OLS):

  1. Salah satunya adalah asumsi linearitas . Ini berarti bahwa hubungan antara Y dan X dinyatakan oleh garis lurus (kanan Lurus kembali ke aljabar: y=a+bx , di mana a adalah y -intercept, dan b . Adalah kemiringan garis) Pelanggaran dari asumsi ini berarti bahwa hubungan tersebut tidak digambarkan dengan baik oleh garis lurus (misalnya, Y adalah fungsi sinusoidal X, atau fungsi kuadratik, atau bahkan garis lurus yang mengubah kemiringan di beberapa titik). Pendekatan dua langkah pilihan saya sendiri untuk mengatasi non-linearitas adalah untuk (1) melakukan semacam regresi smoothing non-parametrik untuk menyarankan hubungan fungsional nonlinear spesifik antara Y dan X (misalnya, menggunakan LOWESS , atau GAM , dll.), dan (2) untuk menentukan hubungan fungsional menggunakan regresi berganda yang mencakup nonlinier dalam X , (misalnya, YX+X2 ), atau model regresi kuadrat terkecil nonlinier yang mencakup nonlinieritas dalam parameter X (misalnya YX+max(Xθ,0) , di manaθ menunjukkan titik di mana garis regresiY padaX berubah kemiringan).

  2. Lain adalah asumsi residu terdistribusi normal. Kadang-kadang seseorang dapat secara valid pergi dengan residu tidak normal dalam konteks OLS; lihat misalnya, Lumley T, Emerson S. (2002) Pentingnya Asumsi Normalitas di Set Data Kesehatan Masyarakat Besar . Tinjauan Tahunan Kesehatan Masyarakat . 23: 151–69. Kadang-kadang, orang tidak bisa (lagi, lihat artikel Anscombe).

y

Alexis
sumber
2
Terima kasih! Dalam slide beberapa kursus statistik dikatakan bahwa jika asumsi gagal, Anda dapat mencoba mengubah Y atau mengubah variabel penjelas. Ketika saya mengubah Y dengan melakukan misalnya lm (Y ^ 0,3 ~ + X1 + X2 + ...) maka residu saya terdistribusi secara normal. Apakah ini hal yang sah untuk dilakukan?
Stefan
@Stan Ya! Mengubah respons sering kali merupakan hal yang baik untuk dilakukan log, dan transformasi daya sederhana adalah hal biasa.
Gregor --reinstate Monica--
Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX
@Alexis: Mengapa halaman ini mengatakan bahwa variabel harus terdistribusi secara normal? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…
stackoverflowuser2010
7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0,5XY
11

Masalah pertama Anda adalah

  • terlepas dari jaminan Anda, plot residual menunjukkan bahwa respons yang diharapkan bersyarat tidak linier dalam nilai yang dipasang; model untuk mean salah.

  • Anda tidak memiliki varian konstan. Model untuk varians salah.

Anda bahkan tidak dapat menilai normalitas dengan masalah-masalah itu di sana.

Glen_b -Reinstate Monica
sumber
Tolong jelaskan bagaimana Anda menyimpulkan tentang linearitas dengan melihat plot? Saya mengerti bahwa asumsi homoskedasticity tidak terpenuhi di sini.
Dr Nisha Arora
y^y^=30060<00-3030-60>60), buat perkiraan terbaik Anda untuk garis lurus. Bagi saya yang dua tengah hampir kebetulan, jadi saya menggabungkan garis mereka, memberikan sesuatu seperti ini
Glen_b -Reinstate Monica
Di bagian tengah, hampir semua residu negatif, di bagian luar hampir semua residual positif. Ini bukan bagaimana residu acak terlihat.
Glen_b -Reinstate Monica
Terima kasih, @Glen_b. Setelah jeda yang panjang, saya meninjau kembali konsep saya sehingga tidak dapat memvisualisasikan pada awalnya.
Dr Nisha Arora
Meskipun tidak banyak yang bisa dilakukan di sini, saya berharap data asli tidak negatif, dan baik model linier umum (mungkin gamma dengan log-link) atau transformasi (kemungkinan log-transformasi) akan menjadi pilihan yang lebih cocok .
Glen_b -Reinstate Monica
3

Saya tidak akan mengatakan model linear sama sekali tidak berguna. Namun, ini berarti bahwa model Anda tidak benar / sepenuhnya menjelaskan data Anda. Ada bagian di mana Anda harus memutuskan apakah model itu "cukup baik" atau tidak.

Untuk pertanyaan pertama Anda, saya tidak berpikir bahwa model regresi linier mengasumsikan bahwa variabel dependen dan independen Anda harus normal. Namun, ada asumsi tentang normalitas residu.

Untuk pertanyaan kedua, ada dua hal berbeda yang dapat Anda pertimbangkan:

  1. Periksa berbagai jenis model. Model lain mungkin lebih baik untuk menjelaskan data Anda (misalnya, regresi non-linear, dll). Anda masih harus memeriksa bahwa asumsi "model baru" ini tidak dilanggar.
  2. Data Anda mungkin tidak mengandung cukup kovariat (variabel dependen) untuk menjelaskan respons (hasil). Dalam hal ini, Anda tidak dapat melakukan hal lain. Kadang-kadang, kami dapat menerima untuk memeriksa apakah residu mengikuti distribusi yang berbeda (misalnya distribusi-t) tetapi sepertinya tidak demikian halnya dengan Anda.

Selain pertanyaan Anda, saya melihat bahwa QQPlot Anda tidak "dinormalisasi". Biasanya lebih mudah untuk melihat plot ketika residu Anda dibakukan, lihat stdres .

stdres(lmobject)

Saya harap ini membantu Anda, mungkin orang lain akan menjelaskan ini lebih baik daripada saya.

Julien D.
sumber
0

Selain jawaban sebelumnya, saya ingin menambahkan beberapa poin untuk meningkatkan model Anda:

  1. Terkadang residu yang tidak normal menunjukkan adanya outlier. Jika ini masalahnya, tangani outlier terlebih dahulu.

  2. Mungkin menggunakan beberapa transformasi memecahkan tujuan.

  3. Selain itu, untuk menangani multi-kolinearitas, Anda dapat merujuk https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution

Dr Nisha Arora
sumber
-1

Untuk pertanyaan kedua Anda,

Sesuatu yang terjadi pada saya dalam praktik adalah bahwa saya memenuhi respons saya dengan banyak variabel independen. Dalam model overfitted saya memiliki residu yang tidak normal. Meskipun demikian, hasil menyatakan bahwa tidak ada cukup bukti untuk menentukan kemungkinan bahwa beberapa koefisien nol (dengan parutan nilai-p dari 0,2). Jadi dalam model kedua, menghilangkan variabel mengikuti prosedur seleksi mundur saya mendapat residu normal divalidasi baik secara grafis dengan qqplot dan dengan pengujian hipotesis dengan uji Shapiro-Wilk. Periksa apakah ini bisa menjadi kasus Anda.

Ayar Paco
sumber