Bagaimana saya bisa menggunakan nilai untuk menguji asumsi linearitas dalam analisis regresi berganda?

13

Grafik di bawah ini adalah plot pencar residual dari uji regresi yang asumsi "normalitas", "homoscedasticity", dan "independensi" telah dipenuhi! Untuk menguji asumsi "linearitas" , walaupun, dengan melihat grafik, dapat ditebak bahwa hubungannya adalah curvilinear, tetapi pertanyaannya adalah: Bagaimana nilai "R2 Linear" dapat digunakan untuk menguji asumsi linearitas? Berapa kisaran yang dapat diterima untuk nilai "R2 Linear" untuk memutuskan apakah hubungannya sedang linear? Apa yang harus dilakukan ketika asumsi linearitas tidak terpenuhi dan mentransformasikan IV juga tidak membantu? !!

Inilah tautan ke hasil tes lengkap.

Plot pencar:

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Cyrus
sumber
3
Saya melihat dari grafik bahwa Anda menggunakan SPSS. Cukup buka grafik untuk mengedit dan menemukan "Tambahkan tombol garis pas" di sana Anda menemukan beberapa opsi menggambar garis nonlinier , misalnya Loess. Periksa apakah opsi ini memberi Anda garis yang cukup lurus.
ttnphns
@ ttnphns: Saya menambahkan plot dengan Loess baris 2 pertanyaan.
Cyrus
Yah, sepertinya cukup melengkung, bukan? Anda dapat bermain lebih banyak dengan parameter Loess untuk melihat apa yang terjadi. Jika garis melengkung, Anda dapat secara visual menyimpulkan bahwa hubungan tersebut tidak linier.
ttnphns
@Cyrus, saya telah memposting jawaban umum untuk pertanyaan ini tetapi akan menambahkan sedikit interpretasi pada plot Anda dan menyadari bahwa saya tidak begitu yakin apa sumbu dan dalam plot Anda - dapatkah Anda mengklarifikasi? yxy
Makro
@ ttnphns: ya, ini melengkung. Saya tidak tahu bagaimana memperlakukan model ini! Dalam tes ini (# 2) saya memiliki 2 infus yang secara langsung mempengaruhi DV (PIT). Hasil regresi menunjukkan bahwa hanya 1 dari IVs yang secara signifikan mempengaruhi DV. R2 sangat rendah (0,172) & linieritasnya juga rendah (setidaknya, menurut grafik, ketika IV berada di level rendah). Saya tidak tahu apakah tes ini dapat diterima atau tidak! Bahkan saya mengubah kedua infus (dengan menghitung LN) dan menjalankan kembali regresi, tetapi hasilnya menjadi lebih buruk!
Cyrus

Jawaban:

15

Perhatikan bahwa asumsi linearitas yang Anda bicarakan hanya mengatakan bahwa rata-rata bersyarat diberikan X i adalah fungsi linierYiXi . Anda tidak dapat menggunakan nilai untuk menguji asumsi ini.R2

Ini karena hanyalah korelasi kuadrat antara nilai yang diamati dan yang diprediksi serta nilai koefisien korelasi tidak secara unik menentukan hubungan antara X dan Y (linier atau lainnya) dan kedua skenario berikut dimungkinkan: R2XY

  • Tinggi tapi asumsi linearitas masih salah dalam cara pentingR2

  • rendah tetapi asumsi linearitas masih memuaskanR2

Saya akan membahas masing-masing pada gilirannya:

(1) tetapi asumsi linieritas tetap salah dengan cara yang penting:R2 Kuncinya di sini adalah memanipulasi fakta bahwa korelasi sangat sensitif terhadap pencilan . Misalkan Anda memiliki prediktor yang dihasilkan dari distribusi campuran yang normal standar 99 % dari waktu dan massa titik di M yang lain 1 % dan variabel respon yangX1,...,Xn99%M1%

Yi={Ziif XiMMif Xi=M

ZiN(μ,1)Mμμ=0,M=105XiYi

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

YiXiYiXiXi=M

R2XiYi

Yi=β0+β1Xi+εi

YiXiXivar(εi)=σ2β1R2

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

R2

Re: Apa yang harus dilakukan ketika asumsi linearitas tidak terpenuhi dan mentransformasikan IV juga tidak membantu? !!

Ketika non-linearitas menjadi masalah, mungkin akan membantu untuk melihat plot residual vs setiap prediktor - jika ada pola yang terlihat, ini dapat menunjukkan non-linearitas pada prediktor tersebut. Misalnya, jika plot ini mengungkapkan hubungan "berbentuk mangkuk" antara residu dan prediktor, ini mungkin menunjukkan istilah kuadratik yang hilang dalam prediktor itu. Pola lain dapat menunjukkan bentuk fungsional yang berbeda. Dalam beberapa kasus, mungkin Anda belum mencoba melakukan transformasi yang benar atau bahwa model yang sebenarnya tidak linier dalam versi variabel yang diubah (meskipun dimungkinkan untuk menemukan perkiraan yang masuk akal).

R2

Makro
sumber
4

R2=11R2R221<x<2R2R2

Michael R. Chernick
sumber
Terima kasih Michael. Ukuran sampel saya adalah 302. Saya akan sangat menghargai jika Anda dapat melihat hasil tes di sini dan melihat apakah itu masuk akal dan dapat dipertahankan untuk dilaporkan. TQ
Cyrus
@Cyrus Ini yang sulit. Residual terlihat seperti mereka pas dengan normal dengan baik dan tidak ada yang bisa saya lihat yang akan salah dengan regresi linier. Anda memiliki jumlah data yang layak. R square rendah karena komponen noise acak besar. Plot LOESS menunjukkan beberapa kelengkungan pada nilai yang lebih rendah dari variabel independen. Tapi saya tidak menemukan itu meyakinkan. Saya pikir itu bisa linear dan itu menunjukkan mengapa R square bukan indikator yang baik dalam kasus ini.
Michael R. Chernick
Tq Michael :) Ya, ini benar-benar membingungkan! Semua asumsi dipenuhi dengan sempurna tetapi linearitas! Seperti yang dapat Anda lihat pada grafik 1 di atas, R2 kuadrat (0,199) lebih besar dari R2 linear (0,172) yang berarti dapat memprediksi model dengan lebih baik. Sebenarnya ketika saya melakukan regresi kuadratik (dengan menambahkan SC2) plot sebar dalam hasilnya sangat heteroscedatic! Aku begitu bingung! Jangan tahu apa yang harus dilakukan dengan model ini! Satu-satunya masalah adalah linearitasnya yang rendah. Saya tidak tahu bagaimana membenarkan linearitas jika saya memasukkan plot pencar di laporan saya. Regresi kuadratik juga gagal memenuhi asumsi homogenitas. Bantuan
Cyrus
1
Saya tidak berpikir itu membingungkan. Itu terlihat cukup linier. Ada banyak variabilitas yang menyebabkan R square rendah. Saya pikir satu-satunya cara untuk Anda dapat mengurangi variabilitas akan menemukan variabel penjelasan lain.
Michael R. Chernick