Saya mencoba melakukan regresi berganda R
. Namun, variabel dependen saya memiliki plot berikut:
Berikut adalah matriks sebar dengan semua variabel saya ( WAR
adalah variabel dependen):
Saya tahu bahwa saya perlu melakukan transformasi pada variabel ini (dan mungkin variabel independen?) Tetapi saya tidak yakin dengan transformasi yang tepat diperlukan. Bisakah seseorang mengarahkan saya ke arah yang benar? Saya senang memberikan informasi tambahan tentang hubungan antara variabel independen dan dependen.
Grafik diagnostik dari regresi saya terlihat sebagai berikut:
EDIT
Setelah mentransformasikan variabel dependen dan independen menggunakan transformasi Yeo-Johnson, plot diagnostik terlihat seperti ini:
Jika saya menggunakan GLM dengan tautan log, grafik diagnostiknya adalah:
R
dengan perintah dipairs(my.data, lower.panel = panel.smooth)
manamy.data
dataset Anda.lm
boxcox(my.lm.model)
MASS
Jawaban:
Buku John Fox, An R pendamping untuk regresi terapan adalah sumber daya yang sangat baik pada pemodelan regresi terapan dengan
R
. Paketcar
yang saya gunakan dalam jawaban ini adalah paket yang menyertai. Buku ini juga memiliki situs web dengan bab-bab tambahan.Mengubah respons (alias variabel dependen, hasil)
R
lm
boxCox
car
family="yjPower"
Ini menghasilkan plot seperti berikut:
Untuk mengubah variabel dependen Anda sekarang, gunakan fungsi
yjPower
daricar
paket:lambda
boxCox
Penting: Daripada hanya mentransformasi log variabel dependen, Anda harus mempertimbangkan untuk menyesuaikan GLM dengan log-link. Berikut adalah beberapa referensi yang memberikan informasi lebih lanjut: pertama , kedua , ketiga . Untuk melakukan ini
R
, gunakanglm
:di mana
y
variabel dependen Anda danx1
,x2
dll. adalah variabel independen Anda.Transformasi prediktor
Transformasi prediktor yang benar - benar positif dapat diperkirakan dengan kemungkinan maksimum setelah transformasi variabel dependen. Untuk melakukannya, gunakan fungsi
boxTidwell
daricar
paket (untuk kertas asli lihat di sini ). Gunakan seperti itu:boxTidwell(y~x1+x2, other.x=~x3+x4)
. Yang penting di sini adalah bahwa opsiother.x
menunjukkan syarat-syarat regresi yang tidak boleh diubah. Ini akan menjadi semua variabel kategori Anda. Fungsi menghasilkan output dari bentuk berikut:income
income
Posting lain yang sangat menarik di situs tentang transformasi variabel independen adalah yang ini .
Kerugian transformasi
Pemodelan hubungan nonlinear
Dua metode yang cukup fleksibel agar sesuai dengan hubungan nonlinear adalah polinomial pecahan dan splines . Ketiga makalah ini menawarkan pengantar yang sangat baik untuk kedua metode: Pertama , kedua dan ketiga . Ada juga seluruh buku tentang polinomial pecahan dan
R
. TheR
paketmfp
alat multivariabel polinomial pecahan. Presentasi ini mungkin informatif mengenai polinomial pecahan. Untuk menyesuaikan splines, Anda dapat menggunakan fungsigam
(model aditif umum, lihat di sini untuk pengenalan yang sangat baik denganR
) dari paketmgcv
atau fungsins
(natural cubic splines) danbs
(cubic B-splines) dari paketsplines
(lihat di sini untuk contoh penggunaan fungsi-fungsi ini). Menggunakangam
Anda dapat menentukan prediktor mana yang ingin Anda gunakan menggunakan splines menggunakans()
fungsi:di sini,
x1
akan dipasang menggunakan spline danx2
linear seperti pada regresi linier normal. Di dalamgam
Anda dapat menentukan keluarga distribusi dan fungsi tautan seperti padaglm
. Jadi untuk cocok dengan model dengan fungsi log-link, Anda dapat menentukan pilihanfamily=gaussian(link="log")
dalamgam
seperti diglm
.Lihat posting ini dari situs.
sumber
mgcv
paket dangam
. Jika itu tidak membantu, saya kehabisan akal saya takut. Ada orang di sini yang jauh lebih berpengalaman daripada saya dan mungkin mereka bisa memberi Anda saran lebih lanjut. Saya juga tidak tahu banyak tentang baseball. Mungkin ada model yang lebih logis yang masuk akal dengan data ini.Anda harus memberi tahu kami lebih lanjut tentang sifat respons (hasil, tergantung) variabel Anda. Dari plot pertama Anda sangat condong positif dengan banyak nilai mendekati nol dan beberapa negatif. Dari situ dimungkinkan, tetapi tidak bisa dihindari, transformasi itu akan membantu Anda, tetapi pertanyaan yang paling penting adalah apakah transformasi akan membuat data Anda lebih dekat dengan hubungan linier.
Perhatikan bahwa nilai-nilai negatif untuk respon menghilangkan transformasi logaritmik lurus, tetapi tidak log (respon + konstan), dan bukan model linear umum dengan tautan logaritmik.
Ada banyak jawaban di situs ini yang membahas log (respons + konstan), yang membagi orang statistik: beberapa orang tidak menyukainya sebagai ad hoc dan sulit untuk diajak bekerja sama, sementara yang lain menganggapnya sebagai perangkat yang sah.
GLM dengan tautan log masih dimungkinkan.
Sebagai alternatif, mungkin saja model Anda mencerminkan semacam proses campuran, dalam hal ini model khusus yang mencerminkan proses pembuatan data secara lebih dekat adalah ide yang bagus.
(KEMUDIAN)
OP memiliki PERANG variabel dependen dengan nilai berkisar sekitar 100 hingga -2. Untuk mengatasi masalah dengan mengambil logaritma nol atau nilai negatif, OP mengusulkan fudge nol dan negatif ke 0,000001. Sekarang pada skala logaritmik (basis 10) nilai-nilai tersebut berkisar dari sekitar 2 (100 atau lebih) hingga -6 (0,000001). Minoritas titik-titik fud pada skala logaritmik sekarang menjadi minoritas outlier besar. Plot log_10 (WAR fudged) terhadap hal lain untuk melihat ini.
sumber