Saya ingin mengurangi penghematan bahan bakar pada perpindahan engine, tipe bahan bakar, penggerak 2 vs 4 roda, tenaga kuda, transmisi manual vs. otomatis, dan jumlah kecepatan. Kumpulan data saya ( tautan ) berisi kendaraan dari 2012-2014.
fuelEconomy
dalam mil per galonengineDisplacement
: ukuran mesin dalam literfuelStd
: 1 untuk gas 0 untuk dieselwheelDriveStd
: 1 untuk penggerak 2 roda, 0 untuk penggerak 4 rodahp
: tenaga kudatransStd
: 1 untuk Otomatis, 0 untuk manualtransSpeed
: Jumlah kecepatan
Kode-R:
reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp +
transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd +
hp + transStd + transSpeed, data = a)
Residuals:
Min 1Q Median 3Q Max
-10.2765 -2.3142 -0.0655 2.0944 15.8637
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48.147115 0.542910 88.683 < 2e-16 ***
engineDisplacement -3.673549 0.091272 -40.248 < 2e-16 ***
fuelStd -6.613112 0.403989 -16.370 < 2e-16 ***
wheelDriveStd 2.778134 0.137775 20.164 < 2e-16 ***
hp -0.005884 0.001008 -5.840 5.86e-09 ***
transStd -0.351853 0.157570 -2.233 0.0256 *
transSpeed -0.080365 0.052538 -1.530 0.1262
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.282 on 2648 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.7802, Adjusted R-squared: 0.7797
F-statistic: 1566 on 6 and 2648 DF, p-value: < 2.2e-16
- Apakah hasilnya realistis atau saya melakukan sesuatu yang salah di sini karena sebagian besar variabel sangat signifikan secara statistik?
- Apakah model lain lebih baik digunakan untuk tujuan ini?
- Apakah hasil seperti itu dapat digunakan untuk interpretasi?
Saya tahu sedikit tentang mekanika dan fisika yang terlibat, tetapi hal pertama yang akan saya lihat adalah diagnosa regresi, khususnya, plot residu vs nilai pas, yang kami inginkan tidak ada pola keseluruhan.
Anda telah memasang model linier sehingga setiap kovariat memiliki hubungan linier dengan
fuelEconomy
. Apakah ini didukung oleh teori mekanik dan fisik yang mendasarinya? Mungkinkah ada asosiasi nonlinier? Jika demikian maka Anda dapat mempertimbangkan model dengan istilah nonlinear, mengubah variabel tertentu, atau Anda dapat mempertimbangkan menggunakan model aditif. Sekalipun asosiasi tersebut linier masuk akal dalam dataset aktual Anda, berhati-hatilah untuk mengekstrapolasi hasil di luar batas data Anda.sumber
Sebuah matriks sebar dengan kurva loess dan nilai-nilai korelasi (nilai absolut) dapat menjadi titik yang baik mulai:
Kita dapat melihat di sini hubungan yang mungkin kuadratik yang
fuelEconomy
diplotkan terhadap keduanyalineDisplacement
danhp
, yang juga tercermin dalam penampakan Nike swoosh di plot residual . Akan menarik untuk menyelidiki keberadaan interaksi antara istilah ini.Kurangnya linearitas ini juga jelas jika kita menjalankan regresi linear
fuelEconomy
terhadaplinearDisplacement
(hasil yang sama dapat diperoleh denganhp
). Perhatikan garis merah ...Efek ini dapat diperbaiki sebagian membuat model lebih kompleks, dan memperkenalkan model kuadratik:
Model baru memiliki nilai R-squared yang disesuaikan lebih tinggi (0,8205 ) dari yang pertama (0,7798 ).
Sifat dikotomis
fuelStd
danwheeldriveStd
hanya memindahkan rata-rata dari nilai-nilai yang diprediksi turun, dan pada dasarnya adalah variabel atau faktor kode-dummy. Ini juga terlihat pada plot sebar awal, tetapi dapat divisualisasikan lebih lanjut dengan plot kotak:Satu poin terakhir dalam diagnostik adalah adanya titik-titik leverage yang tinggi , yang layak untuk dilihat:
Apa yang harus disimpulkan? Tidak ada yang kategoris. Mungkin hanya untuk menekankan pentingnya merencanakan dalam memahami kumpulan data dan model apa pun yang dikenakan padanya.
sumber
Jawaban untuk pertanyaan pertama Anda tergantung pada kerangka teoretis Anda, bagaimana Anda menyatakan hipotesis tentang hubungan antara variabel dependen dan independen, dan bagaimana Anda menginterpretasikan hasilnya. Dengan sendirinya, memperoleh hubungan yang signifikan secara statistik untuk sebagian besar variabel mungkin tidak mengatakan apa pun tentang seberapa realistis hasil Anda.
Jadi, jika hasil ini terlihat mencurigakan bagi Anda (berdasarkan pengetahuan Anda sebelumnya), Anda dapat menjalankan beberapa tes diagnostik untuk regresi. Mungkin ada pelanggaran asumsi model dan masalah lain (misalnya, pencilan). Bahkan, selalu membantu untuk menjalankan tes ini untuk mengevaluasi model regresi Anda. Karena Anda menggunakan
R
, Anda dapat memeriksacar
paket yang menyediakan sejumlah fungsi untuk tes diagnostik. Di sini Anda dapat menemukan slide kursus tentang diagnosa regresi oleh salah satu penulis (dan pencipta)car
paket, John Fox. Anda dapat memeriksa bukunya tentang topik (1991) juga. Kabacoff (2011) juga membahas diagnostik regresi dan cara menggunakanR
fungsi (termasuk daricar
paket) dan menginterpretasikan hasil (hal.188-200). Saya pikir setelah tes diagnostik ini, lebih baik untuk mengevaluasi hasil dan seberapa bermanfaat mereka.Fox, J. (1991). Diagnostik Regresi . Taman Newbury, London, New Delhi: Sage Publications.
Kabacoff, RI (2011). R dalam Aksi: Analisis data dan grafis dengan R . Shelter Island: Manning.
Juga:
Fox, J., & Weisberg, S. (2011). Mendiagnosis Masalah dalam Model Linear dan Generalized Linear. Dalam An R Companion to Applied Regression (2nd ed., Hlm. 285-328). Los Angeles: Sage Publications.
sumber