Apakah realistis untuk semua variabel menjadi sangat signifikan dalam model regresi berganda?

8

Saya ingin mengurangi penghematan bahan bakar pada perpindahan engine, tipe bahan bakar, penggerak 2 vs 4 roda, tenaga kuda, transmisi manual vs. otomatis, dan jumlah kecepatan. Kumpulan data saya ( tautan ) berisi kendaraan dari 2012-2014.

  • fuelEconomy dalam mil per galon
  • engineDisplacement: ukuran mesin dalam liter
  • fuelStd: 1 untuk gas 0 untuk diesel
  • wheelDriveStd: 1 untuk penggerak 2 roda, 0 untuk penggerak 4 roda
  • hp: tenaga kuda
  • transStd: 1 untuk Otomatis, 0 untuk manual
  • transSpeed: Jumlah kecepatan

Kode-R:

reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + 
                       transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + 
    hp + transStd + transSpeed, data = a)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2765  -2.3142  -0.0655   2.0944  15.8637 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        48.147115   0.542910  88.683  < 2e-16 ***
engineDisplacement -3.673549   0.091272 -40.248  < 2e-16 ***
fuelStd            -6.613112   0.403989 -16.370  < 2e-16 ***
wheelDriveStd       2.778134   0.137775  20.164  < 2e-16 ***
hp                 -0.005884   0.001008  -5.840 5.86e-09 ***
transStd           -0.351853   0.157570  -2.233   0.0256 *  
transSpeed         -0.080365   0.052538  -1.530   0.1262    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.282 on 2648 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.7802,    Adjusted R-squared:  0.7797 
F-statistic:  1566 on 6 and 2648 DF,  p-value: < 2.2e-16
  1. Apakah hasilnya realistis atau saya melakukan sesuatu yang salah di sini karena sebagian besar variabel sangat signifikan secara statistik?
  2. Apakah model lain lebih baik digunakan untuk tujuan ini?
  3. Apakah hasil seperti itu dapat digunakan untuk interpretasi?
Bert
sumber

Jawaban:

5

@AntoniParelleada telah melakukan pekerjaan yang baik dengan mendemonstrasikan beberapa teknik diagnostik model standar yang dapat Anda gunakan untuk mengevaluasi model Anda. Saya mengumpulkan perhatian utama Anda adalah bahwa "sebagian besar variabel sangat signifikan secara statistik".

Saya tidak melihat bahwa Anda perlu khawatir tentang itu, per se. Dari output Anda, saya melihat bahwa model memiliki F-statistic: 1566 on 6 and 2648 DF. Itu berarti bahwa Anda memasang parameter untuk variabel dan memiliki data. Ini memberi Anda sejumlah besar kekuatan statistik . Di bawah asumsi bahwa ada hubungan antara variabel Anda dan respons, yang tidak sepenuhnya sepele, Anda harus mendapatkan hasil yang signifikan. Saya lebih terkejut bahwa apapun (yaitu ) tidak signifikan. 662655transSpeed

Mungkin pertanyaan Anda dimotivasi oleh keyakinan bahwa, dari perspektif teoretis, beberapa variabel harus tidak terkait fuelEconomydan Anda terkejut karena itu penting. (Jika itu benar, bagaimanapun, itu tidak biasa untuk memasukkannya dalam model.) Tetapi hasil yang signifikan tidak berarti bahwa kovariat memiliki efek pada respons, jadi ini tidak perlu menjadi tipe I kesalahan . Karena data Anda hampir pasti observasional, Anda hanya mendeteksi asosiasi marjinal. Yaitu, mobil yang memiliki penggerak roda depan, misalnya, mungkin juga biasanya berbeda dari mobil penggerak roda belakang dengan cara selain dari yang roda mentransmisikan daya dan selain dari variabel lain yang termasuk dalam model. Dengan demikian, koefisien untuk wheelDriveStdmengukur hubungan antara itudan semua variabel yang tidak termasuk berkorelasi dengannya dan fuelEconomy. Jadi bisa masuk akal untuk menjadi signifikan bahkan jika kita tahu dari fisika / teknik bahwa roda yang mentransmisikan daya tidak terkait dengan efisiensi bahan bakar.

gung - Pasang kembali Monica
sumber
Saya memiliki lebih banyak pengetahuan pembelajaran mesin daripada statistik. Bisakah kita mengatakan, jika kita memiliki data besar mengatakan jutaan baris dan ribuan kolom, tidak ada lagi yang peduli dengan fitur "signifikansi"?
Haitao Du
3
Saya tidak perlu menggambarkannya seperti itu, @ hxd1011. Jika benar-benar tidak ada hubungan, tingkat kesalahan tipe I masih akan 0,05, sehingga seseorang masih bisa peduli, tetapi Anda akan memiliki kekuatan yang cukup untuk mendeteksi efek yang sangat sepele sekalipun. Sebagai analogi, mungkin membantu untuk membaca Apakah pengujian normal 'pada dasarnya tidak berguna'?
gung - Reinstate Monica
Sangat informatif. Saya ingin tahu apakah ada satu garis yang dapat Anda tambahkan untuk memberikan beberapa referensi / perspektif bagi kami untuk mendapatkan pemahaman intuitif tentang pernyataan Anda tentang sejumlah besar kekuatan statistik berdasarkan statistik F.
Antoni Parellada
2
Hanya itu saja N=2,655adalah banyak data, @AntoniParellada.
gung - Reinstate Monica
Terima kasih! Dengan statistik saya selalu menganggap harus ada lebih "tersembunyi" ... :-)
Antoni Parellada
4

Saya tahu sedikit tentang mekanika dan fisika yang terlibat, tetapi hal pertama yang akan saya lihat adalah diagnosa regresi, khususnya, plot residu vs nilai pas, yang kami inginkan tidak ada pola keseluruhan.

Anda telah memasang model linier sehingga setiap kovariat memiliki hubungan linier dengan fuelEconomy. Apakah ini didukung oleh teori mekanik dan fisik yang mendasarinya? Mungkinkah ada asosiasi nonlinier? Jika demikian maka Anda dapat mempertimbangkan model dengan istilah nonlinear, mengubah variabel tertentu, atau Anda dapat mempertimbangkan menggunakan model aditif. Sekalipun asosiasi tersebut linier masuk akal dalam dataset aktual Anda, berhati-hatilah untuk mengekstrapolasi hasil di luar batas data Anda.

Robert Long
sumber
4

Sebuah matriks sebar dengan kurva loess dan nilai-nilai korelasi (nilai absolut) dapat menjadi titik yang baik mulai:

masukkan deskripsi gambar di sini

Kita dapat melihat di sini hubungan yang mungkin kuadratik yang fuelEconomydiplotkan terhadap keduanya lineDisplacementdan hp, yang juga tercermin dalam penampakan Nike swoosh di plot residual . Akan menarik untuk menyelidiki keberadaan interaksi antara istilah ini.

masukkan deskripsi gambar di sini

Kurangnya linearitas ini juga jelas jika kita menjalankan regresi linear fuelEconomyterhadap linearDisplacement(hasil yang sama dapat diperoleh dengan hp). Perhatikan garis merah ...

masukkan deskripsi gambar di sini

Efek ini dapat diperbaiki sebagian membuat model lebih kompleks, dan memperkenalkan model kuadratik:

masukkan deskripsi gambar di sini

Model baru memiliki nilai R-squared yang disesuaikan lebih tinggi (0,8205) dari yang pertama (0,7798).


Sifat dikotomis fuelStddan wheeldriveStdhanya memindahkan rata-rata dari nilai-nilai yang diprediksi turun, dan pada dasarnya adalah variabel atau faktor kode-dummy. Ini juga terlihat pada plot sebar awal, tetapi dapat divisualisasikan lebih lanjut dengan plot kotak:

masukkan deskripsi gambar di sini


Satu poin terakhir dalam diagnostik adalah adanya titik-titik leverage yang tinggi , yang layak untuk dilihat:

masukkan deskripsi gambar di sini

Apa yang harus disimpulkan? Tidak ada yang kategoris. Mungkin hanya untuk menekankan pentingnya merencanakan dalam memahami kumpulan data dan model apa pun yang dikenakan padanya.

Antoni Parellada
sumber
1

Jawaban untuk pertanyaan pertama Anda tergantung pada kerangka teoretis Anda, bagaimana Anda menyatakan hipotesis tentang hubungan antara variabel dependen dan independen, dan bagaimana Anda menginterpretasikan hasilnya. Dengan sendirinya, memperoleh hubungan yang signifikan secara statistik untuk sebagian besar variabel mungkin tidak mengatakan apa pun tentang seberapa realistis hasil Anda.

Jadi, jika hasil ini terlihat mencurigakan bagi Anda (berdasarkan pengetahuan Anda sebelumnya), Anda dapat menjalankan beberapa tes diagnostik untuk regresi. Mungkin ada pelanggaran asumsi model dan masalah lain (misalnya, pencilan). Bahkan, selalu membantu untuk menjalankan tes ini untuk mengevaluasi model regresi Anda. Karena Anda menggunakan R, Anda dapat memeriksa carpaket yang menyediakan sejumlah fungsi untuk tes diagnostik. Di sini Anda dapat menemukan slide kursus tentang diagnosa regresi oleh salah satu penulis (dan pencipta) carpaket, John Fox. Anda dapat memeriksa bukunya tentang topik (1991) juga. Kabacoff (2011) juga membahas diagnostik regresi dan cara menggunakan Rfungsi (termasuk daricarpaket) dan menginterpretasikan hasil (hal.188-200). Saya pikir setelah tes diagnostik ini, lebih baik untuk mengevaluasi hasil dan seberapa bermanfaat mereka.


Fox, J. (1991). Diagnostik Regresi . Taman Newbury, London, New Delhi: Sage Publications.

Kabacoff, RI (2011). R dalam Aksi: Analisis data dan grafis dengan R . Shelter Island: Manning.

Juga:

Fox, J., & Weisberg, S. (2011). Mendiagnosis Masalah dalam Model Linear dan Generalized Linear. Dalam An R Companion to Applied Regression (2nd ed., Hlm. 285-328). Los Angeles: Sage Publications.

TEG
sumber