Apakah itu ide yang salah untuk menggunakan koefisien terstandarisasi untuk menilai kepentingan relatif dari prediksi regresi?

9

Ada berbagai pertanyaan yang berbicara tentang manfaat relatif berbagai metode menilai pentingnya prediktor regresi, misalnya yang ini .

Saya perhatikan bahwa dalam komentar ini @gung menyebut praktik ini sebagai "ide keliru", yang menghubungkan ke jawaban ini untuk mendukung klaim ini. Paragraf terakhir dari jawaban adalah bagian yang relevan.

Saya merasa masalah ini pantas ditanyakan sendiri, dan juga sedikit tidak yakin tentang beberapa aspek alasannya. Segmen paragraf yang paling penting dalam pertanyaan berjalan

kecuali r true adalah tepat 0, estimasi r didorong sebagian besar oleh rentang nilai kovariat yang digunakan.

Apakah ini setara dengan mengatakan bahwa kita tidak boleh menggunakan koefisien terstandarisasi untuk menilai kepentingan karena kita mungkin secara acak mengambil sampel rentang terbatas X1 nilai dan rentang yang lebih luas dari X2nilai? Kemudian ketika kita menstandarkan masalah ini belum hilang, dan kita akhirnya berpikiran seperti ituX1 adalah prediktor yang lebih lemah daripada X2?

Mengapa masalahnya hilang jika benar r tepat 0?

Bagaimana metode lain (misalnya melihat koefisien semipartial) mengatasi masalah ini?

user1205901 - Pasang kembali Monica
sumber
2
Saya akan menyerahkannya kepada @ung untuk menjelaskan apa yang dia maksud. Ada banyak literatur tentang kepentingan relatif variabel dalam regresi dan beta standar jelas merupakan respons konvensional dari para ahli statistik. Di antara kelemahan dari pendekatan ini adalah masalah yang terkait dengan kesalahan standar atau variabilitas dalam estimasi untuk beta. Masalah-masalah ini, serta tinjauan menyeluruh dari literatur dan kemungkinan pendekatan, diambil oleh Ulrike Gromping dalam makalahnya tentang topik ini. Selain itu, ia telah mengembangkan modul R, RELAIMPO ... prof.beuth-hochschule.de/groemping/relaimpo
Mike Hunter
Hanya sebuah catatan untuk OP untuk berhati-hati jika dia berada di AS untuk mengunduh paket dari CRAN bukan situs web UG, lihat batasan pada halaman yang direkomendasikan
@DJohnson

Jawaban:

4

Dalam gung, jawaban saya adalah kritik terhadap ide untuk membandingkan kekuatan relatif dari berbagai variabel dalam analisis empiris tanpa memiliki model dalam pikiran bagaimana variabel-variabel itu berinteraksi atau bagaimana distribusi bersama (benar) dari semua variabel yang relevan terlihat. Pikirkan contoh pentingnya atlet tinggi dan berat badan atlet. Tidak ada yang dapat membuktikan bahwa misalnya regresi linier aditif adalah perkiraan yang baik dari fungsi harapan bersyarat atau dengan kata lain, tinggi dan berat badan mungkin penting dalam cara yang sangat rumit untuk kinerja atlet. Anda dapat menjalankan regresi linier termasuk kedua variabel dan membandingkan koefisien standar tetapi Anda tidak tahu apakah hasilnya benar-benar masuk akal.

Untuk memberikan contoh Mickey Mouse, melihat pendaki olahraga (olahraga favorit saya), berikut adalah daftar pendaki pria teratas menurut beberapa ukuran kinerja yang diambil dari situs 8a.nu dengan informasi tentang tinggi, berat, dan tahun kelahiran mereka (hanya yang dengan informasi yang tersedia). Kami menstandardisasi semua variabel sebelumnya sehingga kami dapat membandingkan secara langsung hubungan antara satu perubahan standar deviasi dalam prediktor pada satu perubahan standar deviasi dalam distribusi kinerja. Tidak termasuk untuk ilustrasi nomor satu, Adam Ondra, yang tinggi tidak biasa, kita mendapatkan hasil berikut. :

    rm(list=ls(all=TRUE))
    # Show only two decimal places
    options(digits=2)
    # Read Data and attach
    climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
    head(climber)
    # Drop best climber Adam Ondra who is very tall (kind of outlier)
    climber<-subset(climber,name!="Adam Ondra")
    # Standardize Predictors
    climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
    climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
    climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
    climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
    # Simple Regression, excluding intercept because of the standardization
    lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std 
 -0.16      -0.25 

Mengabaikan kesalahan standar dll., Sepertinya berat badan lebih penting daripada tinggi badan atau sama pentingnya. Tetapi orang bisa berpendapat bahwa pendaki menjadi lebih baik dari waktu ke waktu. Mungkin kita harus mengendalikan efek kohort, misalnya peluang pelatihan melalui fasilitas dalam ruangan yang lebih baik? Mari kita sertakan tahun kelahiran!

    # Add year of birth
    lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std   born_std 
-0.293     -0.076      0.256

Sekarang, kami menemukan bahwa menjadi muda dan menjadi kecil lebih penting daripada menjadi langsing. Tapi sekarang orang lain bisa berargumen ini hanya berlaku untuk pendaki papan atas? Masuk akal untuk membandingkan koefisien terstandarisasi di seluruh distribusi kinerja (misalnya melalui regresi kuantil). Dan tentu saja itu mungkin berbeda untuk pendaki perempuan yang jauh lebih kecil dan lebih ramping. Tidak ada yang tahu.

Ini adalah contoh Mickey Mouse dari apa yang saya pikir merujuk gung. Saya tidak begitu skeptis, saya pikir masuk akal untuk melihat koefisien terstandarisasi, jika Anda berpikir bahwa Anda telah menentukan model yang tepat atau pemisahan aditif masuk akal. Tetapi ini sangat tergantung pada pertanyaan yang ada.

Mengenai pertanyaan lain:

Apakah ini setara dengan mengatakan bahwa kita tidak boleh menggunakan koefisien terstandarisasi untuk menilai kepentingan karena kita mungkin secara acak mengambil sampel rentang nilai X1 yang terbatas dan rentang nilai X2 yang lebih luas? Lalu ketika kita menstandarisasi masalah ini belum hilang, dan kita akhirnya berpikir bahwa X1 adalah prediktor yang lebih lemah daripada X2?

Ya, saya pikir Anda bisa mengatakan itu seperti ini. "Rentang nilai X2 yang lebih luas" dapat muncul melalui bias variabel yang dihilangkan dengan memasukkan variabel penting yang berkorelasi dengan X1 tetapi menghilangkan variabel yang berkorelasi dengan X2.

Mengapa masalah hilang jika r yang benar adalah 0?

Bias variabel yang dihilangkan juga merupakan contoh yang bagus mengapa hal ini berlaku. Variabel yang dihilangkan hanya menyebabkan masalah (atau bias) jika mereka berkorelasi dengan prediktor serta hasilnya, lihat rumus di entri Wikipedia. Jika benarr tepat 0 daripada variabel tidak berkorelasi dengan hasil dan tidak ada masalah (bahkan jika itu berkorelasi dengan prediktor).

Bagaimana metode lain (misalnya melihat koefisien semipartial) mengatasi masalah ini?

Model lain memiliki seperti koefisien semipartial menghadapi masalah yang sama. Jika dataset Anda cukup besar, Anda dapat melakukan misalnya regresi nonparametrik dan mencoba memperkirakan distribusi gabungan lengkap tanpa asumsi tentang bentuk fungsional (misalnya pemisahan aditif) untuk membenarkan apa yang Anda lakukan tetapi ini tidak pernah menjadi bukti.

Ringkasnya, saya pikir masuk akal untuk membandingkan koefisien terstandarisasi atau semipartial tetapi itu tergantung dan Anda harus memberi alasan kepada diri sendiri atau orang lain mengapa menurut Anda itu masuk akal.

Arne Jonas Warnke
sumber