Bayangkan kita memiliki model regresi linier dengan variabel dependen . Kami menemukan . Sekarang, kami melakukan regresi lain, tetapi kali ini di , dan juga menemukan . Saya telah diberitahu bahwa saya tidak dapat membandingkan kedua untuk melihat model mana yang lebih cocok. Mengapa demikian? Alasan yang diberikan kepada saya adalah bahwa kami akan membandingkan variabilitas jumlah yang berbeda (variabel dependen berbeda). Saya tidak yakin ini harus menjadi alasan yang cukup untuk ini. log ( y ) R 2 log ( y ) R 2
Apakah ada cara untuk memformalkan ini?
Bantuan apa pun akan dihargai.
regression
data-transformation
r-squared
Seorang lelaki tua di laut.
sumber
sumber
Jawaban:
Ini pertanyaan yang bagus, karena "jumlah yang berbeda" sepertinya tidak terlalu banyak penjelasan.
Ada dua alasan penting untuk berhati-hati dalam menggunakan untuk membandingkan model-model ini: ini terlalu kasar ( tidak benar-benar menilai goodness of fit ) dan itu akan menjadi tidak pantas untuk setidaknya salah satu model. Balasan ini membahas masalah kedua itu.R2
Perawatan Teoritis
R 2 yR2 membandingkan varians dari residual model dengan varians dari respon. Varians adalah deviasi aditif kuadrat rata-rata dari fit. Dengan demikian, kita dapat memahami sebagai membandingkan dua model respon . R2 y
Model "dasar" adalah
dimanaμ adalah parameter (respons rata-rata teoretis) dan adalah "kesalahan" acak, masing-masing dengan nol rata-rata dan varian umum τ 2 .δi τ2
Model regresi linier memperkenalkan vektor sebagai variabel penjelas:xi
Angka dan vektor β adalah parameternya (intersep dan "slope"). The ε i lagi kesalahan acak independen, masing-masing dengan nol varians mean dan umum σ 2 .β0 β εi σ2
perkiraan pengurangan varians, τ 2 - σ 2 , dibandingkan dengan varians asli τ 2 .R2 τ2−σ2 τ2
Ketika Anda mengambil logaritma dan menggunakan kuadrat terkecil agar sesuai dengan model , Anda secara implisit sedang membandingkan hubungan formulir
ke salah satu formulir
Analisis
Model seperti itu (yang biasa terjadi) adalah kuadrat-terkecil cocok dengan hubungan eksponensial,
sumber