Mengapa kita tidak bisa menggunakan

10

Bayangkan kita memiliki model regresi linier dengan variabel dependen . Kami menemukan . Sekarang, kami melakukan regresi lain, tetapi kali ini di , dan juga menemukan . Saya telah diberitahu bahwa saya tidak dapat membandingkan kedua untuk melihat model mana yang lebih cocok. Mengapa demikian? Alasan yang diberikan kepada saya adalah bahwa kami akan membandingkan variabilitas jumlah yang berbeda (variabel dependen berbeda). Saya tidak yakin ini harus menjadi alasan yang cukup untuk ini.y log ( y ) R 2 log ( y ) R 2Ry2log(y)Rlog(y)2R2

Apakah ada cara untuk memformalkan ini?

Bantuan apa pun akan dihargai.

Seorang lelaki tua di laut.
sumber
1
Saya menduga ini mungkin telah dibahas sebelumnya pada Cross Validated. Apakah Anda sudah melalui utas yang sama secara menyeluruh? Juga, apakah Anda peduli dengan variabel dependen yang berbeda (seperti PDB vs harga minyak) atau transformasi dari variabel yang sama (pertumbuhan PDB vs PDB), atau keduanya?
Richard Hardy
@ RichardHardy saya menemukan beberapa, tapi saya pikir mereka bersinggungan dengan pertanyaan saya. Seperti ini: stats.stackexchange.com/questions/235117/… Jawabannya hanya menyatakan ya, tidak benar-benar menjelaskan mengapa.
Seorang pria tua di laut.
@ RichardHardy Saya tertarik untuk transformasi variabel dependen.
Seorang pria tua di laut.
1
R2 perbandingan hanya masuk akal antara model bersarang.
LVRao
@LVRao Terima kasih atas komentar Anda. Kenapa gitu?
Seorang pria tua di laut.

Jawaban:

8

Ini pertanyaan yang bagus, karena "jumlah yang berbeda" sepertinya tidak terlalu banyak penjelasan.

Ada dua alasan penting untuk berhati-hati dalam menggunakan untuk membandingkan model-model ini: ini terlalu kasar ( tidak benar-benar menilai goodness of fit ) dan itu akan menjadi tidak pantas untuk setidaknya salah satu model. Balasan ini membahas masalah kedua itu.R2


Perawatan Teoritis

R 2 yR2 membandingkan varians dari residual model dengan varians dari respon. Varians adalah deviasi aditif kuadrat rata-rata dari fit. Dengan demikian, kita dapat memahami sebagai membandingkan dua model respon . R2y

Model "dasar" adalah

(1)yi=μ+δi

dimanaμ adalah parameter (respons rata-rata teoretis) dan adalah "kesalahan" acak, masing-masing dengan nol rata-rata dan varian umum τ 2 .δiτ2

Model regresi linier memperkenalkan vektor sebagai variabel penjelas:xi

(2)yi=β0+xiβ+εi.

Angka dan vektor β adalah parameternya (intersep dan "slope"). The ε i lagi kesalahan acak independen, masing-masing dengan nol varians mean dan umum σ 2 .β0βεiσ2

perkiraan pengurangan varians, τ 2 - σ 2 , dibandingkan dengan varians asli τ 2 .R2τ2σ2τ2

Ketika Anda mengambil logaritma dan menggunakan kuadrat terkecil agar sesuai dengan model , Anda secara implisit sedang membandingkan hubungan formulir

(1a)log(yi)=ν+ζi

ke salah satu formulir

(2a)log(yi)=γ0+xiγ+ηi.

(1)(2)(2a)

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

exp(ηi)yi=exp(γ0+xiγ)

Var(yi)=exp(γ0+xiγ)2Var(eηi).

xi(2)σ2

(1a)(2a)(1)(2)R2R2

Analisis

R2xyεiηi

Model seperti itu (yang biasa terjadi) adalah kuadrat-terkecil cocok dengan hubungan eksponensial,

(3)yi=exp(α0+xiα)+θi.

yx(2a)θi(2)R2xy

(3)300xi1.01.6(x,y)(x,log(y))

Plot pencar

R20.700.56R2R20.70


log(y)(3)

whuber
sumber
Kritik pada R ^ 2 tidak adil. Karena setiap alat penggunaannya harus dipahami dengan baik. Dalam contoh Anda di atas, R ^ 2 memberikan pesan yang benar. R ^ 2 dengan cara memilih rasio sinyal terhadap noise yang lebih baik. Tentu saja tidak jelas ketika Anda meletakkan dua grafik dengan skala yang sangat berbeda berdampingan. Pada kenyataannya sinyal di sebelah kiri sangat kuat dibandingkan dengan penyimpangan kebisingan.
Cagdas Ozgenc
@Cagdas Anda sepertinya menawarkan pesan yang sifatnya kontradiktif. Karena kedua plot tersebut tidak dapat dihindari pada dua skala yang berbeda - satu plot tanggapan asli dan yang lain plot logaritma mereka - kemudian memohon bahwa ada sesuatu yang "tidak jelas" karena fakta yang tidak dapat dihindari ini tampaknya tidak mendukung kasus Anda. Mengeluh bahwa jawaban ini "tidak adil" benar-benar tidak mendukung analisis eksplisit dari model yang saya tawarkan.
whuber
Tidak ada kontradisi dalam apa yang saya katakan. R ^ 2 memilih rasio sinyal terhadap noise yang lebih tinggi. Itu yang dilakukannya. Mencoba mengubahnya ke sesuatu yang lain dan mengklaim bahwa itu tidak berfungsi sama sekali salah. Semua kritik terhadap R ^ 2 juga berlaku untuk indikator goodness of fit lainnya ketika diterapkan pada variabel respons yang berbeda, tetapi karena alasan tertentu R ^ 2 dipilih sebagai kambing hitam.
Cagdas Ozgenc
R2R2R2
2
Terima kasih atas bantuan Anda. Maaf atas keterlambatan penerimaan, saya tidak punya banyak waktu luang belakangan ini. ;)
Seorang lelaki tua di laut.