Menguji perbedaan antara dua (disesuaikan) r ^ 2

8

Katakanlah saya memiliki dua model regresi, satu dengan tiga variabel dan satu dengan empat. Masing-masing mengeluarkan r ^ 2 yang disesuaikan, yang bisa saya bandingkan langsung.

Jelas, model dengan r ^ 2 yang disesuaikan lebih tinggi lebih cocok, tetapi apakah ada cara untuk menguji perbedaan antara kedua r ^ 2 yang disesuaikan dan mendapatkan nilai p?

Saya tahu Anda bisa melakukan tes Chow untuk menguji perbedaan antara lereng, tapi ini varians, jadi saya tidak berpikir itu yang saya cari.

Sunting: Satu model tidak hanya berisi subset variabel dari model lain, atau saya mungkin akan menggunakan regresi bertahap

Dalam model 1, saya memiliki empat variabel: W, X, Y, dan Z.

Dalam model 2, saya memiliki tiga variabel: W, X, dan (Y + Z) / 2.

Idenya adalah bahwa jika Y dan Z secara konseptual serupa, model dapat membuat prediksi yang lebih baik dengan mengelompokkan dua variabel ini sebelum memasukkannya ke dalam model.

Jeff
sumber
3
Apakah model bersarang (yaitu apakah modelnya sama kecuali untuk satu variabel dalam empat variabel model?)
Andy W
Bagus Q .. Tidak, tapi tidak dekat. Satu model menggunakan empat variabel, WXY dan Z. Model lainnya memiliki tiga variabel, WX dan (Y + Z) / 2. Meskipun Y dan Z mungkin tertimbang atau tidak sama dalam model kedua.
Jeff
1
Anda harus memperbarui pertanyaan Anda dengan informasi ini, berusaha untuk menulis model yang Anda cocok secara matematis, dan sejelas mungkin tentang transformasi menjadi "Y dan Z" dan apa yang Anda coba capai dengan transformasi itu.
Andy W
Yah mari kita tetap dengan rata-rata sederhana untuk saat ini ... Q telah diperbarui, terima kasih!
Jeff
1
Ya, modelnya bersarang. Untuk melihat ini, Anda dapat menulis ulang model 1 dalam hal W, X, (Y + Z) / 2, dan (katakanlah) (YZ) / 2, menunjukkan bahwa model 2 hanya menghilangkan satu variabel.
whuber

Jawaban:

8

Seperti yang dikatakan whuber, ini sebenarnya adalah kasus model bersarang, dan karenanya seseorang dapat menerapkan uji rasio kemungkinan . Karena masih belum jelas model apa yang Anda tentukan, saya hanya akan menulis ulang dalam contoh ini;

Jadi model 1 dapat:

Y=a1+B11(X)+B12(W)+B13(Z)+e1

Dan model 2 dapat (saya mengabaikan pembagian dengan 2, tetapi tindakan ini tidak memiliki konsekuensi untuk pertanyaan Anda):

Y=a2+B21(X)+B22(W+Z)+e2

Yang dapat ditulis ulang sebagai:

Y=a2+B21(X)+B22(W)+B22(Z)+e2

Dan karenanya model 2 adalah kasus spesifik dari model 1 di mana dan sama. Seseorang dapat menggunakan uji kemungkinan-rasio antara dua model ini untuk menetapkan nilai-p pada fit model 1 dibandingkan dengan model 2. Ada alasan bagus dalam praktik untuk melakukan ini, terutama jika korelasi antara W dan Z cukup besar ( multikolinearitas ). Seperti yang saya katakan sebelumnya, apakah Anda membaginya dengan dua tidak masalah untuk menguji kecocokan model, meskipun jika lebih mudah untuk menafsirkan maka dengan segala cara menggunakan rata-rata dari dua variabel.B12B13W+Z2W+Z

Statistik kecocokan model (seperti CP Mallow yang telah disebutkan oleh bill_080, dan contoh lainnya adalah AIC dan BIC ), sering digunakan untuk menilai model yang tidak bersarang. Statistik tersebut tidak mengikuti distribusi yang diketahui (seperti halnya log-likelihood, Chi-square ) dan karenanya perbedaan dalam statistik antara model tidak dapat diberi nilai p.

Andy W
sumber
0

Diberikan pengaturan dalam jawaban Andy W, jika seseorang memperkirakan model

Y=a3+B31(X)+B32(W+Z)+B33(Z)+e3

tes yang terkait dengan memberi Anda tes bahwa model 1 berbeda dari model 2. Alasannya adalah bahwa persis (bagian dari tanda) perbedaan antara dan . Jadi, jika perbedaan mereka tidak signifikan, menjaga W dan Z dalam model (model 1) tidak membantu dalam hal varians dijelaskan dibandingkan dengan menggabungkan mereka dalam satu variabel (model 2). Jika signifikan, model 1 lebih baik. B33B33B12B13B33

mcfanda
sumber
Apakah ini berhubungan dengan pertanyaan awal tentang perbedaan antara disesuaikan ? R2
Michael R. Chernick
Ya, uji inferensial pada B_33 setara dengan menguji perbedaan antara dua R ^ 2 (disesuaikan atau tidak) dari model1 dan model2
mcfanda