Katakanlah saya memiliki dua model regresi, satu dengan tiga variabel dan satu dengan empat. Masing-masing mengeluarkan r ^ 2 yang disesuaikan, yang bisa saya bandingkan langsung.
Jelas, model dengan r ^ 2 yang disesuaikan lebih tinggi lebih cocok, tetapi apakah ada cara untuk menguji perbedaan antara kedua r ^ 2 yang disesuaikan dan mendapatkan nilai p?
Saya tahu Anda bisa melakukan tes Chow untuk menguji perbedaan antara lereng, tapi ini varians, jadi saya tidak berpikir itu yang saya cari.
Sunting: Satu model tidak hanya berisi subset variabel dari model lain, atau saya mungkin akan menggunakan regresi bertahap
Dalam model 1, saya memiliki empat variabel: W, X, Y, dan Z.
Dalam model 2, saya memiliki tiga variabel: W, X, dan (Y + Z) / 2.
Idenya adalah bahwa jika Y dan Z secara konseptual serupa, model dapat membuat prediksi yang lebih baik dengan mengelompokkan dua variabel ini sebelum memasukkannya ke dalam model.
sumber
Jawaban:
Seperti yang dikatakan whuber, ini sebenarnya adalah kasus model bersarang, dan karenanya seseorang dapat menerapkan uji rasio kemungkinan . Karena masih belum jelas model apa yang Anda tentukan, saya hanya akan menulis ulang dalam contoh ini;
Jadi model 1 dapat:
Dan model 2 dapat (saya mengabaikan pembagian dengan 2, tetapi tindakan ini tidak memiliki konsekuensi untuk pertanyaan Anda):
Yang dapat ditulis ulang sebagai:
Dan karenanya model 2 adalah kasus spesifik dari model 1 di mana dan sama. Seseorang dapat menggunakan uji kemungkinan-rasio antara dua model ini untuk menetapkan nilai-p pada fit model 1 dibandingkan dengan model 2. Ada alasan bagus dalam praktik untuk melakukan ini, terutama jika korelasi antara W dan Z cukup besar ( multikolinearitas ). Seperti yang saya katakan sebelumnya, apakah Anda membaginya dengan dua tidak masalah untuk menguji kecocokan model, meskipun jika lebih mudah untuk menafsirkan maka dengan segala cara menggunakan rata-rata dari dua variabel.B12 B13 W+Z2 W+Z
Statistik kecocokan model (seperti CP Mallow yang telah disebutkan oleh bill_080, dan contoh lainnya adalah AIC dan BIC ), sering digunakan untuk menilai model yang tidak bersarang. Statistik tersebut tidak mengikuti distribusi yang diketahui (seperti halnya log-likelihood, Chi-square ) dan karenanya perbedaan dalam statistik antara model tidak dapat diberi nilai p.
sumber
Lihatlah Mallow's Cp:
Mallow's Cp
Ini pertanyaan terkait:
Apakah ada cara untuk mengoptimalkan regresi sesuai dengan kriteria tertentu?
sumber
Diberikan pengaturan dalam jawaban Andy W, jika seseorang memperkirakan model
tes yang terkait dengan memberi Anda tes bahwa model 1 berbeda dari model 2. Alasannya adalah bahwa persis (bagian dari tanda) perbedaan antara dan . Jadi, jika perbedaan mereka tidak signifikan, menjaga W dan Z dalam model (model 1) tidak membantu dalam hal varians dijelaskan dibandingkan dengan menggabungkan mereka dalam satu variabel (model 2). Jika signifikan, model 1 lebih baik.B33 B33 B12 B13 B33
sumber