Kami sedang bekerja dengan beberapa regresi logistik dan kami telah menyadari bahwa probabilitas estimasi rata-rata selalu sama dengan proporsi yang dalam sampel; yaitu, rata-rata nilai yang dipasang sama dengan rata-rata sampel.
Adakah yang bisa menjelaskan alasannya atau memberikan referensi di mana saya dapat menemukan demonstrasi ini?
Jawaban:
Perilaku yang Anda amati adalah kasus "khas" dalam regresi logistik, tetapi tidak selalu benar. Ini juga berlaku lebih umum (lihat di bawah). Ini adalah konsekuensi dari pertemuan tiga fakta yang terpisah.
Jika salah satu di atas tidak ada, maka probabilitas estimasi rata-rata tidak akan, secara umum, cocok dengan proporsi yang ada dalam sampel.
Namun, (hampir) semua perangkat lunak statistik menggunakan estimasi kemungkinan maksimum untuk model tersebut, sehingga, dalam praktiknya, item 1 dan 2 pada dasarnya selalu ada, dan item 3 biasanya ada, kecuali dalam kasus khusus.
Beberapa detail
Dalam kerangka regresi logistik yang khas, kami mengamati hasil uji binomial independen dengan probabilitas . Mari y i menjadi respon yang diamati. Maka kemungkinan totalnya adalah L = n ∏ i = 1 p y i i ( 1 - p i ) 1 - y i = n ∏ i = 1 exp ( y i log ( p i / ( 1 - p ihalsaya ysaya
Dan log-likelihood adalah
ℓ = n Σ i = 1 y i log ( p i / ( 1 - p i ) ) + n Σ i = 1 log ( 1 - p i )
Sekarang, kami memiliki vektor prediktor untuk setiap observasi dan dari Fakta 1 di atas, model regresi berpendapat logistik yang log p ixsaya
Simulasi
Kasus umum : Seperti yang disinggung di atas, sifat bahwa respons rata-rata sama dengan rata-rata yang diprediksi rata-rata berpegang pada generalisasi yang jauh lebih besar untuk kelas model linier umum yang sesuai dengan kemungkinan maksimum, menggunakan fungsi tautan kanonik , dan termasuk penyadapan dalam model.
Referensi
Beberapa referensi bagus untuk teori yang terkait adalah sebagai berikut.
sumber