Jika saya telah menghitung dengan benar, regresi logistik secara asimptot memiliki kekuatan yang sama dengan uji-t. Untuk melihat ini, tuliskan kemungkinan log-nya dan hitung ekspektasi Hessian-nya pada batas maksimum globalnya (estimasi negatifnya matriks varians-kovarians dari solusi ML). Jangan repot-repot dengan parameterisasi logistik biasa: lebih mudah hanya untuk parameterisasi dengan dua probabilitas yang dimaksud. Detailnya akan tergantung pada bagaimana Anda menguji signifikansi koefisien regresi logistik (ada beberapa metode).
Bahwa tes-tes ini memiliki kekuatan yang sama seharusnya tidak terlalu mengejutkan, karena teori chi-square untuk estimasi ML didasarkan pada perkiraan normal terhadap kemungkinan log, dan uji-t didasarkan pada perkiraan normal terhadap distribusi proporsi. Inti masalahnya adalah bahwa kedua metode membuat estimasi yang sama dari dua proporsi dan kedua estimasi memiliki kesalahan standar yang sama.
Analisis aktual mungkin lebih meyakinkan. Mari kita mengadopsi beberapa terminologi umum untuk nilai-nilai dalam kelompok tertentu (A atau B):
- hal adalah probabilitas 1.
- n adalah ukuran setiap set undian.
- m adalah jumlah set undian.
- N= m n adalah jumlah data.
- 0 1 j th i thksaya j (sama dengan atau ) adalah nilai dari menghasilkan set gambar .01jthsayath
- i thksaya adalah jumlah total yang ada di set gambar .sayath
- k adalah jumlah totalnya.
Regresi logistik pada dasarnya adalah penaksir ML dari . Logaritma diberikan olehhal
catatan( L ) = k log( p ) + ( N- k ) log( 1 - p ) .
Turunannya sehubungan dengan parameter adalahhal
∂catatan( L )∂hal= khal- N- k1 - hal dan
- ∂2catatan( L )∂hal2= khal2+ N- k( 1 - p )2.
Menyetel yang pertama ke nol menghasilkan estimasi ML dan menyambungkannya ke kebalikan dari ekspresi kedua menghasilkan varians , yang merupakan kuadrat dari kesalahan standar. p (1 - p )/Nhal^= k / Nhal^( 1 - hal^) / N
The t statistik akan diperoleh dari penduga berdasarkan data dikelompokkan berdasarkan set menarik; yaitu, sebagai perbedaan rata-rata (satu dari kelompok A dan yang lain dari kelompok B) dibagi dengan kesalahan standar dari perbedaan itu, yang diperoleh dari standar deviasi sarana. Mari kita lihat deviasi mean dan standar untuk kelompok tertentu, lalu. Mean sama dengan , yang identik dengan estimator ML . Standar deviasi yang dimaksud adalah standar deviasi dari sarana pengundian; yaitu, itu adalah standar deviasi dari himpunan . Inilah inti masalahnya, jadi mari kita jelajahi beberapa kemungkinan.p k i / nk / Nhal^ksaya/ n
Misalkan data tidak dikelompokkan ke dalam menarik sama sekali: yaitu, dan . The adalah sarana imbang. Mereka sampel varians sama kali . Dari sini dapat disimpulkan bahwa kesalahan standar identik dengan kesalahan standar ML terlepas dari faktor , yang pada dasarnya adalah ketika . Oleh karena itu - terlepas dari perbedaan kecil ini - setiap tes yang didasarkan pada regresi logistik akan sama dengan uji-t dan pada dasarnya kami akan mencapai kekuatan yang sama.m = N k i N / ( N - 1 ) p ( 1 - p ) √n = 1m = NksayaN/ (N- 1 )hal^( 1 - hal^) 1N=1800N/ (N- 1 )---------√1N= 1800
Ketika data dikelompokkan, varians (true) dari sama dengan karena statistik mewakili jumlah variabel Bernoulli ( ), masing-masing dengan varians . Oleh karena itu kesalahan standar yang diharapkan dari rata-rata dari nilai-nilai ini adalah akar kuadrat dari , sama seperti sebelumnya.p ( 1 - p ) / n k i n p p ( 1 - p ) m p ( 1 - p ) / n / m = p ( 1 - p ) / Nksaya/ np ( 1 - p ) / nksayanhalp ( 1 - p )mp ( 1 - p ) / n / m = p ( 1 - p ) / N
Angka 2 menunjukkan kekuatan pengujian tidak boleh berbeda secara signifikan dengan bagaimana pengundian dibagi secara proporsional (yaitu, dengan bagaimana dan bervariasi tergantung pada ), selain mungkin dari efek yang cukup kecil dari penyesuaian dalam varians sampel (Kecuali jika Anda begitu bodoh menggunakan sangat sedikit set undian dalam setiap kelompok).n m n = Nmnm n = N
Simulasi terbatas untuk membandingkan ke (dengan 10.000 iterasi masing-masing) yang melibatkan (pada dasarnya regresi logistik); ; dan (memaksimalkan penyesuaian varians sampel) menanggung ini: kekuatan (pada , satu sisi) dalam dua kasus pertama adalah 0,59 sedangkan di ketiga, di mana faktor penyesuaian membuat perubahan materi (sekarang hanya ada dua derajat kebebasan bukannya 1798 atau 58), itu turun menjadi 0,36. Tes lain yang membandingkan hinggap = 0,74 m = 900 , n = 1 m = n = 30 m = 2 , n = 450 α = 0,05 p = 0,50 p = 0,52p = 0,70p = 0,74m = 900 , n = 1m = n = 30m = 2 , n = 450α = 0,05p = 0,50p=0.52 memberikan kekuatan masing-masing 0,22, 0,21, dan 0,15: sekali lagi, kami mengamati hanya sedikit penurunan dari tidak ada pengelompokan menjadi penarikan (= regresi logistik) ke pengelompokan menjadi 30 kelompok dan penurunan besar ke hanya dua kelompok.
Moral dari analisis ini adalah:
- Anda tidak akan kehilangan banyak ketika Anda mempartisi nilai data Anda menjadi sejumlah besar dari kelompok-kelompok "undian" yang relatif kecil.mNm
- Anda dapat kehilangan daya yang cukup besar dengan menggunakan sejumlah kecil grup ( kecil, - jumlah data per grup - besar).nmn
- Anda sebaiknya tidak mengelompokkan nilai data Anda menjadi "draws" sama sekali. Analisis saja apa adanya (menggunakan uji masuk akal apa pun, termasuk regresi logistik dan uji-t).N
Berikut ini adalah kode dalam R yang menggambarkan simulasi jawaban whuber . Umpan balik untuk meningkatkan kode R saya lebih dari diterima.
sumber
replicate()
kapan saja Anda ingin memanggil fungsi tertentu seperti waktu independen; yang fungsi keluarga yang sangat berguna untuk bekerja dengan matriks, data.frame atau daftar dan membuat panggilan ke fungsi yang sama dengan kolom atau baris; disarankan untuk menghindari garis bawah untuk penamaan variabel (dan sebagai gantinya menggunakan titik), tetapi hal ini dapat diperdebatkan. Kalau tidak, saya juga suka kode R sederhana dan jelas seperti milik Anda karena akan dimengerti oleh semua orang. Saya memberi +1 saya.rbinom()
{*}apply()