Saya sedang mempelajari bagaimana membangun interval kepercayaan 95% untuk rasio odds dari koefisien yang diperoleh dalam regresi logistik. Jadi, mengingat model regresi logistik,
sedemikian rupa sehingga untuk kelompok kontrol dan untuk kelompok kasus.
Saya sudah membaca bahwa cara paling sederhana adalah dengan membangun 95% CI untuk maka kita menerapkan fungsi eksponensial, yaitu,
Pertanyaan saya adalah:
Apa alasan teoretis yang membenarkan prosedur ini? Saya tahu dan penaksir kemungkinan maksimum adalah invarian. Namun, saya tidak tahu hubungan antara elemen-elemen ini.
Haruskah metode delta menghasilkan interval kepercayaan 95% yang sama dengan prosedur sebelumnya? Menggunakan metode delta,
Kemudian,
Jika tidak, prosedur mana yang terbaik?
sumber
Jawaban:
Pembenaran untuk prosedur ini adalah normalitas asimptotik dari MLE untuk dan hasil dari argumen yang melibatkan Central Limit Theorem.β
Metode Delta berasal dari ekspansi linier (yaitu Taylor orde pertama) dari fungsi di sekitar MLE. Selanjutnya kami mengacu pada normalitas asimtotik dan ketidakberpihakan MLE.
Keduanya asimtotik memberikan jawaban yang sama. Namun secara praktis, Anda akan menyukai yang terlihat lebih normal. Dalam contoh ini, saya akan mendukung yang pertama karena yang terakhir cenderung kurang simetris.
sumber
Perbandingan metode interval kepercayaan pada contoh dari ISL
Buku "Pengantar Pembelajaran Statistik" oleh Tibshirani, James, Hastie memberikan contoh pada halaman 267 interval kepercayaan untuk tingkat regresi logistik polinomial tingkat 4 pada data upah . Mengutip buku:
Di bawah ini adalah rekap cepat dua metode untuk membangun interval seperti itu serta komentar tentang cara mengimplementasikannya dari awal
Interval transformasi Wald / Endpoint
Karena adalah transformasi monotonx T βPr(xTβ)=F(xTβ) xTβ
Secara konkret ini berarti menghitung dan kemudian menerapkan transformasi logit ke hasil untuk mendapatkan batas bawah dan atas:βTx±z∗SE(βTx)
Menghitung kesalahan standar
Teori Maximum Likelihood memberi tahu kita bahwa varians perkiraan dapat dihitung menggunakan matriks kovarians dari koefisien regresi menggunakanxTβ Σ
Tetapkan matriks desain dan matriks sebagaiX V
di mana adalah nilai dari variabel untuk pengamatan ke- dan mewakili probabilitas prediksi untuk pengamatan .xi,j j i π^i i
Matriks kovarians kemudian dapat ditemukan sebagai: dan kesalahan standar sebagaiΣ=(XTVX)−1 SE(xTβ)=Var(xTβ)−−−−−−−−√
Interval kepercayaan 95% untuk probabilitas yang diprediksi kemudian dapat diplot sebagai
Interval kepercayaan metode Delta
Pendekatannya adalah untuk menghitung varians dari pendekatan linier dari fungsi dan menggunakannya untuk membuat interval kepercayaan sampel yang besar.F
Di mana adalah gradien dan , estimasi matriks kovarians. Perhatikan bahwa dalam satu dimensi:∇ Σ
Dimana adalah turunan dari . Ini digeneralisasi dalam kasus multivarianf F
Dalam kasus kami F adalah fungsi logistik (yang akan kami nyatakan ) yang turunannya adalahπ(xTβ)
Kita sekarang dapat membangun interval kepercayaan menggunakan varians yang dihitung di atas.
Dalam bentuk vektor untuk kasus multivarian
Kesimpulan terbuka
Melihat plot QQ Normal untuk probabilitas dan peluang log negatif menunjukkan bahwa keduanya tidak terdistribusi secara normal. Bisakah ini menjelaskan perbedaannya?
Sumber:
sumber
Untuk sebagian besar tujuan, cara paling sederhana mungkin paling baik, seperti yang dibahas dalam konteks transformasi log pada halaman ini . Pikirkan variabel dependen Anda saat dianalisis dalam skala logit, dengan uji statistik dilakukan dan interval kepercayaan (CI) ditentukan pada skala logit itu. Transformasi balik ke rasio odds adalah sekadar untuk menempatkan hasil-hasil itu ke dalam skala yang mungkin lebih mudah dipahami oleh pembaca. Ini juga dilakukan, misalnya, dalam analisis survival Cox, di mana koefisien regresi (dan CI 95%) secara eksponensial untuk mendapatkan rasio bahaya dan CI mereka.
sumber