Berbagai cara untuk menghasilkan interval kepercayaan untuk rasio odds dari regresi logistik

12

Saya sedang mempelajari bagaimana membangun interval kepercayaan 95% untuk rasio odds dari koefisien yang diperoleh dalam regresi logistik. Jadi, mengingat model regresi logistik,

log(p1p)=α+βx

sedemikian rupa sehingga x=0 untuk kelompok kontrol dan x=1 untuk kelompok kasus.

Saya sudah membaca bahwa cara paling sederhana adalah dengan membangun 95% CI untuk β maka kita menerapkan fungsi eksponensial, yaitu,

β^±1.96×SE(β^)exp{β^±1.96×SE(β^)}

Pertanyaan saya adalah:

  1. Apa alasan teoretis yang membenarkan prosedur ini? Saya tahu odds ratio=exp{β} dan penaksir kemungkinan maksimum adalah invarian. Namun, saya tidak tahu hubungan antara elemen-elemen ini.

  2. Haruskah metode delta menghasilkan interval kepercayaan 95% yang sama dengan prosedur sebelumnya? Menggunakan metode delta,

    exp{β^}˙N(β, exp{β}2Var(β^))

    Kemudian,

    exp{β^}±1.96×exp{β}2Var(β^)

    Jika tidak, prosedur mana yang terbaik?

Márcio Augusto Diniz
sumber
1
Saya suka bootstrap untuk CI juga, jika saya memiliki nilai parameter atau data pelatihan dengan ukuran yang cukup.
EngrStudent
2
Ada cara yang lebih baik untuk melakukan ini, lihat stats.stackexchange.com/questions/5304/... untuk detail
mdewey

Jawaban:

7
  1. Pembenaran untuk prosedur ini adalah normalitas asimptotik dari MLE untuk dan hasil dari argumen yang melibatkan Central Limit Theorem.β

  2. Metode Delta berasal dari ekspansi linier (yaitu Taylor orde pertama) dari fungsi di sekitar MLE. Selanjutnya kami mengacu pada normalitas asimtotik dan ketidakberpihakan MLE.

Keduanya asimtotik memberikan jawaban yang sama. Namun secara praktis, Anda akan menyukai yang terlihat lebih normal. Dalam contoh ini, saya akan mendukung yang pertama karena yang terakhir cenderung kurang simetris.

Amir
sumber
3

Perbandingan metode interval kepercayaan pada contoh dari ISL

Buku "Pengantar Pembelajaran Statistik" oleh Tibshirani, James, Hastie memberikan contoh pada halaman 267 interval kepercayaan untuk tingkat regresi logistik polinomial tingkat 4 pada data upah . Mengutip buku:

Kami memodelkan peristiwa biner menggunakan regresi logistik dengan polinomial derajat-4. Probabilitas posterior pas upah yang melebihi $ 250.000 ditunjukkan dengan warna biru, bersama dengan perkiraan interval kepercayaan 95%.wage>250

Di bawah ini adalah rekap cepat dua metode untuk membangun interval seperti itu serta komentar tentang cara mengimplementasikannya dari awal

Interval transformasi Wald / Endpoint

  • Hitung batas atas dan bawah dari interval kepercayaan untuk kombinasi linier (menggunakan Wald CI)xTβ
  • Terapkan transformasi monoton ke titik akhir untuk mendapatkan probabilitas.F(xTβ)

Karena adalah transformasi monotonx T βPr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

Secara konkret ini berarti menghitung dan kemudian menerapkan transformasi logit ke hasil untuk mendapatkan batas bawah dan atas:βTx±zSE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

Menghitung kesalahan standar

Teori Maximum Likelihood memberi tahu kita bahwa varians perkiraan dapat dihitung menggunakan matriks kovarians dari koefisien regresi menggunakanxTβΣ

Var(xTβ)=xTΣx

Tetapkan matriks desain dan matriks sebagaiXV

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)000π^2(1π^2)000π^n(1π^n)]

di mana adalah nilai dari variabel untuk pengamatan ke- dan mewakili probabilitas prediksi untuk pengamatan .xi,jjiπ^ii

Matriks kovarians kemudian dapat ditemukan sebagai: dan kesalahan standar sebagaiΣ=(XTVX)1SE(xTβ)=Var(xTβ)

Interval kepercayaan 95% untuk probabilitas yang diprediksi kemudian dapat diplot sebagai

masukkan deskripsi gambar di sini


Interval kepercayaan metode Delta

Pendekatannya adalah untuk menghitung varians dari pendekatan linier dari fungsi dan menggunakannya untuk membuat interval kepercayaan sampel yang besar.F

Var[F(xTβ^)]FT Σ F

Di mana adalah gradien dan , estimasi matriks kovarians. Perhatikan bahwa dalam satu dimensi: Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

Dimana adalah turunan dari . Ini digeneralisasi dalam kasus multivarianfF

Var[F(xTβ^)]fT xT Σ x f

Dalam kasus kami F adalah fungsi logistik (yang akan kami nyatakan ) yang turunannya adalahπ(xTβ)

π(xTβ)=π(xTβ)(1π(xTβ))

Kita sekarang dapat membangun interval kepercayaan menggunakan varians yang dihitung di atas.

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

Dalam bentuk vektor untuk kasus multivarian

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • Perhatikan bahwa mewakili titik data tunggal dalam , yaitu satu baris tunggal dari matriks desainR p + 1 XxRp+1X

masukkan deskripsi gambar di sini


Kesimpulan terbuka

Melihat plot QQ Normal untuk probabilitas dan peluang log negatif menunjukkan bahwa keduanya tidak terdistribusi secara normal. Bisakah ini menjelaskan perbedaannya?

masukkan deskripsi gambar di sini

Sumber:

Xavier Bourret Sicotte
sumber
1

Untuk sebagian besar tujuan, cara paling sederhana mungkin paling baik, seperti yang dibahas dalam konteks transformasi log pada halaman ini . Pikirkan variabel dependen Anda saat dianalisis dalam skala logit, dengan uji statistik dilakukan dan interval kepercayaan (CI) ditentukan pada skala logit itu. Transformasi balik ke rasio odds adalah sekadar untuk menempatkan hasil-hasil itu ke dalam skala yang mungkin lebih mudah dipahami oleh pembaca. Ini juga dilakukan, misalnya, dalam analisis survival Cox, di mana koefisien regresi (dan CI 95%) secara eksponensial untuk mendapatkan rasio bahaya dan CI mereka.

EdM
sumber