12

Saya sedang mempelajari bagaimana membangun interval kepercayaan 95% untuk rasio odds dari koefisien yang diperoleh dalam regresi logistik. Jadi, mengingat model regresi logistik,

\log (\frac{p}{1 - p}) = α + β x

$\log\left(\frac{p}{1 - p}\right) = \alpha + \beta x \newcommand{\var}{\rm Var} \newcommand{\se}{\rm SE}$

sedemikian rupa sehingga $x = 0$ untuk kelompok kontrol dan $x = 1$ untuk kelompok kasus.

Saya sudah membaca bahwa cara paling sederhana adalah dengan membangun 95% CI untuk $\beta$ maka kita menerapkan fungsi eksponensial, yaitu,

\hat{β} \pm 1.96 \times S E (\hat{β}) \to \exp {\hat{β} \pm 1.96 \times S E (\hat{β})}

$\hat{\beta} \pm 1.96\times \se(\hat{\beta}) \rightarrow \exp\{\hat{\beta} \pm 1.96\times \se(\hat{\beta})\}$

Pertanyaan saya adalah:

Apa alasan teoretis yang membenarkan prosedur ini? Saya tahu $\mbox{odds ratio} = \exp\{\beta\}$ dan penaksir kemungkinan maksimum adalah invarian. Namun, saya tidak tahu hubungan antara elemen-elemen ini.
Haruskah metode delta menghasilkan interval kepercayaan 95% yang sama dengan prosedur sebelumnya? Menggunakan metode delta,

$\exp {\hat{β}} \dot{\sim} N (β, \exp {β}^{2} V a r (\hat{β}))$ $\exp\{\hat{\beta}\} \dot{\sim} N(\beta,\ \exp\{\beta\}^2 \var(\hat{\beta}))$
Kemudian,

$\exp {\hat{β}} \pm 1.96 \times \sqrt{\exp {β}^{2} V a r (\hat{β})}$ $\exp\{\hat{\beta}\} \pm 1.96\times \sqrt{\exp\{\beta\}^2 \var(\hat{\beta})}$
Jika tidak, prosedur mana yang terbaik?

logistic confidence-interval odds-ratio delta-method Márcio Augusto Diniz
sumber

1

Saya suka bootstrap untuk CI juga, jika saya memiliki nilai parameter atau data pelatihan dengan ukuran yang cukup.

EngrStudent

2

Ada cara yang lebih baik untuk melakukan ini, lihat stats.stackexchange.com/questions/5304/... untuk detail

mdewey

7

Pembenaran untuk prosedur ini adalah normalitas asimptotik dari MLE untuk dan hasil dari argumen yang melibatkan Central Limit Theorem. $\beta$
Metode Delta berasal dari ekspansi linier (yaitu Taylor orde pertama) dari fungsi di sekitar MLE. Selanjutnya kami mengacu pada normalitas asimtotik dan ketidakberpihakan MLE.

Keduanya asimtotik memberikan jawaban yang sama. Namun secara praktis, Anda akan menyukai yang terlihat lebih normal. Dalam contoh ini, saya akan mendukung yang pertama karena yang terakhir cenderung kurang simetris.

Amir
sumber

3

Perbandingan metode interval kepercayaan pada contoh dari ISL

Buku "Pengantar Pembelajaran Statistik" oleh Tibshirani, James, Hastie memberikan contoh pada halaman 267 interval kepercayaan untuk tingkat regresi logistik polinomial tingkat 4 pada data upah . Mengutip buku:

Kami memodelkan peristiwa biner menggunakan regresi logistik dengan polinomial derajat-4. Probabilitas posterior pas upah yang melebihi $ 250.000 ditunjukkan dengan warna biru, bersama dengan perkiraan interval kepercayaan 95%. $wage>250$

Di bawah ini adalah rekap cepat dua metode untuk membangun interval seperti itu serta komentar tentang cara mengimplementasikannya dari awal

Interval transformasi Wald / Endpoint

Hitung batas atas dan bawah dari interval kepercayaan untuk kombinasi linier (menggunakan Wald CI) $x^T\beta$
Terapkan transformasi monoton ke titik akhir untuk mendapatkan probabilitas. $F(x^T\beta)$

Karena adalah transformasi monoton $Pr(x^T\beta) = F(x^T\beta)$ $x^T\beta$

[P r (x^{T} β)_{L} \leq P r (x^{T} β) \leq P r (x^{T} β)_{U}] = [F (x^{T} β)_{L} \leq F (x^{T} β) \leq F (x^{T} β)_{U}]

$[Pr(x^T\beta)_L \leq Pr(x^T\beta) \leq Pr(x^T\beta)_U] = [F(x^T\beta)_L \leq F(x^T\beta) \leq F(x^T\beta)_U]$

Secara konkret ini berarti menghitung dan kemudian menerapkan transformasi logit ke hasil untuk mendapatkan batas bawah dan atas: $\beta^Tx \pm z^* SE(\beta^Tx)$

[\frac{e^{x^{T} β - z^{*} S E (x^{T} β)}}{1 + e^{x^{T} β - z^{*} S E (x^{T} β)}}, \frac{e^{x^{T} β + z^{*} S E (x^{T} β)}}{1 + e^{x^{T} β + z^{*} S E (x^{T} β)}},]

$[\frac{e^{x^T\beta - z^* SE(x^T\beta)}}{1 + e^{x^T\beta - z^* SE(x^T\beta)}}, \frac{e^{x^T\beta + z^* SE(x^T\beta)}}{1 + e^{x^T\beta + z^* SE(x^T\beta)}},]$

Menghitung kesalahan standar

Teori Maximum Likelihood memberi tahu kita bahwa varians perkiraan dapat dihitung menggunakan matriks kovarians dari koefisien regresi menggunakan $x^T\beta$ $\Sigma$

V a r (x^{T} β) = x^{T} Σ x

$Var(x^T\beta) = x^T \Sigma x$

Tetapkan matriks desain dan matriks sebagai $X$ $V$

X = [\begin{matrix} 1 & x_{1, 1} & \dots & x_{1, p} \\ 1 & x_{2, 1} & \dots & x_{2, p} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & x_{n, 1} & \dots & x_{n, p} \end{matrix}] V = [\begin{matrix} {\hat{π}}_{1} (1 - {\hat{π}}_{1}) & 0 & \dots & 0 \\ 0 & {\hat{π}}_{2} (1 - {\hat{π}}_{2}) & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & {\hat{π}}_{n} (1 - {\hat{π}}_{n}) \end{matrix}]

$\textbf{X = }\begin{bmatrix} 1 & x_{1,1} & \ldots & x_{1,p} \\ 1 & x_{2,1} & \ldots & x_{2,p} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n,1} & \ldots & x_{n,p} \end{bmatrix} \ \ \ \ \textbf{V = } \begin{bmatrix} \hat{\pi}_{1}(1 - \hat{\pi}_{1}) & 0 & \ldots & 0 \\ 0 & \hat{\pi}_{2}(1 - \hat{\pi}_{2}) & \ldots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & \hat{\pi}_{n}(1 - \hat{\pi}_{n}) \end{bmatrix}$

di mana adalah nilai dari variabel untuk pengamatan ke- dan mewakili probabilitas prediksi untuk pengamatan . $x_{i,j}$ $j$ $i$ $\hat{\pi}_{i}$ $i$

Matriks kovarians kemudian dapat ditemukan sebagai: dan kesalahan standar sebagai $\Sigma = \textbf{(X}^{T}\textbf{V}\textbf{X)}^{-1}$ $SE(x^T\beta) = \sqrt{Var(x^T\beta)}$

Interval kepercayaan 95% untuk probabilitas yang diprediksi kemudian dapat diplot sebagai

Interval kepercayaan metode Delta

Pendekatannya adalah untuk menghitung varians dari pendekatan linier dari fungsi dan menggunakannya untuk membuat interval kepercayaan sampel yang besar. $F$

Var [F (x^{T} \hat{β})] \approx \nabla F^{T} Σ \nabla F

$\text{Var}[F\mathbf{(x^T \hat \beta)}] \approx \nabla F^T \ \Sigma \ \nabla F$

Di mana adalah gradien dan , estimasi matriks kovarians. Perhatikan bahwa dalam satu dimensi: $\nabla$ $\Sigma$

\frac{\partial F (x β)}{\partial β} = \frac{\partial F (x β)}{\partial x β} \frac{\partial x β}{\partial β} = x f (x β)

$\frac{\partial F(x\beta)}{\partial \beta} = \frac{\partial F(x\beta)}{\partial x\beta} \frac{\partial x\beta}{\partial \beta} = x f(x\beta)$

Dimana adalah turunan dari . Ini digeneralisasi dalam kasus multivarian $f$ $F$

Var [F (x^{T} \hat{β})] \approx f^{T} x^{T} Σ x f

$\text{Var}[F\mathbf{(x^T \hat \beta)}] \approx f^T \ \mathbf{x^T} \ \Sigma \ \mathbf{x} \ f$

Dalam kasus kami F adalah fungsi logistik (yang akan kami nyatakan ) yang turunannya adalah $\pi(x^T\beta)$

π^{'} (x^{T} β) = π (x^{T} β) (1 - π (x^{T} β))

$\pi'(x^T\beta) = \pi (x^T\beta) (1 - \pi (x^T\beta) )$

Kita sekarang dapat membangun interval kepercayaan menggunakan varians yang dihitung di atas.

C . I . = [P r (x \hat{β}) - z^{*} \sqrt{Var [π (x \hat{β})]} \leq P r (x \hat{β}) + z^{*} \sqrt{Var [π (x \hat{β})]}]

$C.I. = [Pr(x\hat \beta) - z^* \sqrt{\text{Var}[ \pi(x \hat \beta) ]} \leq Pr(x\hat \beta) + z^* \sqrt{\text{Var}[ \pi(x \hat \beta) ]} ]$

Dalam bentuk vektor untuk kasus multivarian

C . I . = [π (x^{T} \hat{β}) \pm z^{*} \sqrt{{(π (x^{T} \hat{β}) (1 - π (x^{T} \hat{β})))}^{T} x^{T} Var [\hat{β}] x π (x^{T} \hat{β}) (1 - π (x^{T} \hat{β}))]}

$C.I. = \mathbf{[\pi(x^T\hat \beta) \pm z^* \sqrt{ \left(\pi(x^T \hat \beta) (1 - \pi(x^T \hat \beta) ) \right)^T x^T \ \ \text{Var}[ \hat \beta] \ \ x \ \ \pi(x^T \hat \beta) (1 - \pi(x^T \hat \beta) ) ]}}$

Perhatikan bahwa mewakili titik data tunggal dalam , yaitu satu baris tunggal dari matriks desain $\mathbf{x}$ $\mathbb{R}^{p+1}$ $X$

Kesimpulan terbuka

Melihat plot QQ Normal untuk probabilitas dan peluang log negatif menunjukkan bahwa keduanya tidak terdistribusi secara normal. Bisakah ini menjelaskan perbedaannya?

Sumber:

Xavier Bourret Sicotte
sumber

1

Untuk sebagian besar tujuan, cara paling sederhana mungkin paling baik, seperti yang dibahas dalam konteks transformasi log pada halaman ini . Pikirkan variabel dependen Anda saat dianalisis dalam skala logit, dengan uji statistik dilakukan dan interval kepercayaan (CI) ditentukan pada skala logit itu. Transformasi balik ke rasio odds adalah sekadar untuk menempatkan hasil-hasil itu ke dalam skala yang mungkin lebih mudah dipahami oleh pembaca. Ini juga dilakukan, misalnya, dalam analisis survival Cox, di mana koefisien regresi (dan CI 95%) secara eksponensial untuk mendapatkan rasio bahaya dan CI mereka.

EdM
sumber

Berbagai cara untuk menghasilkan interval kepercayaan untuk rasio odds dari regresi logistik

Jawaban:

Perbandingan metode interval kepercayaan pada contoh dari ISL

Interval transformasi Wald / Endpoint

Menghitung kesalahan standar

Interval kepercayaan metode Delta

Kesimpulan terbuka