Apakah ada asumsi awal tentang regresi logistik?

Apakah ada asumsi awal pada variabel respon regresi logistik?

Sebagai contoh, misalkan kita memiliki titik data. Tampaknya respons datang dari distribusi Bernoulli dengan . Karena itu, kita harus memiliki distribusi Bernoulli, dengan parameter berbeda . $1000$ $Y_i$ $p_i=\text{logit}(\beta_0+\beta_1 x_i)$ $1000$ $p$

Jadi, mereka "independen", tetapi tidak "identik".

Apakah saya benar?

PS. Saya belajar regresi logistik dari literatur "pembelajaran mesin", di mana kami mengoptimalkan fungsi objektif dan memeriksa apakah itu baik dalam menguji data, tanpa berbicara terlalu banyak tentang asumsi.

Pertanyaan saya dimulai dengan posting ini Memahami Fungsi Tautan dalam Generalized Linear Model Di mana saya mencoba mempelajari lebih lanjut tentang asumsi statistik.

regression logistic assumptions iid Haitao Du
sumber

"Asumsi" adalah sesuatu yang dapat dimiliki teorema. Regresi linier memiliki "asumsi" kesalahan iid (bukan s yang "dianggap" iid dalam regresi linier! Melainkan kesalahan) dalam arti bahwa teorema Gauss-Markov memiliki asumsi ini. Sekarang, adakah teorema bahwa seseorang memiliki pikiran untuk regresi logistik? Jika tidak, maka tidak ada "asumsi".

y

$y$

Amoeba berkata Reinstate Monica

@Amoeba, hxd benar dalam mencatat distribusi tidak identik: "iid" tidak berlaku. Jika seseorang menggunakan regresi logistik hanya untuk kesesuaiannya, maka (saat Anda menulis) mungkin diperlukan beberapa asumsi; tetapi begitu seseorang menggunakan estimasi kovariansi matriks dari koefisien atau keinginan untuk membangun interval prediksi (atau, dalam hal ini, validasi silang nilai prediksi), maka itu memerlukan asumsi probabilitas. Yang biasa adalah bahwa tanggapannya independen.

whuber

@amoeba setelah Anda ingin melakukan inferensi (tes hipotesis, interval kepercayaan, dll.) Daripada hanya menghitung perkiraan parameter, Anda akan membuat banyak asumsi (beberapa lebih penting daripada yang lain) untuk dapat memperoleh distribusi nol yang relevan dari uji statistik atau perhitungan yang diperlukan untuk suatu interval dengan cakupan yang diinginkan. Bahkan prosedur asumsi yang relatif rendah masih memiliki asumsi, dan jika kita peduli dengan kesimpulan kita, kita akan peduli apakah mereka cenderung memiliki sesuatu di dekat sifat nominalnya.

Glen_b -Reinstate Monica

@amoeba, saya suka teorema yang menunjukkan normalitas asimptotik dari MLE. Saya juga suka tes rasio kemungkinan.

gammer

Distribusi marginal mereka tidak identik kecuali mereka semua memiliki nilai prediktor yang sama, dalam hal ini Anda hanya memiliki uji coba bernoulli IID. Distribusi kondisional mereka (diberi prediktor) semuanya sama, tetapi saya tidak berpikir Anda akan mengatakan dalam kasus ini adalah IID.

Y_{i}

$Y_i$

gammer

Jawaban:

Dari pertanyaan Anda sebelumnya, Anda mengetahui bahwa GLM dijelaskan dalam hal distribusi probabilitas, prediktor linier dan fungsi tautan dan digambarkan sebagai $\eta$ $g$

\begin{aligned} η & = X β \\ E (Y | X) & = μ = g^{- 1} (η) \end{aligned}

$\begin{align} \eta &= X\beta \\ E(Y|X) &= \mu = g^{-1}(\eta) \end{align}$

di mana adalah fungsi tautan logit dan diasumsikan mengikuti distribusi Bernoulli $g$ $Y$

Y_{saya} \sim B (μ_{saya})

$Y_i \sim \mathcal{B}(\mu_i)$

setiap mengikuti distribusi Bernoulli dengan itu berarti sendiri yaitu tergantung pada . Kami tidak berasumsi bahwa setiap berasal dari distribusi yang sama, dengan rata-rata yang sama (ini akan menjadi model intersep-satunya ), tetapi mereka semua memiliki cara yang berbeda. Kami berasumsi bahwa 's yang independen , yaitu kita tidak perlu khawatir tentang hal-hal seperti autokorelasi antara berikutnya nilai dll $Y_i$ $\mu_i$ $X$ $Y_i$ $Y_i = g^{-1}(\mu)$ $Y_i$ $Y_i$

The iid asumsi berkaitan dengan kesalahan dalam regresi linear (yaitu Gaussian GLM), di mana model ini

y_{saya} = β_{0} + β_{1} x_{saya} + ε_{saya} = μ_{saya} + ε_{saya}

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i = \mu_i + \varepsilon_i$

mana , jadi kami telah IID kebisingan di sekitar . Inilah sebabnya mengapa tertarik pada diagnostik residu dan memperhatikan residu vs plot yang dipasang . Sekarang, dalam kasus seperti regresi logistik GLM tidak sesederhana itu karena tidak ada istilah kebisingan tambahan seperti dengan model Gaussian (lihat di sini , di sini dan di sini ). Kami masih ingin residu menjadi "acak" di sekitar nol dan kami tidak ingin melihat tren di dalamnya karena mereka akan menyarankan bahwa ada beberapa efek yang tidak diperhitungkan dalam model, tetapi kami tidak berasumsi bahwa mereka adalah normal dan / atau $\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$ $\mu_i$ iid . Lihat juga pada pentingnya asumsi iid dalam utas pembelajaran statistik .

Sebagai sidenote, perhatikan bahwa kita bahkan dapat menjatuhkan asumsi bahwa setiap berasal dari jenis distribusi yang sama. Ada (non-GLM) model yang mengasumsikan bahwa yang berbeda dapat memiliki distribusi yang berbeda dengan parameter yang berbeda, yaitu bahwa data Anda berasal dari campuran distribusi yang berbeda . Dalam kasus seperti itu kami juga akan menganggap bahwa nilai-nilai adalah independen , karena nilai-nilai dependen, berasal dari distribusi yang berbeda dengan parameter yang berbeda (yaitu data dunia nyata yang khas) adalah sesuatu yang dalam kebanyakan kasus akan terlalu rumit untuk dimodelkan (seringkali tidak mungkin). $Y_i$ $Y_i$ $Y_i$

Tim
sumber

Seperti yang telah dinyatakan, sementara kita sering mempertimbangkan kasus kesalahan dalam regresi linier, ini tidak memiliki padanan langsung dalam kebanyakan model linier umum (termasuk regresi logistik). Dalam regresi logistik, kami biasanya menggunakan asumsi independensi hasil yang semuanya memiliki hubungan yang sangat ketat (yaitu efek linear pada probabilitas log). Tetapi ini menghasilkan variabel acak yang tidak identik, mereka juga tidak dapat didekomposisi menjadi istilah konstan ditambah kesalahan awal seperti halnya dengan regresi linier.

Jika Anda benar - benar ingin menunjukkan bahwa tanggapan memiliki semacam hubungan iid, ikuti saya untuk paragraf berikutnya. Ketahuilah bahwa ide ini sedikit keluar jalur; Anda mungkin tidak mendapatkan kredit penuh untuk jawaban ini pada saat final jika profesor Anda kurang sabar.

Anda mungkin terbiasa dengan metode invers-cdf untuk menghasilkan variabel acak. Jika tidak, inilah penyegaran: jika memiliki fungsi distribusi kumulatif , maka saya dapat menghasilkan undian acak dari dengan terlebih dahulu mengambil undian acak kemudian menghitung $X$ $F_X$ $X$ $q \sim \text{uniform(0,1)}$ $X = F_X^{-1}(q)$ . Bagaimana ini berhubungan dengan regresi logistik? Yah, kita dapat berpikir bahwa proses menghasilkan tanggapan kita memiliki dua bagian; bagian tetap yang menghubungkan kovariat dengan probabilitas keberhasilan, dan bagian acak yang menentukan nilai variabel acak yang tergantung pada bagian tetap. Bagian yang tetap didefinisikan oleh fungsi tautan dari regresi logistik, yaitu . Untuk bagian acak, mari kita mendefinisikan sebagai cdf untuk distribusi Bernoulli dengan probabilitas . Kemudian kita dapat memikirkan variabel respon $p = \text{expit}(\beta_o + \beta_1 x)$ $F_Y( y | p)$ $p$ dihasilkan oleh tiga langkah berikut: $Y_i$

1.) $p_i = \text{expit}(\beta_o + \beta_1 x_i)$

2.) $q_i \sim\text{uniform(0,1)}$

3.) $Y_i = F^{-1}(q_i | p_i)$

Maka asumsi standar dalam regresi logistik adalah bahwa adalah iid. $q_i$

Cliff AB
sumber

q_{i}

$q_i$

Y_{i} \sim B (p_{i})

$Y_i \sim \mathcal{B}(p_i)$

Y_{i}

$Y_i$

p_{i}

$p_i$

q_{i}

$q_i$

@Tim: ya, bagian kedua dari jawaban ini lebih merupakan catatan samping yang menarik daripada jawaban singkat. Tetapi ini mungkin cara yang bermanfaat untuk melihatnya; Bagaimanapun, pada dasarnya itulah cara komputer Anda mensimulasikan data dari model-model ini!

Cliff AB