Apakah ada asumsi awal pada variabel respon regresi logistik?
Sebagai contoh, misalkan kita memiliki titik data. Tampaknya respons datang dari distribusi Bernoulli dengan . Karena itu, kita harus memiliki distribusi Bernoulli, dengan parameter berbeda .
Jadi, mereka "independen", tetapi tidak "identik".
Apakah saya benar?
PS. Saya belajar regresi logistik dari literatur "pembelajaran mesin", di mana kami mengoptimalkan fungsi objektif dan memeriksa apakah itu baik dalam menguji data, tanpa berbicara terlalu banyak tentang asumsi.
Pertanyaan saya dimulai dengan posting ini Memahami Fungsi Tautan dalam Generalized Linear Model Di mana saya mencoba mempelajari lebih lanjut tentang asumsi statistik.
regression
logistic
assumptions
iid
Haitao Du
sumber
sumber
Jawaban:
Dari pertanyaan Anda sebelumnya, Anda mengetahui bahwa GLM dijelaskan dalam hal distribusi probabilitas, prediktor linier dan fungsi tautan g dan digambarkan sebagaiη g
di mana adalah fungsi tautan logit dan Y diasumsikan mengikuti distribusi Bernoullig Y
setiap mengikuti distribusi Bernoulli dengan itu berarti sendiri yaitu tergantung pada . Kami tidak berasumsi bahwa setiap berasal dari distribusi yang sama, dengan rata-rata yang sama (ini akan menjadi model intersep-satunya Y i = g - 1 ( μ ) ), tetapi mereka semua memiliki cara yang berbeda. Kami berasumsi bahwa 's yang independen , yaitu kita tidak perlu khawatir tentang hal-hal seperti autokorelasi antara berikutnya nilai dllμ i X Y i Y i Y iYsaya μsaya X Ysaya Ysaya= g- 1( μ ) Ysaya Ysaya
The iid asumsi berkaitan dengan kesalahan dalam regresi linear (yaitu Gaussian GLM), di mana model ini
mana , jadi kami telah IID kebisingan di sekitar . Inilah sebabnya mengapa tertarik pada diagnostik residu dan memperhatikan residu vs plot yang dipasang . Sekarang, dalam kasus seperti regresi logistik GLM tidak sesederhana itu karena tidak ada istilah kebisingan tambahan seperti dengan model Gaussian (lihat di sini , di sini dan di sini ). Kami masih ingin residu menjadi "acak" di sekitar nol dan kami tidak ingin melihat tren di dalamnya karena mereka akan menyarankan bahwa ada beberapa efek yang tidak diperhitungkan dalam model, tetapi kami tidak berasumsi bahwa mereka adalah normal dan / atauμ iεsaya∼ N( 0 , σ2) μsaya iid . Lihat juga pada pentingnya asumsi iid dalam utas pembelajaran statistik .
Sebagai sidenote, perhatikan bahwa kita bahkan dapat menjatuhkan asumsi bahwa setiap berasal dari jenis distribusi yang sama. Ada (non-GLM) model yang mengasumsikan bahwa yang berbeda dapat memiliki distribusi yang berbeda dengan parameter yang berbeda, yaitu bahwa data Anda berasal dari campuran distribusi yang berbeda . Dalam kasus seperti itu kami juga akan menganggap bahwa nilai-nilai adalah independen , karena nilai-nilai dependen, berasal dari distribusi yang berbeda dengan parameter yang berbeda (yaitu data dunia nyata yang khas) adalah sesuatu yang dalam kebanyakan kasus akan terlalu rumit untuk dimodelkan (seringkali tidak mungkin).Y i Y iYsaya Ysaya Ysaya
sumber
Seperti yang telah dinyatakan, sementara kita sering mempertimbangkan kasus kesalahan dalam regresi linier, ini tidak memiliki padanan langsung dalam kebanyakan model linier umum (termasuk regresi logistik). Dalam regresi logistik, kami biasanya menggunakan asumsi independensi hasil yang semuanya memiliki hubungan yang sangat ketat (yaitu efek linear pada probabilitas log). Tetapi ini menghasilkan variabel acak yang tidak identik, mereka juga tidak dapat didekomposisi menjadi istilah konstan ditambah kesalahan awal seperti halnya dengan regresi linier.
Jika Anda benar - benar ingin menunjukkan bahwa tanggapan memiliki semacam hubungan iid, ikuti saya untuk paragraf berikutnya. Ketahuilah bahwa ide ini sedikit keluar jalur; Anda mungkin tidak mendapatkan kredit penuh untuk jawaban ini pada saat final jika profesor Anda kurang sabar.
Anda mungkin terbiasa dengan metode invers-cdf untuk menghasilkan variabel acak. Jika tidak, inilah penyegaran: jika memiliki fungsi distribusi kumulatif F X , maka saya dapat menghasilkan undian acak dari X dengan terlebih dahulu mengambil undian acak q ∼ seragam (0,1) kemudian menghitung X = F - 1 X ( q )X FX X q∼ seragam (0,1) X= F- 1X( q) . Bagaimana ini berhubungan dengan regresi logistik? Yah, kita dapat berpikir bahwa proses menghasilkan tanggapan kita memiliki dua bagian; bagian tetap yang menghubungkan kovariat dengan probabilitas keberhasilan, dan bagian acak yang menentukan nilai variabel acak yang tergantung pada bagian tetap. Bagian yang tetap didefinisikan oleh fungsi tautan dari regresi logistik, yaitu . Untuk bagian acak, mari kita mendefinisikan F Y ( y | p ) sebagai cdf untuk distribusi Bernoulli dengan probabilitas p . Kemudian kita dapat memikirkan variabel respon Yp = expit ( βHai+ β1x ) FY( y| p) hal dihasilkan oleh tiga langkah berikut:Ysaya
1.)halsaya= expit ( βHai+ β1xsaya)
2.)qsaya∼ seragam (0,1)
3.)Ysaya= F- 1( qsaya| halsaya)
Maka asumsi standar dalam regresi logistik adalah bahwa adalah iid.qsaya
sumber