Terjemahkan perintah glm R ke dalam notasi matematika

8

Saya memiliki model linier umum berikut. Objek glmDVdimodelkan sebagai proporsi keberhasilan atas uji coba total. Objek x_iadalah variabel kontinu.

Seperti apakah ini dalam notasi matematika?

winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, 
               data=myData, family=binomial("logit"))
pengguna2205916
sumber
1
Perhatikan bahwa, jika respons Anda adalah proporsi alih-alih seperangkat 0s & 1s (yang saya kumpulkan adalah apa yang Anda miliki berdasarkan deskripsi Anda), Anda harus menggunakan weightsargumen w / ? Glm , di mana bobot adalah jumlah total percobaan untuk setiap pengamatan.
gung - Reinstate Monica

Jawaban:

11

Untuk regresi logistik biner, kasus penggunaan biasa untuk GLM binomial dengan tautan logit, Anda memodelkan probabilitas bahwa variabel dependen Anda adalah "sukses" (atau "ya"), yang secara konvensional diberi kode . Cara Anda melakukan ini adalah dengan memodelkan peluang log. Jadi, daripada memodelkan rata-rata respons seperti pada OLS, Anda memodelkan perubahan dalam peluang log:1

Pr(y=1)=θ=logit1(β0+β1x1+β2x2+...+β7x7)

Di mana dan .logit(x)=log(x1x)logit1(x)=exp(x)1+exp(x)

Penjelasan yang lebih menyeluruh, sangat mudah ditemui tentang hal ini dapat ditemukan di Agresti, Pengantar Analisis Data Kategorikal.

Tetapi untuk pertanyaan khusus Anda, Anda menyatakan bahwa Anda memodelkan proporsi keberhasilan. Ini sebenarnya bukan apa yang dilakukan oleh GLM binomial. Namun, apa yang Anda benar - benar kejar adalah apa yang dilakukan oleh GLM binomial, dan masih mungkin di R. Hanya membutuhkan sedikit penyesuaian terhadap apa yang Anda lakukan. Dalam kasus di mana Anda memiliki jumlah percobaan hingga yang mungkin memiliki keberhasilan , Anda masih dapat menggunakan model yang sama, yang memiliki kepadatan Karena nilai Anda ditetapkan oleh desain eksperimental, dan adalah keberhasilan yang Anda amati, Anda melakukan inferensi pada parameterny{0...n}

Pr(y)(ny)θy(1θ)ny
nyθ dengan cara yang sama dengan kasus respons biner yang lebih umum (di atas), di mana ditetapkan pada 1, mengambil nilai 1 dengan probabilitas , dan adalah fungsi dari parameter Anda. Untuk kasus tautan logit, maka kami memodelkan , terutama karena transformasi ini ada di seluruh garis nyata, bukan pada interval satuan . (Properti diinginkan lainnya dari tautan logit dijelaskan dalam Agresti, termasuk validitas koefisien bahkan dalam pengaturan di mana sampel nonrandom seperti desain kasus kontrol digunakan; ini bukan kasus untuk, misalnya, fungsi tautan probit.)nyθθ
logit(θ)=β0+β1x1+...+βixi
θ

Dalam hal R, cukup buat objek (yang Anda istilahkan glmDV) yang merupakan matriks 2-kolom, kolom pertama jumlah keberhasilan dan yang kedua jumlah total kegagalan . Sisa pernyataan itu tetap sama!yny

Sycorax berkata Reinstate Monica
sumber
Validasi silang ini sangat membantu. Saya akan memeriksa Agresti di perpustakaan. Terima kasih untuk bantuannya.
user2205916
@ Scorax atau @ user2205916, khususnya bagaimana Anda mengoper "matriks 2-kolom" yang berisi jumlah keberhasilan dan kegagalan ke R, dan bagaimana R memanfaatkan ini? Saya terbiasa dengan penggunaan glmdan, setahu saya, ia hanya menerima variabel respons 1 kolom, bukan dua kolom. Tolong koreksi saya jika saya salah dan sebutkan dokumentasi yang relevan jika memungkinkan. Terima kasih!
clarpaul
@clarpaul stat.ethz.ch/R-manual/R-patched/library/stats/html/glm.html Paragraf pertama "Rincian" dalam glmdokumentasi. Cara yang baik untuk mempelajari tentang cara kerja fungsi R adalah untuk Google nama fungsi; ini biasanya muncul dokumentasi yang relevan. Anda juga dapat mengetik ?glmke konsol R
Sycorax mengatakan Reinstate Monica
@ Scorax, terima kasih telah mencari saya. Saya mempraktikkannya kemarin, dan sepertinya berhasil!
clarpaul