Versi pendek:
Kita tahu bahwa regresi logistik dan regresi probit dapat diinterpretasikan sebagai melibatkan variabel laten kontinu yang didiskritisasi menurut beberapa ambang batas yang ditetapkan sebelum pengamatan. Apakah interpretasi variabel laten serupa tersedia untuk, katakanlah, regresi Poisson? Bagaimana dengan regresi Binomial (seperti logit atau probit) ketika ada lebih dari dua hasil yang terpisah? Pada tingkat paling umum, apakah ada cara untuk menafsirkan GLM dalam hal variabel laten?
Versi panjang:
Cara standar untuk memotivasi model probit untuk hasil biner (misalnya, dari Wikipedia ) adalah sebagai berikut. Kami memiliki tidak teramati / laten variabel hasil yang biasanya didistribusikan, tergantung pada prediktor . Variabel laten ini mengalami proses ambang, sehingga hasil diskrit yang kita amati sebenarnya adalah jika , jika . Ini mengarah pada probabilitas diberikan untuk mengambil bentuk CDF Normal, dengan deviasi rata-rata dan fungsi ambang dan kemiringan regresiu = 0 Y < γ u = 1 X γ Y X Y X pada , masing-masing. Jadi model probit dimotivasi sebagai cara memperkirakan kemiringan dari regresi laten pada .
Ini diilustrasikan dalam plot di bawah ini, dari Thissen & Orlando (2001). Para penulis ini secara teknis membahas model ogive yang normal dari teori respon butir, yang terlihat cukup banyak seperti regresi probit untuk tujuan kita (catatan penulis menggunakan di tempat , dan probabilitas ditulis dengan bukannya biasa ).
Kita dapat menafsirkan regresi logistik dengan cara yang persis sama . Satu-satunya perbedaan adalah bahwa sekarang tidak teramati terus menerus mengikuti logistik distribusi, bukan distribusi normal, diberikan X . Argumen teoretis tentang mengapa Y mungkin mengikuti distribusi logistik daripada distribusi normal agak kurang jelas ... tetapi karena kurva logistik yang dihasilkan terlihat pada dasarnya sama dengan CDF normal untuk tujuan praktis (setelah penyelamatan), bisa dibilang itu akan menang ' Dalam praktiknya, cenderung tidak terlalu berarti model mana yang Anda gunakan. Intinya adalah bahwa kedua model memiliki interpretasi variabel laten yang cukup mudah.
Saya ingin tahu apakah kita dapat menerapkan interpretasi laten variabel yang tampak mirip (atau, neraka, berbeda) ke GLM lain - atau bahkan ke GLM mana pun .
Bahkan memperluas model di atas untuk memperhitungkan hasil Binomial dengan (yaitu, bukan hanya hasil Bernoulli) tidak sepenuhnya jelas bagi saya. Agaknya orang dapat melakukan ini dengan membayangkan bahwa alih-alih memiliki ambang tunggal γ , kami memiliki beberapa ambang batas (satu lebih sedikit dari jumlah hasil diskrit yang diamati). Tetapi kita perlu memaksakan beberapa batasan pada ambang, seperti itu mereka ditempatkan secara merata. Saya cukup yakin sesuatu seperti ini bisa berhasil, walaupun saya belum mengerjakan detailnya.
Pindah ke kasus regresi Poisson tampaknya kurang jelas bagi saya. Saya tidak yakin apakah gagasan ambang akan menjadi cara terbaik untuk memikirkan model dalam kasus ini. Saya juga tidak yakin distribusi seperti apa yang bisa kita bayangkan sebagai hasil laten.
Solusi yang paling diinginkan untuk ini akan menjadi cara umum menafsirkan setiap GLM dalam hal variabel laten dengan beberapa distribusi atau lainnya - bahkan jika solusi umum ini menyiratkan interpretasi variabel laten yang berbeda dari yang biasa untuk regresi logit / probit. Tentu saja, akan lebih keren jika metode umum setuju dengan interpretasi logit / probit yang biasa, tetapi juga diperluas secara alami ke GLM lain.
Tetapi bahkan jika interpretasi variabel laten seperti itu umumnya tidak tersedia dalam kasus GLM umum, saya juga ingin mendengar tentang interpretasi variabel laten dari kasus khusus seperti kasus Binomial dan Poisson yang saya sebutkan di atas.
Referensi
Thissen, D. & Orlando, M. (2001). Teori respons item untuk item yang dinilai dalam dua kategori. Dalam D. Thissen & Wainer, H. (Eds.), Tes Penilaian (hlm. 73-140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
Edit 2016-09-23
Jawaban:
Untuk model dengan lebih dari satu hasil diskrit, ada beberapa versi model logit (misalnya log kondisional, log multinomial, logit campuran, logit bersarang, ...). Lihat buku Kenneth Train tentang subjek: http://eml.berkeley.edu/books/choice2.html
Perhatikan bahwa tidak ada parameter "ambang" di sini: sebagai gantinya, ketika satu utilitas menjadi lebih besar dari yang sebelumnya terbesar, maka konsumen akan beralih untuk memilih alternatif itu.
sumber