Apakah fungsi logit selalu yang terbaik untuk pemodelan regresi data biner?

15

Saya sudah memikirkan masalah ini. Fungsi logistik yang biasa untuk memodelkan data biner adalah: Namun adalah fungsi logit, yang merupakan kurva berbentuk S , selalu yang terbaik untuk memodelkan data? Mungkin Anda memiliki alasan untuk percaya bahwa data Anda tidak mengikuti kurva berbentuk S normal tetapi tipe kurva berbeda dengan domain .

log(p1p)=β0+β1X1+β2X2+
(0,1)

Apakah ada penelitian tentang ini? Mungkin Anda bisa memodelkannya sebagai fungsi probit atau sesuatu yang serupa, tetapi bagaimana jika itu adalah sesuatu yang sama sekali berbeda? Bisakah ini menghasilkan estimasi efek yang lebih baik? Hanya sebuah pemikiran yang saya miliki, dan saya ingin tahu apakah ada penelitian tentang hal ini.

Lembah kecil
sumber
3
kemungkinan duplikat Perbedaan antara model logit dan probit
Makro
2
@ Macro Saya tidak berpikir itu duplikat yang tepat. Pertanyaan itu hanya tentang logit dan probit; ini meminta alternatif lain juga.
Peter Flom - Reinstate Monica
Saya memberikan suara untuk membiarkan ini terbuka. Perbedaan utama yang saya lihat adalah bahwa Q ini meminta penelitian dalam statistik pada topik berbagai fungsi tautan yang mungkin. Ini perbedaan yang halus, tetapi mungkin cukup. @ Glen, Anda mungkin ingin meninjau Q lainnya, jika Anda belum melihatnya. Dalam jawaban saya, saya berbicara tentang tautan yang berbeda. Jika menurut Anda Q ini tidak terlalu berbeda, beri tanda & mod dapat menutupnya; jika Anda dapat memikirkan cara untuk membuat perbedaan dengan apa yang Anda tanyakan & agar Q lebih jelas, Anda mungkin ingin mengedit untuk melakukannya.
gung - Reinstate Monica
Saya tahu itu bukan duplikat yang tepat dari pertanyaan logit vs pertanyaan tetapi saya pikir jawaban gung, yang melampaui apa yang ditanyakan oleh pertanyaan terkait, membahas sebagian besar dari apa yang ditanyakan di sini, itulah sebabnya saya ditutup sebagai duplikat. Mungkin ada utas terkait erat lainnya, tetapi itulah yang pertama kali terlintas di benak saya.
Makro
Terima kasih atas komentarnya. Saya percaya pertanyaan saya berbeda dari pertanyaan sebelumnya. Saya sangat akrab dengan transformasi probit dan log-log, dan diskusi dari pertanyaan sebelumnya sangat informatif bagi saya. Namun, saya tertarik pada fungsi tautan lain (mungkin non-parametrik?) Yang mungkin, dalam situasi di mana Anda mungkin atau mungkin tidak memiliki pengetahuan bahwa kurva probabilitas mengikuti distribusi yang berbeda. Saya pikir ketika interaksi terlibat di antara kovariat ini bisa memainkan peran penting. @ David J. Harris jawabannya juga membantu ...
Glen

Jawaban:

15

Orang-orang menggunakan segala macam fungsi untuk menjaga data mereka antara 0 dan 1. Peluang log keluar secara alami dari matematika saat Anda menurunkan model (ini disebut "fungsi tautan kanonik"), tetapi Anda benar-benar bebas bereksperimen dengan alternatif lain.

Seperti yang disinggung oleh Makro dalam komentarnya tentang pertanyaan Anda, satu pilihan umum adalah model probit , yang menggunakan fungsi kuantil dari Gaussian alih-alih fungsi logistik. Saya juga pernah mendengar hal-hal baik tentang penggunaan fungsi kuantil dari distribusi Student , walaupun saya belum pernah mencobanya.t

ttt7

Semoga ini membantu.

Diedit untuk menambahkan : Diskusi yang dikaitkan dengan @Macro benar-benar luar biasa. Saya sangat merekomendasikan membacanya jika Anda tertarik lebih detail.

David J. Harris
sumber
Pertanyaannya secara khusus tentang "data biner" - bukan tentang data antara 0 dan 1. Model probit tidak memiliki justifikasi teoretis dalam kasus data biner.
Neil G
3
@NeilG, salah satu alasan untuk menggunakan model probit adalah bahwa ia memberikan cara yang nyaman untuk memodelkan data biner multivarian (misalnya dengan model campuran) sebagai normals ambang. Dalam hal ini, matriks korelasi dari variabel-variabel yang mendasarinya secara statistik dapat diidentifikasi, sedangkan itu tidak dalam kasus logistik. Ada sedikit diskusi lebih lama di sini .
Makro
@ Macro: Oh, begitu. Itu sangat menarik, terima kasih.
Neil G
@ David J. Harris: Maksud Anda kuintil (atau mungkin kuantil memiliki arti yang sama), yaitu, memecah distribusi menjadi potongan-potongan perlima: 20%, 40%, .., 100%?
MSIS
1
@ MSIS kuintil terbagi menjadi seperlima, persentil terbagi menjadi 100, dan kuartil terbagi menjadi satuan sewenang-wenang. Lihat en.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris
11

Saya tidak melihat alasan, a-priori, mengapa fungsi tautan yang sesuai untuk dataset yang diberikan harus berupa logit (meskipun alam semesta tampaknya agak ramah pada kita secara umum). Saya tidak tahu apakah ini yang Anda cari, tapi di sini ada beberapa makalah yang membahas fungsi tautan yang lebih eksotis:

Pengungkapan: Saya tidak tahu materi ini dengan baik. Saya mencoba berkecimpung dengan Cauchit dan Scobit beberapa tahun yang lalu, tetapi kode saya terus mogok (mungkin karena saya bukan programmer yang hebat), dan sepertinya tidak relevan untuk proyek yang sedang saya kerjakan, jadi saya menjatuhkannya .

X

gung - Pasang kembali Monica
sumber
4

Strategi terbaik adalah memodelkan data berdasarkan apa yang sedang terjadi (Tidak mengejutkan!)

  • Model probit berasal dari studi LD50 - Anda ingin dosis insektisida yang membunuh separuh serangga. Respons biner adalah apakah serangga itu hidup atau mati (dengan dosis yang diberikan). Bug yang rentan pada satu dosis juga akan rentan pada dosis yang lebih rendah, yang merupakan ide pemodelan untuk Normal kumulatif.
  • Jika pengamatan biner datang dalam kelompok, Anda dapat menggunakan model beta-binomial. Ben Bolker memiliki pengantar yang baik dalam dokumentasi paket bbmle-nya (dalam R) yang mengimplementasikannya dalam kasus-kasus sederhana. Model-model ini memungkinkan lebih banyak kontrol atas variasi data daripada apa yang Anda dapatkan dalam distribusi binomial.
  • Data biner multivarian - jenis yang digulung menjadi tabel kontingensi multi-dimensi - dapat dianalisis menggunakan model log-linear. Fungsi tautan adalah log dan bukan peluang log. Beberapa orang menyebut ini sebagai regresi Poisson.

Mungkin tidak ada penelitian tentang model-model ini, meskipun ada banyak penelitian tentang salah satu dari model-model ini, dan pada perbandingan di antara mereka, dan pada berbagai cara memperkirakannya. Apa yang Anda temukan dalam literatur adalah bahwa ada banyak kegiatan untuk sementara waktu, karena peneliti mempertimbangkan sejumlah opsi untuk kelas masalah tertentu, dan kemudian satu metode muncul sebagai yang lebih unggul.

Placidia
sumber
+1 untuk beta-binomial. Itu alat yang hebat untuk dimiliki di kotak peralatan seseorang.
David J. Harris
3

pipi

Neil G
sumber