Apa perbedaan antara model Logit dan Probit ?
Saya lebih tertarik di sini untuk mengetahui kapan harus menggunakan regresi logistik, dan kapan harus menggunakan Probit.
Jika ada literatur yang mendefinisikannya menggunakan R , itu akan sangat membantu juga.
Jawaban:
Mereka terutama berbeda dalam fungsi tautan.
Di Logit:Pr ( Y= 1 ∣ X) = [ 1 + e- X′β]- 1
Dalam Probit: (pdf normal kumulatif)Pr ( Y= 1 ∣ X) = Φ ( X′β)
Dengan kata lain, logistik memiliki ekor yang sedikit lebih rata. yaitu kurva probit mendekati sumbu lebih cepat dari kurva logit.
Logit memiliki interpretasi yang lebih mudah daripada probit. Regresi logistik dapat diartikan sebagai pemodelan peluang log (yaitu mereka yang merokok> 25 batang rokok sehari 6 kali lebih mungkin meninggal sebelum usia 65 tahun). Biasanya orang memulai pemodelan dengan logit. Anda bisa menggunakan nilai kemungkinan masing-masing model untuk memutuskan logit vs probit.
sumber
Model linear standar (misalnya, model regresi sederhana) dapat dianggap memiliki dua 'bagian'. Ini disebut komponen struktural dan komponen acak . Contohnya: Dua istilah pertama (yaitu, ) merupakan komponen struktural, dan (yang menunjukkan istilah kesalahan yang terdistribusi normal) adalah komponen acak. Ketika variabel respons tidak terdistribusi secara normal (misalnya, jika variabel respons Anda adalah biner) pendekatan ini mungkin tidak lagi valid. The model linier umum
β 0 + β 1 X ε g ( μ ) = β 0 + β 1 X β 0 + β 1 X g ( ) μ
Fungsi tautan adalah kunci untuk GLiMs: karena distribusi variabel respons tidak normal, itu yang memungkinkan kita menghubungkan komponen struktural ke respons - itu 'menghubungkan' mereka (maka namanya). Ini juga merupakan kunci untuk pertanyaan Anda, karena logit dan probit adalah tautan (seperti yang dijelaskan @vinux), dan memahami fungsi tautan akan memungkinkan kami untuk secara cerdas memilih kapan akan menggunakan yang mana. Meskipun ada banyak fungsi tautan yang dapat diterima, seringkali ada satu yang istimewa. Tanpa ingin terlalu jauh ke dalam gulma (ini bisa menjadi sangat teknis) rata-rata yang diprediksi, , tidak harus secara matematis sama dengan parameter lokasi kanonik distribusi respons ;β ( 0 , 1 ) ln ( - ln ( 1 - μ ) )μ . Keuntungan dari ini "adalah bahwa statistik minimum yang memadai untuk ada" ( German Rodriguez ). Tautan kanonik untuk data respons biner (lebih khusus lagi, distribusi binomial) adalah logit. Namun, ada banyak fungsi yang dapat memetakan komponen struktural ke interval , dan dengan demikian dapat diterima; probit juga populer, tetapi masih ada opsi lain yang kadang-kadang digunakan (seperti log log komplementer, , sering disebut 'cloglog'). Dengan demikian, ada banyak fungsi tautan yang memungkinkan dan pemilihan fungsi tautan bisa sangat penting. Pilihan harus dibuat berdasarkan beberapa kombinasi dari: β (0,1) ln(−ln(1−μ))
Setelah membahas sedikit latar belakang konseptual yang diperlukan untuk memahami ide-ide ini dengan lebih jelas (maafkan saya), saya akan menjelaskan bagaimana pertimbangan ini dapat digunakan untuk memandu pilihan tautan Anda. (Biarkan saya perhatikan bahwa menurut saya komentar @ David secara akurat menangkap mengapa berbagai tautan dipilih dalam praktik .) Untuk memulainya, jika variabel respons Anda adalah hasil dari percobaan Bernoulli (yaitu, atau ), distribusi respons Anda akan menjadi binomial, dan apa yang sebenarnya Anda modelkan adalah probabilitas pengamatan menjadi (yaitu, ). Akibatnya, fungsi apa pun yang memetakan garis bilangan real, , hingga interval1 1 π ( Y = 1 ) ( - ∞ , + ∞ ) ( 0 , 1 )0 1 1 π(Y=1) (−∞,+∞) (0,1) akan bekerja.
Dari sudut pandang teori substantif Anda, jika Anda berpikir tentang kovariat Anda terhubung langsung dengan probabilitas keberhasilan, maka Anda biasanya akan memilih regresi logistik karena itu adalah tautan kanonik. Namun, pertimbangkan contoh berikut: Anda diminta untuk membuat model
high_Blood_Pressure
sebagai fungsi dari beberapa kovariat. Tekanan darah itu sendiri secara normal terdistribusi dalam populasi (saya tidak benar-benar tahu itu, tetapi tampaknya masuk akal prima facie), meskipun demikian, dokter mendikotomasinya selama penelitian (yaitu, mereka hanya mencatat 'BP tinggi' atau 'normal' ). Dalam hal ini, probit akan lebih disukai a-priori karena alasan teoretis. Inilah yang @Elvis maksud dengan "hasil biner Anda bergantung pada variabel Gaussian tersembunyi".simetris , jika Anda percaya bahwa probabilitas keberhasilan meningkat perlahan dari nol, tetapi kemudian berkurang dengan cepat ketika mendekati satu, cloglog diperlukan, dll.Terakhir, perhatikan bahwa kesesuaian empiris model terhadap data tidak mungkin membantu dalam memilih tautan, kecuali jika bentuk fungsi tautan tersebut berbeda secara substansial (di mana, logit dan probit tidak). Misalnya, perhatikan simulasi berikut:
Bahkan ketika kita tahu data dihasilkan oleh model probit, dan kami memiliki 1000 poin data, model probit hanya menghasilkan kecocokan yang lebih baik 70% dari waktu, dan bahkan kemudian, sering kali hanya dengan jumlah yang sepele. Pertimbangkan iterasi terakhir:
Alasannya adalah fungsi logit dan link probit menghasilkan output yang sangat mirip ketika diberi input yang sama.
Fungsi logit dan probit praktis identik, kecuali bahwa logit sedikit lebih jauh dari batas ketika mereka 'berbelok', seperti yang dinyatakan @vinux. (Perhatikan bahwa untuk mendapatkan logit dan probit untuk menyelaraskan secara optimal, logit harus kali nilai kemiringan yang sesuai untuk probit. Selain itu, saya bisa menggeser cloglog sedikit sehingga mereka akan berada di atas satu sama lain lebih banyak, tetapi saya meninggalkannya ke samping untuk menjaga angka lebih mudah dibaca.) Perhatikan bahwa cloglog asimetris sedangkan yang lain tidak; itu mulai menjauh dari 0 sebelumnya, tetapi lebih lambat, dan mendekati mendekati 1 dan kemudian berbelok tajam. ≈ 1.7β1 ≈1.7
Beberapa hal lagi dapat dikatakan tentang fungsi tautan. Pertama, mempertimbangkan fungsi identitas ( ) sebagai fungsi tautan memungkinkan kita untuk memahami model linier standar sebagai kasus khusus dari model linier umum (yaitu, distribusi respons normal, dan tautan adalah fungsi identitas). Penting juga untuk mengenali bahwa transformasi apa pun yang digunakan instantiate tautan diterapkan dengan benar ke parameter yang mengatur distribusi respons (yaitu, ), bukan data respons aktualμ μ = g - 1 ( β 0 + β 1 X ) π ( Y ) = exp ( β 0 + β 1 X )g(η)=η μ . Akhirnya, karena dalam praktiknya kita tidak pernah memiliki parameter mendasar untuk ditransformasikan, dalam diskusi model-model ini, seringkali apa yang dianggap sebagai tautan aktual dibiarkan tersirat dan model diwakili oleh kebalikan dari fungsi tautan yang diterapkan pada komponen struktural. . Yaitu:
Misalnya, regresi logistik biasanya diwakili:
alih-alih:
Untuk tinjauan singkat dan jelas, tetapi solid, dari model linier umum, lihat bab 10 dari Fitzmaurice, Laird, & Ware (2004) , (di mana saya bersandar pada bagian dari jawaban ini, meskipun karena ini adalah adaptasi saya sendiri untuk itu --dan lainnya - materi, kesalahan akan menjadi milik saya). Untuk bagaimana agar sesuai dengan model-model ini di R, periksa dokumentasi untuk fungsi ? Glm dalam paket dasar.
(Satu catatan terakhir ditambahkan kemudian :) Saya kadang-kadang mendengar orang mengatakan bahwa Anda tidak boleh menggunakan probit, karena tidak dapat diartikan. Ini tidak benar, meskipun interpretasi dari beta kurang intuitif. Dengan regresi logistik, satu unit perubahan dalam dikaitkan dengan perubahan dalam peluang log 'sukses' (atau, perubahan dalam odds), semuanya sama. Dengan probit, ini akan menjadi perubahan dari 's. (Pikirkan dua pengamatan dalam dataset dengan nilai 1 dan 2, misalnya.) Untuk mengubahnya menjadi probabilitas yang diprediksi , Anda dapat meneruskannya melalui CDF normal.β 1 exp ( β 1 ) β 1 z z zX1 β1 exp(β1) β1 z z , atau cari di -tabel. z
(+1 ke @vinux dan @Elvis. Di sini saya telah mencoba memberikan kerangka kerja yang lebih luas untuk memikirkan hal-hal ini dan kemudian menggunakannya untuk membahas pilihan antara logit dan probit.)
sumber
Selain jawaban vinux, yang sudah memberi tahu yang paling penting:
koefisien dalam regresi logit memiliki interpretasi alami dalam hal rasio odds;β
regresi probistic adalah model alami ketika Anda berpikir bahwa hasil biner Anda bergantung pada variabel gaussian tersembunyi [eq. 1] dengan secara deterministik: tepat ketika .Z=X′β+ϵ ϵ∼N(0,1) Y=1 Z>0
Lebih umum, dan lebih alami, regresi probistic adalah model yang lebih alami jika Anda berpikir bahwa hasilnya adalah tepat ketika beberapa melebihi ambang , dengan . Mudah untuk melihat bahwa ini dapat direduksi menjadi kasus yang disebutkan di atas: cukup karena ; mudah untuk memeriksa persamaan itu [mis. 1] masih memegang (skala ulang koefisien dan menerjemahkan intersep). Model-model ini telah dipertahankan, misalnya, dalam konteks medis, di mana akan menjadi variabel kontinu yang tidak teramati, dan misalnya penyakit yang muncul ketika1 Z0=X′β0+ϵ0 c ϵ∼N(0,σ2) Z0 Z=1σ(Z0−c) Z0 Y Z0 melebihi beberapa "ambang patologis".
Kedua model logit dan probit hanya model . "Semua model salah, ada yang berguna", seperti yang pernah dikatakan Box! Kedua model akan memungkinkan Anda untuk mendeteksi keberadaan efek pada hasil ; kecuali dalam beberapa kasus yang sangat khusus, tidak satu pun dari mereka akan "benar benar", dan interpretasi mereka harus dilakukan dengan hati-hati.X Y
sumber
Mengenai pernyataan Anda
Saya lebih tertarik di sini untuk mengetahui kapan harus menggunakan regresi logistik, dan kapan harus menggunakan probit
Sudah ada banyak jawaban di sini yang memunculkan hal-hal untuk dipertimbangkan ketika memilih antara keduanya tetapi ada satu pertimbangan penting yang belum dinyatakan: Ketika minat Anda dalam melihat asosiasi dalam-cluster dalam data biner menggunakan logistik efek campuran atau model probit, ada landasan teoretis untuk lebih memilih model probit. Ini, tentu saja, dengan asumsi bahwa tidak ada alasan apriori untuk memilih model logistik (misalnya jika Anda melakukan simulasi dan mengetahuinya sebagai model yang sebenarnya).
Pertama , Untuk melihat mengapa ini benar, perhatikan pertama bahwa kedua model ini dapat dipandang sebagai model regresi kontinu berkelanjutan. Sebagai contoh, pertimbangkan model efek campuran linier sederhana untuk observasi dalam klaster :i j
mana adalah cluster efek acak dan adalah istilah kesalahan. Kemudian kedua model regresi logistik dan probit dirumuskan secara setara sebagai yang dihasilkan dari model ini dan ambang batas pada 0:ηj∼N(0,σ2) j εij
Jika istilah terdistribusi normal, Anda memiliki regresi probit dan jika terdistribusi secara logistik, Anda memiliki model regresi logistik. Karena skala tidak teridentifikasi, kesalahan residual ini masing-masing ditetapkan sebagai standar normal dan standar logistik.εij
Pearson (1900) menunjukkan bahwa jika data normal multivariat dihasilkan dan ambang batas untuk dikategorikan, korelasi antara variabel yang mendasarinya masih diidentifikasi secara statistik - korelasi ini disebut korelasi polikorik dan, khusus untuk kasus biner, mereka disebut korelasi tetrachoric . Ini berarti bahwa, dalam model probit, koefisien korelasi intraclass dari variabel yang terdistribusi normal:
diidentifikasi yang berarti bahwa dalam kasus probit Anda dapat sepenuhnya mencirikan distribusi bersama variabel laten yang mendasarinya .
Dalam model logistik varians efek acak dalam model logistik masih diidentifikasi tetapi tidak sepenuhnya mencirikan struktur ketergantungan (dan karena itu distribusi bersama), karena merupakan campuran antara normal dan variabel acak logistik yang tidak memiliki properti yang sepenuhnya ditentukan oleh mean dan matriks kovariansnya. Memperhatikan asumsi parametrik ganjil ini untuk variabel laten yang mendasari membuat interpretasi efek acak dalam model logistik kurang jelas untuk ditafsirkan secara umum.
sumber
Poin penting yang belum dibahas dalam jawaban sebelumnya (sangat baik) adalah langkah estimasi aktual. Model multinomial logit memiliki PDF yang mudah diintegrasikan, yang mengarah ke ekspresi bentuk-tertutup dari probabilitas pilihan. Fungsi kepadatan distribusi normal tidak begitu mudah diintegrasikan, sehingga model probit biasanya memerlukan simulasi. Jadi sementara kedua model adalah abstraksi dari situasi dunia nyata, logit biasanya lebih cepat digunakan pada masalah yang lebih besar (beberapa alternatif atau kumpulan data besar).
Untuk melihat ini lebih jelas, probabilitas hasil tertentu yang dipilih adalah fungsi dari variabel prediktor dan istilah kesalahan (mengikuti Train )x ε
I f ( x )
Tidak ada bentuk yang mudah digunakan untuk model probit.
sumber
Apa yang akan saya katakan sama sekali tidak membatalkan apa yang telah dikatakan sejauh ini. Saya hanya ingin menunjukkan bahwa model probit tidak menderita dari asumsi IIA (Independensi Alternatif yang Tidak Relevan), dan model logit tidak.
Untuk menggunakan contoh dari buku Train yang luar biasa. Jika saya memiliki logit yang memprediksi apakah saya akan naik bus biru atau mengemudi di mobil saya, menambahkan bus merah akan menarik dari kedua mobil dan bus biru secara proporsional. Tetapi menggunakan model probit Anda dapat menghindari masalah ini. Intinya, alih-alih menggambar dari keduanya secara proporsional, Anda dapat menarik lebih banyak dari bus biru karena mereka lebih dekat sebagai pengganti.
Pengorbanan yang Anda lakukan adalah bahwa tidak ada solusi bentuk tertutup, seperti yang ditunjukkan di atas. Probit cenderung menjadi kebohongan saya ketika saya khawatir tentang masalah IIA. Itu bukan untuk mengatakan bahwa tidak ada cara untuk berkeliling IIA dalam kerangka kerja logit (distribusi GEV). Tapi saya selalu melihat model seperti ini sebagai cara yang kikuk untuk menyelesaikan masalah. Dengan kecepatan komputasi yang bisa Anda dapatkan, saya akan mengatakan pergi dengan probit.
sumber
Salah satu perbedaan yang paling terkenal antara logit dan probit adalah distribusi residual (teoretis) regresi: normal untuk probit, logistik untuk logit (silakan lihat: Koop G. Pengantar Ekonometrika Chichester, Wiley: 2008: 280).
sumber
Saya menawarkan jawaban praktis untuk pertanyaan itu, yang hanya berfokus pada "kapan menggunakan regresi logistik, dan kapan menggunakan probit", tanpa masuk ke detail statistik, tetapi lebih fokus pada keputusan berdasarkan statistik. Jawabannya tergantung pada dua hal utama: apakah Anda memiliki preferensi disiplin, dan apakah Anda hanya peduli model mana yang lebih cocok dengan data Anda?
Perbedaan mendasar
Kedua model logit dan probit menyediakan model statistik yang memberikan probabilitas bahwa variabel respon dependen adalah 0 atau 1. Mereka sangat mirip dan sering memberikan hasil yang hampir sama, tetapi karena mereka menggunakan fungsi yang berbeda untuk menghitung probabilitas, hasilnya kadang-kadang sedikit berbeda.
Preferensi disipliner
Beberapa disiplin akademis umumnya lebih suka satu atau yang lain. Jika Anda akan mempublikasikan atau mempresentasikan hasil Anda ke disiplin akademis dengan preferensi tradisional tertentu, maka biarkan yang menentukan pilihan Anda sehingga temuan Anda akan lebih mudah diterima. Misalnya (dari Metode Konsultan ),
Intinya adalah bahwa perbedaan dalam hasil sangat kecil sehingga kemampuan untuk audiens umum Anda untuk memahami hasil Anda lebih besar daripada perbedaan kecil antara dua pendekatan.
Jika semua yang Anda pedulikan lebih cocok ...
Jika penelitian Anda dalam disiplin yang tidak suka satu atau yang lain, maka studi saya tentang pertanyaan ini (yang lebih baik, logit atau probit) telah membuat saya menyimpulkan bahwa umumnya lebih baik menggunakan probit , karena hampir selalu akan memberikan kecocokan statistik untuk data yang sama atau lebih unggul dari model logit. Pengecualian yang paling menonjol ketika model logit memberikan kecocokan yang lebih baik adalah dalam kasus "variabel independen ekstrim" (yang saya jelaskan di bawah).
Kesimpulan saya didasarkan hampir seluruhnya (setelah mencari berbagai sumber lain) pada Hahn, ED & Soyer, R., 2005. Model probit dan logit: Perbedaan dalam ranah multivarian. Tersedia di: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Berikut ini ringkasan kesimpulan keputusan praktis dari artikel ini mengenai apakah model multivariat logit versus probit memberikan kecocokan yang lebih baik terhadap data (kesimpulan ini juga berlaku untuk model univariat, tetapi hanya mensimulasikan efek untuk dua variabel independen):
Dalam sebagian besar skenario, model logit dan probit cocok data dengan sama baiknya, dengan dua pengecualian berikut.
Logit jelas lebih baik dalam kasus "variabel independen ekstrim" . Ini adalah variabel independen di mana satu nilai terutama besar atau kecil akan sangat sering menentukan apakah variabel dependen adalah 0 atau 1, menimpa efek dari sebagian besar variabel lain. Hahn dan Soyer secara resmi mendefinisikannya demikian (hlm. 4):
Berdasarkan analisis Hahn dan Soyer, kesimpulan saya adalah untuk selalu menggunakan model probit kecuali dalam kasus variabel independen ekstrim, di mana logit kasus harus dipilih . Variabel independen ekstrim tidak terlalu umum, dan harusnya mudah dikenali. Dengan aturan praktis ini, tidak masalah apakah model tersebut adalah model efek acak atau tidak. Dalam kasus di mana model adalah model efek acak (di mana probit lebih disukai) tetapi ada variabel independen yang ekstrim (di mana logit lebih disukai), meskipun Hahn dan Soyer tidak mengomentari ini, kesan saya dari artikel mereka adalah bahwa efek dari variabel independen ekstrim lebih dominan, dan logit akan lebih disukai.
sumber
Di bawah ini, saya menjelaskan penduga bahwa sarang probit dan logit sebagai kasus khusus dan di mana seseorang dapat menguji mana yang lebih tepat.
Baik probit dan logit dapat bersarang dalam model variabel laten,
dimana komponen yang diamati adalah
Di Klein & Spady, fungsi kriteria sebaliknya
sumber
Mereka sangat mirip.
Atau yang setara:
Perbedaan antara logistik dan probit terletak pada perbedaan antara distribusi logistik dan normal. Tidak banyak. Setelah disesuaikan, mereka terlihat seperti itu:
Logistik memiliki ekor lebih berat. Ini mungkin berdampak sedikit bagaimana peristiwa kecil (<1%) atau tinggi (> 99%) dipasangkan. Secara praktis, perbedaannya bahkan tidak terlihat dalam kebanyakan situasi: logit dan probit pada dasarnya memprediksi hal yang sama. Lihat http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
"Secara filosofis", regresi logistik dapat dibenarkan dengan setara dengan prinsip entropi maksimum: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regress-and-maximum -entropi-model /
Dalam hal perhitungan: logistik lebih sederhana karena distribusi kumulatif dari distribusi logistik memiliki formula tertutup tidak seperti distribusi normal. Tetapi distribusi normal memiliki sifat yang baik ketika Anda pergi ke multi-dimensi, inilah sebabnya probit sering lebih disukai dalam kasus-kasus lanjutan.
sumber