Perbedaan antara model logit dan probit

299

Apa perbedaan antara model Logit dan Probit ?

Saya lebih tertarik di sini untuk mengetahui kapan harus menggunakan regresi logistik, dan kapan harus menggunakan Probit.

Jika ada literatur yang mendefinisikannya menggunakan R , itu akan sangat membantu juga.

r generalized-linear-model logistic probit link-function Beta
sumber

5

Hampir tidak ada perbedaan antara hasil keduanya (lihat Paap & Franses 2000)

1

Saya pernah memiliki dataset (bioassay) yang luas di mana kita bisa melihat probit dipasang sedikit lebih baik, tapi itu tidak membuat perbedaan untuk kesimpulan.

kjetil b halvorsen

1

@Alyas Shah: dan itulah penjelasan mengapa dengan data saya probit lebih cocok (sedikit) --- karena di atas dosis tertentu, mortalitas adalah 100%, dan di bawah beberapa treshold, mortalitas adalah 0%, jadi kita tidak melihat pendekatan yang lambat dari logit!

kjetil b halvorsen

3

Untuk data nyata, dengan oposisi dengan data yang dihasilkan dari logit atau probit, pendekatan perhatian terhadap masalah ini adalah dengan menjalankan perbandingan model. Dalam pengalaman saya, data jarang condong ke salah satu dari dua model.

Xi'an

2

Saya pernah mendengar bahwa penggunaan praktis dari distribusi logistik berasal dari kemiripannya dengan CDF normal dan fungsi distribusi kumulatifnya yang jauh lebih sederhana. Memang CDF normal mengandung integral yang harus dievaluasi - yang saya kira secara komputasi mahal kembali pada hari-hari.

dv_bn

144

Mereka terutama berbeda dalam fungsi tautan.

Di Logit: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1}$

Dalam Probit: (pdf normal kumulatif) $\Pr(Y=1 \mid X) = \Phi(X'\beta)$

Dengan kata lain, logistik memiliki ekor yang sedikit lebih rata. yaitu kurva probit mendekati sumbu lebih cepat dari kurva logit.

Logit memiliki interpretasi yang lebih mudah daripada probit. Regresi logistik dapat diartikan sebagai pemodelan peluang log (yaitu mereka yang merokok> 25 batang rokok sehari 6 kali lebih mungkin meninggal sebelum usia 65 tahun). Biasanya orang memulai pemodelan dengan logit. Anda bisa menggunakan nilai kemungkinan masing-masing model untuk memutuskan logit vs probit.

vinux
sumber

6

Terima kasih atas jawaban Anda, Vinux. Tapi saya juga ingin tahu kapan harus menggunakan logit, dan menggunakan probit. Saya tahu logit lebih populer daripada probit, dan sebagian besar kasus kami menggunakan regresi logit. Tetapi ada beberapa kasus di mana model Probit lebih berguna. Bisakah Anda memberi tahu saya kasus apa itu? Dan bagaimana membedakan kasus tersebut dari kasus biasa.

Beta

5

Ketika Anda prihatin dengan bagian ekor kurva, kadang-kadang pemilihan logit atau masalah probit. Tidak ada aturan pasti untuk memilih probit atau logit. Anda dapat memilih model dengan melihat kemungkinan (atau kemungkinan log) atau AIC.

vinux

12

Terima kasih atas sarannya! Bisakah Anda menguraikan cara memilih antara logit vs probit? Khususnya: (1) Bagaimana saya tahu ketika Anda prihatin dengan bagian ekor kurva? (2) Bagaimana cara memilih model dengan melihat kemungkinan, kemungkinan log, atau AIC? Apa yang harus saya perhatikan secara spesifik, dan bagaimana hal ini memengaruhi keputusan saya tentang model mana yang akan digunakan?

DW

Nah, bisakah Anda memberikan contoh di mana logit gagal dibandingkan dengan probit? Saya tidak dapat menemukan yang ada dalam pikiran Anda.

Wok

1

@flies Berikut menunjukkan transpos dari matriks .

X^{'}

$X'$

X

$X$

Mathemanic

445

Model linear standar (misalnya, model regresi sederhana) dapat dianggap memiliki dua 'bagian'. Ini disebut komponen struktural dan komponen acak . Contohnya: Dua istilah pertama (yaitu, ) merupakan komponen struktural, dan (yang menunjukkan istilah kesalahan yang terdistribusi normal) adalah komponen acak. Ketika variabel respons tidak terdistribusi secara normal (misalnya, jika variabel respons Anda adalah biner) pendekatan ini mungkin tidak lagi valid. The model linier umum

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal{N}(0,\sigma^2)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

ε

$\varepsilon$ (GLiM) dikembangkan untuk mengatasi kasus-kasus seperti itu, dan model logit dan probit adalah kasus khusus GLiM yang sesuai untuk variabel biner (atau variabel respons multi-kategori dengan beberapa adaptasi pada proses). GLiM memiliki tiga bagian, komponen struktural , fungsi tautan , dan distribusi respons . Sebagai contoh: Di sini lagi-lagi komponen struktural, adalah fungsi tautan, dan

g (μ) = β_{0} + β_{1} X

$g(\mu)=\beta_0+\beta_1X$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

g ()

$g()$

μ

$\mu$ adalah rata-rata dari distribusi respon bersyarat pada titik tertentu dalam ruang kovariat. Cara kita berpikir tentang komponen struktural di sini tidak benar-benar berbeda dari bagaimana kita memikirkannya dengan model linier standar; pada kenyataannya, itulah salah satu keuntungan besar GLIM. Karena untuk banyak distribusi, varians adalah fungsi dari mean, yang sesuai dengan mean bersyarat (dan mengingat Anda menetapkan distribusi respons), Anda telah secara otomatis menghitung analog dari komponen acak dalam model linier (NB: ini dapat lebih rumit dalam praktiknya).

Fungsi tautan adalah kunci untuk GLiMs: karena distribusi variabel respons tidak normal, itu yang memungkinkan kita menghubungkan komponen struktural ke respons - itu 'menghubungkan' mereka (maka namanya). Ini juga merupakan kunci untuk pertanyaan Anda, karena logit dan probit adalah tautan (seperti yang dijelaskan @vinux), dan memahami fungsi tautan akan memungkinkan kami untuk secara cerdas memilih kapan akan menggunakan yang mana. Meskipun ada banyak fungsi tautan yang dapat diterima, seringkali ada satu yang istimewa. Tanpa ingin terlalu jauh ke dalam gulma (ini bisa menjadi sangat teknis) rata-rata yang diprediksi, , tidak harus secara matematis sama dengan parameter lokasi kanonik distribusi respons ; $\mu$ . Keuntungan dari ini "adalah bahwa statistik minimum yang memadai untuk ada" ( German Rodriguez ). Tautan kanonik untuk data respons biner (lebih khusus lagi, distribusi binomial) adalah logit. Namun, ada banyak fungsi yang dapat memetakan komponen struktural ke interval , dan dengan demikian dapat diterima; probit juga populer, tetapi masih ada opsi lain yang kadang-kadang digunakan (seperti log log komplementer, , sering disebut 'cloglog'). Dengan demikian, ada banyak fungsi tautan yang memungkinkan dan pemilihan fungsi tautan bisa sangat penting. Pilihan harus dibuat berdasarkan beberapa kombinasi dari: $\beta$ $(0,1)$ $\ln(-\ln(1-\mu))$

Pengetahuan tentang distribusi respons,
Pertimbangan teoretis, dan
Empiris cocok dengan data.

Setelah membahas sedikit latar belakang konseptual yang diperlukan untuk memahami ide-ide ini dengan lebih jelas (maafkan saya), saya akan menjelaskan bagaimana pertimbangan ini dapat digunakan untuk memandu pilihan tautan Anda. (Biarkan saya perhatikan bahwa menurut saya komentar @ David secara akurat menangkap mengapa berbagai tautan dipilih dalam praktik .) Untuk memulainya, jika variabel respons Anda adalah hasil dari percobaan Bernoulli (yaitu, atau ), distribusi respons Anda akan menjadi binomial, dan apa yang sebenarnya Anda modelkan adalah probabilitas pengamatan menjadi (yaitu, ). Akibatnya, fungsi apa pun yang memetakan garis bilangan real, , hingga interval $0$ $1$ $1$ $\pi(Y=1)$ $(-\infty,+\infty)$ $(0,1)$ akan bekerja.

Dari sudut pandang teori substantif Anda, jika Anda berpikir tentang kovariat Anda terhubung langsung dengan probabilitas keberhasilan, maka Anda biasanya akan memilih regresi logistik karena itu adalah tautan kanonik. Namun, pertimbangkan contoh berikut: Anda diminta untuk membuat model high_Blood_Pressuresebagai fungsi dari beberapa kovariat. Tekanan darah itu sendiri secara normal terdistribusi dalam populasi (saya tidak benar-benar tahu itu, tetapi tampaknya masuk akal prima facie), meskipun demikian, dokter mendikotomasinya selama penelitian (yaitu, mereka hanya mencatat 'BP tinggi' atau 'normal' ). Dalam hal ini, probit akan lebih disukai a-priori karena alasan teoretis. Inilah yang @Elvis maksud dengan "hasil biner Anda bergantung pada variabel Gaussian tersembunyi".simetris , jika Anda percaya bahwa probabilitas keberhasilan meningkat perlahan dari nol, tetapi kemudian berkurang dengan cepat ketika mendekati satu, cloglog diperlukan, dll.

Terakhir, perhatikan bahwa kesesuaian empiris model terhadap data tidak mungkin membantu dalam memilih tautan, kecuali jika bentuk fungsi tautan tersebut berbeda secara substansial (di mana, logit dan probit tidak). Misalnya, perhatikan simulasi berikut:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Bahkan ketika kita tahu data dihasilkan oleh model probit, dan kami memiliki 1000 poin data, model probit hanya menghasilkan kecocokan yang lebih baik 70% dari waktu, dan bahkan kemudian, sering kali hanya dengan jumlah yang sepele. Pertimbangkan iterasi terakhir:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

Alasannya adalah fungsi logit dan link probit menghasilkan output yang sangat mirip ketika diberi input yang sama.

Masukkan deskripsi gambar di sini

Fungsi logit dan probit praktis identik, kecuali bahwa logit sedikit lebih jauh dari batas ketika mereka 'berbelok', seperti yang dinyatakan @vinux. (Perhatikan bahwa untuk mendapatkan logit dan probit untuk menyelaraskan secara optimal, logit harus kali nilai kemiringan yang sesuai untuk probit. Selain itu, saya bisa menggeser cloglog sedikit sehingga mereka akan berada di atas satu sama lain lebih banyak, tetapi saya meninggalkannya ke samping untuk menjaga angka lebih mudah dibaca.) Perhatikan bahwa cloglog asimetris sedangkan yang lain tidak; itu mulai menjauh dari 0 sebelumnya, tetapi lebih lambat, dan mendekati mendekati 1 dan kemudian berbelok tajam. $\beta_1$ $\approx 1.7$

Beberapa hal lagi dapat dikatakan tentang fungsi tautan. Pertama, mempertimbangkan fungsi identitas ( ) sebagai fungsi tautan memungkinkan kita untuk memahami model linier standar sebagai kasus khusus dari model linier umum (yaitu, distribusi respons normal, dan tautan adalah fungsi identitas). Penting juga untuk mengenali bahwa transformasi apa pun yang digunakan instantiate tautan diterapkan dengan benar ke parameter yang mengatur distribusi respons (yaitu, ), bukan data respons aktual $g(\eta)=\eta$ $\mu$ . Akhirnya, karena dalam praktiknya kita tidak pernah memiliki parameter mendasar untuk ditransformasikan, dalam diskusi model-model ini, seringkali apa yang dianggap sebagai tautan aktual dibiarkan tersirat dan model diwakili oleh kebalikan dari fungsi tautan yang diterapkan pada komponen struktural. . Yaitu: Misalnya, regresi logistik biasanya diwakili: alih-alih:

μ = g^{- 1} (β_{0} + β_{1} X)

$\mu=g^{-1}(\beta_0+\beta_1X)$

π (Y) = \frac{\exp (β_{0} + β_{1} X)}{1 + \exp (β_{0} + β_{1} X)}

$\pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)}$

\ln (\frac{π (Y)}{1 - π (Y)}) = β_{0} + β_{1} X

$\ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X$

Untuk tinjauan singkat dan jelas, tetapi solid, dari model linier umum, lihat bab 10 dari Fitzmaurice, Laird, & Ware (2004) , (di mana saya bersandar pada bagian dari jawaban ini, meskipun karena ini adalah adaptasi saya sendiri untuk itu --dan lainnya - materi, kesalahan akan menjadi milik saya). Untuk bagaimana agar sesuai dengan model-model ini di R, periksa dokumentasi untuk fungsi ? Glm dalam paket dasar.

(Satu catatan terakhir ditambahkan kemudian :) Saya kadang-kadang mendengar orang mengatakan bahwa Anda tidak boleh menggunakan probit, karena tidak dapat diartikan. Ini tidak benar, meskipun interpretasi dari beta kurang intuitif. Dengan regresi logistik, satu unit perubahan dalam dikaitkan dengan perubahan dalam peluang log 'sukses' (atau, perubahan dalam odds), semuanya sama. Dengan probit, ini akan menjadi perubahan dari 's. (Pikirkan dua pengamatan dalam dataset dengan nilai 1 dan 2, misalnya.) Untuk mengubahnya menjadi probabilitas yang diprediksi , Anda dapat meneruskannya melalui CDF normal. $X_1$ $\beta_1$ $\exp(\beta_1)$ $\beta_1\text{ }z$ $z$ , atau cari di -tabel. $z$

(+1 ke @vinux dan @Elvis. Di sini saya telah mencoba memberikan kerangka kerja yang lebih luas untuk memikirkan hal-hal ini dan kemudian menggunakannya untuk membahas pilihan antara logit dan probit.)

gung
sumber

79

Terima kasih kawan Saya senang ini datang bersama dengan baik; ini sebenarnya adalah contoh yang baik tentang bagaimana Anda dapat mempelajari hal-hal di CV dengan menjawab pertanyaan, serta bertanya & membaca jawaban orang lain: Saya tahu informasi ini sebelumnya, tetapi tidak cukup baik sehingga saya bisa menuliskannya dengan dingin. Jadi saya benar-benar meluangkan waktu untuk membaca teks lama saya untuk mencari tahu bagaimana mengatur materi & mengedepankannya dengan jelas, & dalam proses memperkuat ide-ide ini untuk diri saya sendiri.

gung

6

@ung Terima kasih atas penjelasan ini, ini adalah salah satu deskripsi paling jelas dari GLM secara umum yang saya temui.

Tanda

@whuber "Ketika variabel respons tidak terdistribusi secara normal (misalnya, jika variabel respons Anda adalah biner) pendekatan ini [OLS standar] mungkin tidak lagi valid." Maaf mengganggu Anda (lagi!) Dengan ini, tetapi saya merasa ini sedikit membingungkan. Saya mengerti bahwa tidak ada asumsi distribusi tanpa syarat pada variabel dependen dalam OLS. Apakah kutipan ini berarti menyiratkan bahwa karena responsnya sangat tidak normal (yaitu variabel biner) sehingga distribusi kondisionalnya diberikan (dan karenanya distribusi residu) tidak mungkin mendekati normalitas?

X

$X$

landroni

7

@ Landroni, Anda mungkin ingin mengajukan pertanyaan baru untuk ini. Singkatnya, jika respons Anda adalah biner, distribusi bersyarat Y yang diberikan X = xi tidak mungkin mendekati normalitas; itu akan selalu binomial. Distribusi residu mentah juga tidak akan pernah mendekati normalitas. Mereka akan selalu pi & (1-pi). The distribusi sampling dari mean bersyarat dari Y diberikan X = xi (yaitu, pi) akan mendekati normal, meskipun.

gung

2

Saya sedikit berbagi kekhawatiran landroni: setelah semua, hasil yang terdistribusi normal, residu tidak terdistribusi normal, dan hasil yang tidak terdistribusi normal mungkin memiliki residu terdistribusi normal. Masalah dengan hasil tampaknya kurang tentang distribusi per se , daripada jangkauannya.

Alexis

47

Selain jawaban vinux, yang sudah memberi tahu yang paling penting:

koefisien dalam regresi logit memiliki interpretasi alami dalam hal rasio odds; $\beta$
regresi probistic adalah model alami ketika Anda berpikir bahwa hasil biner Anda bergantung pada variabel gaussian tersembunyi [eq. 1] dengan secara deterministik: tepat ketika . $Z = X' \beta + \epsilon\$ $\epsilon \sim \mathcal N(0,1)$ $Y = 1$ $Z > 0$
Lebih umum, dan lebih alami, regresi probistic adalah model yang lebih alami jika Anda berpikir bahwa hasilnya adalah tepat ketika beberapa melebihi ambang , dengan . Mudah untuk melihat bahwa ini dapat direduksi menjadi kasus yang disebutkan di atas: cukup karena ; mudah untuk memeriksa persamaan itu [mis. 1] masih memegang (skala ulang koefisien dan menerjemahkan intersep). Model-model ini telah dipertahankan, misalnya, dalam konteks medis, di mana akan menjadi variabel kontinu yang tidak teramati, dan misalnya penyakit yang muncul ketika $1$ $Z_0 = X' \beta_0 + \epsilon_0$ $c$ $\epsilon \sim \mathcal N(0,\sigma^2)$ $Z_0$ $Z = {1\over \sigma}(Z_0-c)$ $Z_0$ $Y$ $Z_0$ melebihi beberapa "ambang patologis".

Kedua model logit dan probit hanya model . "Semua model salah, ada yang berguna", seperti yang pernah dikatakan Box! Kedua model akan memungkinkan Anda untuk mendeteksi keberadaan efek pada hasil ; kecuali dalam beberapa kasus yang sangat khusus, tidak satu pun dari mereka akan "benar benar", dan interpretasi mereka harus dilakukan dengan hati-hati. $X$ $Y$

Elvis
sumber

17

Perlu juga dicatat bahwa penggunaan model probit versus logit sangat dipengaruhi oleh tradisi disiplin. Sebagai contoh, ekonom tampaknya jauh lebih terbiasa melakukan analisis probit sementara para peneliti di bidang psikometrik lebih banyak mengandalkan model logit.

David

Apa model di balik membalik koin?

skan

32

Mengenai pernyataan Anda

Saya lebih tertarik di sini untuk mengetahui kapan harus menggunakan regresi logistik, dan kapan harus menggunakan probit

Sudah ada banyak jawaban di sini yang memunculkan hal-hal untuk dipertimbangkan ketika memilih antara keduanya tetapi ada satu pertimbangan penting yang belum dinyatakan: Ketika minat Anda dalam melihat asosiasi dalam-cluster dalam data biner menggunakan logistik efek campuran atau model probit, ada landasan teoretis untuk lebih memilih model probit. Ini, tentu saja, dengan asumsi bahwa tidak ada alasan apriori untuk memilih model logistik (misalnya jika Anda melakukan simulasi dan mengetahuinya sebagai model yang sebenarnya).

Pertama , Untuk melihat mengapa ini benar, perhatikan pertama bahwa kedua model ini dapat dipandang sebagai model regresi kontinu berkelanjutan. Sebagai contoh, pertimbangkan model efek campuran linier sederhana untuk observasi dalam klaster : $i$ $j$

y_{i j}^{⋆} = μ + η_{j} + ε_{i j}

$y^{\star}_{ij} = \mu + \eta_{j} + \varepsilon_{ij}$

mana adalah cluster efek acak dan adalah istilah kesalahan. Kemudian kedua model regresi logistik dan probit dirumuskan secara setara sebagai yang dihasilkan dari model ini dan ambang batas pada 0: $\eta_j \sim N(0,\sigma^2)$ $j$ $\varepsilon_{ij}$

y_{i j} = {\begin{cases} 1 & if y_{i j}^{⋆} \geq 0 \\ 0 & if y_{i j}^{⋆} < 0 \end{cases}

$y_{ij} = \begin{cases} 1 & \text{if} \ \ \ y^{\star}_{ij}≥0\\ \\ 0 &\text{if} \ \ \ y^{\star}_{ij}<0 \end{cases}$

Jika istilah terdistribusi normal, Anda memiliki regresi probit dan jika terdistribusi secara logistik, Anda memiliki model regresi logistik. Karena skala tidak teridentifikasi, kesalahan residual ini masing-masing ditetapkan sebagai standar normal dan standar logistik. $\varepsilon_{ij}$

Pearson (1900) menunjukkan bahwa jika data normal multivariat dihasilkan dan ambang batas untuk dikategorikan, korelasi antara variabel yang mendasarinya masih diidentifikasi secara statistik - korelasi ini disebut korelasi polikorik dan, khusus untuk kasus biner, mereka disebut korelasi tetrachoric . Ini berarti bahwa, dalam model probit, koefisien korelasi intraclass dari variabel yang terdistribusi normal:

I C C = \frac{{\hat{σ}}^{2}}{{\hat{σ}}^{2} + 1}

${\rm ICC} = \frac{ \hat{\sigma}^{2} }{\hat{\sigma}^{2} + 1 }$

diidentifikasi yang berarti bahwa dalam kasus probit Anda dapat sepenuhnya mencirikan distribusi bersama variabel laten yang mendasarinya .

Dalam model logistik varians efek acak dalam model logistik masih diidentifikasi tetapi tidak sepenuhnya mencirikan struktur ketergantungan (dan karena itu distribusi bersama), karena merupakan campuran antara normal dan variabel acak logistik yang tidak memiliki properti yang sepenuhnya ditentukan oleh mean dan matriks kovariansnya. Memperhatikan asumsi parametrik ganjil ini untuk variabel laten yang mendasari membuat interpretasi efek acak dalam model logistik kurang jelas untuk ditafsirkan secara umum.

Makro
sumber

6

Ada situasi-situasi lain di mana seseorang lebih memilih jalan keluar juga. Model pemilihan ekonometrik (yaitu Heckman) hanya terbukti menggunakan model probit. Saya kurang yakin akan hal ini, tetapi saya juga percaya beberapa model SEM di mana variabel biner bersifat endogen juga menggunakan model probit karena asumsi normalitas multivarian diperlukan untuk estimasi kemungkinan maksimum.

Andy W

1

@AndyW, Anda benar tentang SEM biner - dan itu terkait erat dengan poin yang saya buat di sini - estimasi (dan interpretasi berikutnya) di sana didukung oleh fakta bahwa korelasi yang mendasarinya diidentifikasi dan sepenuhnya menjadi ciri distribusi bersama .

Makro

29

Poin penting yang belum dibahas dalam jawaban sebelumnya (sangat baik) adalah langkah estimasi aktual. Model multinomial logit memiliki PDF yang mudah diintegrasikan, yang mengarah ke ekspresi bentuk-tertutup dari probabilitas pilihan. Fungsi kepadatan distribusi normal tidak begitu mudah diintegrasikan, sehingga model probit biasanya memerlukan simulasi. Jadi sementara kedua model adalah abstraksi dari situasi dunia nyata, logit biasanya lebih cepat digunakan pada masalah yang lebih besar (beberapa alternatif atau kumpulan data besar).

Untuk melihat ini lebih jelas, probabilitas hasil tertentu yang dipilih adalah fungsi dari variabel prediktor dan istilah kesalahan (mengikuti Train ) $x$ $\varepsilon$

P = \int I [ε > - β^{'} x] f (ε) d ε

$P = \int I[\varepsilon > -\beta'x] f(\varepsilon)d\varepsilon$ Di mana adalah fungsi indikator, 1 jika dipilih dan nol sebaliknya. Mengevaluasi integral ini sangat tergantung pada asumsi . Dalam model logit, ini adalah fungsi logistik, dan distribusi normal dalam model probit. Untuk model logit, ini menjadi

I

$I$

f (x)

$f(x)$

P = \int_{ε = - β^{'} x}^{\infty} f (ε) d ε = 1 - F (- β^{'} x) = 1 - \frac{1}{\exp (β^{'} x)}

$P=\int_{\varepsilon=-\beta'x}^{\infty} f(\varepsilon)d\varepsilon\\ = 1- F(-\beta'x) = 1-\dfrac{1}{\exp(\beta'x)}$

Tidak ada bentuk yang mudah digunakan untuk model probit.

gregmacfarlane
sumber

4

Inilah sebabnya mengapa fungsi multinomial logit digunakan secara klasik untuk memperkirakan masalah pilihan diskrit spasial, meskipun fenomena aktual lebih baik dimodelkan oleh sebuah probit.

Tanda

Bagaimana Anda memasukkan elemen spasial ke dalam model DC? Saya sangat tertarik.

gregmacfarlane

2

Tapi, dalam situasi pilihan, probit lebih fleksibel, jadi lebih dulu digunakan hari ini! multinomial logit menyiratkan asumsi tidak relevannya alternatif yang tidak relevan, yang tidak selalu dibenarkan secara empiris.

kjetil b halvorsen

1

Anda benar bahwa IIA tidak selalu dibenarkan, dan Anda juga benar bahwa dengan model penduga yang modern, model estimasi dapat diperkirakan dengan cepat. Tetapi model GEV menyelesaikan masalah IIA dan mungkin lebih baik mewakili struktur pilihan dalam situasi tertentu. Saya juga tidak yakin bahwa probit "lebih banyak digunakan hari ini;" di bidang saya (pemodelan transportasi), model probit tetap merupakan hal yang baru.

gregmacfarlane

13

Apa yang akan saya katakan sama sekali tidak membatalkan apa yang telah dikatakan sejauh ini. Saya hanya ingin menunjukkan bahwa model probit tidak menderita dari asumsi IIA (Independensi Alternatif yang Tidak Relevan), dan model logit tidak.

Untuk menggunakan contoh dari buku Train yang luar biasa. Jika saya memiliki logit yang memprediksi apakah saya akan naik bus biru atau mengemudi di mobil saya, menambahkan bus merah akan menarik dari kedua mobil dan bus biru secara proporsional. Tetapi menggunakan model probit Anda dapat menghindari masalah ini. Intinya, alih-alih menggambar dari keduanya secara proporsional, Anda dapat menarik lebih banyak dari bus biru karena mereka lebih dekat sebagai pengganti.

Pengorbanan yang Anda lakukan adalah bahwa tidak ada solusi bentuk tertutup, seperti yang ditunjukkan di atas. Probit cenderung menjadi kebohongan saya ketika saya khawatir tentang masalah IIA. Itu bukan untuk mengatakan bahwa tidak ada cara untuk berkeliling IIA dalam kerangka kerja logit (distribusi GEV). Tapi saya selalu melihat model seperti ini sebagai cara yang kikuk untuk menyelesaikan masalah. Dengan kecepatan komputasi yang bisa Anda dapatkan, saya akan mengatakan pergi dengan probit.

pengguna61417
sumber

1

Bisakah Anda menjelaskan "Kemandirian alternatif yang tidak relevan", tolong?

skan

3

Perhatikan bahwa masih mungkin untuk mengestimasi model probit multinomial yang memberlakukan varian asumsi IIA (seperti pada perintah mprobit di Stata). Untuk menghilangkan IIA dalam multinomial probit, Anda harus memodelkan matriks varians-kovarians dari kesalahan variabel laten untuk setiap alternatif dalam variabel respons.

Kenji

8

Salah satu perbedaan yang paling terkenal antara logit dan probit adalah distribusi residual (teoretis) regresi: normal untuk probit, logistik untuk logit (silakan lihat: Koop G. Pengantar Ekonometrika Chichester, Wiley: 2008: 280).

Carlo Lazzaro
sumber

2

tetapi bagaimana kita tahu apakah data kita harus memiliki distribusi residual normal atau logistik teoritis, misalnya ketika saya melempar koin.

skan

8

Saya menawarkan jawaban praktis untuk pertanyaan itu, yang hanya berfokus pada "kapan menggunakan regresi logistik, dan kapan menggunakan probit", tanpa masuk ke detail statistik, tetapi lebih fokus pada keputusan berdasarkan statistik. Jawabannya tergantung pada dua hal utama: apakah Anda memiliki preferensi disiplin, dan apakah Anda hanya peduli model mana yang lebih cocok dengan data Anda?

Perbedaan mendasar

Kedua model logit dan probit menyediakan model statistik yang memberikan probabilitas bahwa variabel respon dependen adalah 0 atau 1. Mereka sangat mirip dan sering memberikan hasil yang hampir sama, tetapi karena mereka menggunakan fungsi yang berbeda untuk menghitung probabilitas, hasilnya kadang-kadang sedikit berbeda.

Preferensi disipliner

Beberapa disiplin akademis umumnya lebih suka satu atau yang lain. Jika Anda akan mempublikasikan atau mempresentasikan hasil Anda ke disiplin akademis dengan preferensi tradisional tertentu, maka biarkan yang menentukan pilihan Anda sehingga temuan Anda akan lebih mudah diterima. Misalnya (dari Metode Konsultan ),

Logit - juga dikenal sebagai regresi logistik - lebih populer dalam ilmu kesehatan seperti epidemiologi sebagian karena koefisien dapat ditafsirkan dalam hal rasio odds. Model-model probit dapat digeneralisasi untuk menjelaskan varian kesalahan yang tidak konstan dalam pengaturan ekonometrik yang lebih maju (dikenal sebagai model probit heteroskedastik) dan karenanya digunakan dalam beberapa konteks oleh para ekonom dan ilmuwan politik.

Intinya adalah bahwa perbedaan dalam hasil sangat kecil sehingga kemampuan untuk audiens umum Anda untuk memahami hasil Anda lebih besar daripada perbedaan kecil antara dua pendekatan.

Jika semua yang Anda pedulikan lebih cocok ...

Jika penelitian Anda dalam disiplin yang tidak suka satu atau yang lain, maka studi saya tentang pertanyaan ini (yang lebih baik, logit atau probit) telah membuat saya menyimpulkan bahwa umumnya lebih baik menggunakan probit , karena hampir selalu akan memberikan kecocokan statistik untuk data yang sama atau lebih unggul dari model logit. Pengecualian yang paling menonjol ketika model logit memberikan kecocokan yang lebih baik adalah dalam kasus "variabel independen ekstrim" (yang saya jelaskan di bawah).

Kesimpulan saya didasarkan hampir seluruhnya (setelah mencari berbagai sumber lain) pada Hahn, ED & Soyer, R., 2005. Model probit dan logit: Perbedaan dalam ranah multivarian. Tersedia di: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Berikut ini ringkasan kesimpulan keputusan praktis dari artikel ini mengenai apakah model multivariat logit versus probit memberikan kecocokan yang lebih baik terhadap data (kesimpulan ini juga berlaku untuk model univariat, tetapi hanya mensimulasikan efek untuk dua variabel independen):

Dalam sebagian besar skenario, model logit dan probit cocok data dengan sama baiknya, dengan dua pengecualian berikut.
Logit jelas lebih baik dalam kasus "variabel independen ekstrim" . Ini adalah variabel independen di mana satu nilai terutama besar atau kecil akan sangat sering menentukan apakah variabel dependen adalah 0 atau 1, menimpa efek dari sebagian besar variabel lain. Hahn dan Soyer secara resmi mendefinisikannya demikian (hlm. 4):

Tingkat variabel independen yang ekstrim melibatkan pengaruh dari tiga peristiwa. Pertama, tingkat variabel independen ekstrim terjadi pada ekstrim atas atau bawah variabel independen. Misalnya, katakanlah variabel independen x mengambil nilai 1, 2, dan 3.2. Level variabel independen ekstrim akan melibatkan nilai-nilai pada x = 3,2 (atau x = 1). Kedua, proporsi yang substansial (misalnya, 60%) dari total n harus berada pada tingkat ini. Ketiga, probabilitas keberhasilan pada tingkat ini sendiri haruslah ekstrem (misalnya, lebih besar dari 99%).

Probit lebih baik dalam hal "model efek acak" dengan ukuran sampel sedang atau besar (sama dengan logit untuk ukuran sampel kecil). Untuk model efek tetap, probit dan logit sama baiknya. Saya tidak begitu mengerti apa yang dimaksud Hahn dan Soyer dengan "model efek acak" dalam artikel mereka. Meskipun banyak definisi yang ditawarkan ( seperti dalam pertanyaan Stack Exchange ) ini, definisi istilah tersebut sebenarnya ambigu dan tidak konsisten . Tetapi karena logit tidak pernah lebih tinggi dari probit dalam hal ini, intinya diperdebatkan dengan hanya memilih probit.

Berdasarkan analisis Hahn dan Soyer, kesimpulan saya adalah untuk selalu menggunakan model probit kecuali dalam kasus variabel independen ekstrim, di mana logit kasus harus dipilih . Variabel independen ekstrim tidak terlalu umum, dan harusnya mudah dikenali. Dengan aturan praktis ini, tidak masalah apakah model tersebut adalah model efek acak atau tidak. Dalam kasus di mana model adalah model efek acak (di mana probit lebih disukai) tetapi ada variabel independen yang ekstrim (di mana logit lebih disukai), meskipun Hahn dan Soyer tidak mengomentari ini, kesan saya dari artikel mereka adalah bahwa efek dari variabel independen ekstrim lebih dominan, dan logit akan lebih disukai.

Tripartio
sumber

5

Di bawah ini, saya menjelaskan penduga bahwa sarang probit dan logit sebagai kasus khusus dan di mana seseorang dapat menguji mana yang lebih tepat.

Baik probit dan logit dapat bersarang dalam model variabel laten,

y_{i}^{*} = x_{i} β + ε_{i}, ε_{i} \sim G (\cdot),

$y_i^* = x_i \beta + \varepsilon_i,\quad \varepsilon_i \sim G(\cdot),$

dimana komponen yang diamati adalah

y_{i} = 1 (y_{i}^{*} > 0) .

$y_i = \mathbb{1}(y_i^* > 0).$

$G$

ℓ (β) = y_{i} \log G (x_{i} β) + (1 - y_{i}) \log [1 - G (x_{i} β)] .

$\ell(\beta) = y_i \log G(x_i\beta) + (1-y_i) \log[1-G(x_i\beta)].$

$G$

Di Klein & Spady, fungsi kriteria sebaliknya

ℓ (β) = y_{i} \log \hat{G} (x_{i} β) + (1 - y_{i}) \log [1 - \hat{G} (x_{i} β)],

$\ell(\beta) = y_i \log \hat{G}(x_i\beta) + (1-y_i) \log[1-\hat{G}(x_i\beta)],$

$\hat{G}(\cdot)$

\hat{G} (z) = \sum_{i = 1}^{N} y_{i} \frac{K (\frac{z - x_{i} β}{h})}{\sum_{j = 1}^{N} K (\frac{z - x_{j} β}{h})},

$\hat{G}(z) = \sum_{i=1}^N y_i \frac{ K\left( \frac{z - x_i\beta}{h} \right)}{\sum_{j=1}^N K\left( \frac{z - x_j\beta}{h} \right)},$

$K$ $h$ $\beta$ $h$ $h$

$\hat{G}$ $i$ $h$

$G$ $\beta$ $G$

Superpronker
sumber

5

Mereka sangat mirip.

$Y=1$ $X$ $S$ $X$

P (Y = 1 | X) = P (S < β X)

$P(Y=1|X)=P(S<\beta X)$

Atau yang setara:

P (Y = 1 | X) = P (β X - S > 0)

$P(Y=1|X)=P(\beta X-S>0)$

$S$

$S$
$S$

$\beta$

$E=\beta X-S$ $X$ $-S$

$E>0$ $Y=1$
$E<0$ $Y=0$

Perbedaan antara logistik dan probit terletak pada perbedaan antara distribusi logistik dan normal. Tidak banyak. Setelah disesuaikan, mereka terlihat seperti itu:

Logistik memiliki ekor lebih berat. Ini mungkin berdampak sedikit bagaimana peristiwa kecil (<1%) atau tinggi (> 99%) dipasangkan. Secara praktis, perbedaannya bahkan tidak terlihat dalam kebanyakan situasi: logit dan probit pada dasarnya memprediksi hal yang sama. Lihat http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

"Secara filosofis", regresi logistik dapat dibenarkan dengan setara dengan prinsip entropi maksimum: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regress-and-maximum -entropi-model /

Dalam hal perhitungan: logistik lebih sederhana karena distribusi kumulatif dari distribusi logistik memiliki formula tertutup tidak seperti distribusi normal. Tetapi distribusi normal memiliki sifat yang baik ketika Anda pergi ke multi-dimensi, inilah sebabnya probit sering lebih disukai dalam kasus-kasus lanjutan.

Benoit Sanchez
sumber

Perbedaan antara model logit dan probit

Jawaban: