Mengapa menggunakan tautan logit dalam regresi beta?

14

Baru-baru ini, saya tertarik untuk mengimplementasikan model regresi beta, untuk hasil yang proporsional. Perhatikan bahwa hasil ini tidak akan masuk ke dalam konteks binomial, karena tidak ada konsep yang bermakna dari "kesuksesan" diskrit dalam konteks ini. Bahkan, hasilnya sebenarnya adalah proporsi durasi; pembilang menjadi jumlah detik saat kondisi tertentu aktif di atas jumlah total detik selama kondisi tersebut memenuhi syarat untuk aktif. Saya minta maaf atas masalah ini, tetapi saya tidak ingin terlalu fokus pada konteks yang tepat ini, karena saya menyadari ada berbagai cara proses semacam itu dapat dimodelkan selain regresi beta, dan untuk saat ini saya lebih tertarik secara khusus dalam teori pertanyaan yang muncul dalam upaya saya untuk menerapkan model seperti itu (meskipun saya, tentu saja,

Bagaimanapun, semua sumber daya yang saya dapat temukan telah mengindikasikan bahwa regresi beta biasanya cocok menggunakan tautan logit (atau probit / cloglog), dan parameter yang ditafsirkan sebagai perubahan dalam peluang log. Namun, saya belum menemukan referensi yang benar-benar memberikan justifikasi nyata mengapa seseorang ingin menggunakan tautan ini.

Kertas asli Ferrari & Cribari-Neto (2004) tidak memberikan pembenaran; mereka hanya mencatat bahwa fungsi logit adalah "sangat berguna", karena interpretasi rasio odds dari parameter eksponensial. Sumber-sumber lain menyinggung keinginan untuk memetakan dari interval (0,1) ke garis nyata. Namun, apakah kita perlu fungsi tautan untuk pemetaan seperti itu, mengingat kita sudah mengasumsikan distribusi beta? Apa manfaat yang disediakan fungsi tautan di atas dan di luar batasan yang dipaksakan dengan mengasumsikan distribusi beta sebagai permulaan?Saya telah menjalankan beberapa simulasi cepat dan belum melihat prediksi di luar interval (0,1) dengan tautan identitas, bahkan ketika mensimulasikan dari distribusi beta yang massa probabilitasnya sebagian besar dikelompokkan mendekati 0 atau 1, tetapi mungkin simulasi saya belum cukup umum untuk menangkap beberapa patologi.

Bagiku berdasarkan pada bagaimana individu, dalam praktiknya, menginterpretasikan estimasi parameter dari model regresi beta (yaitu sebagai rasio odds) bahwa mereka secara implisit membuat kesimpulan sehubungan dengan peluang "kesuksesan"; yaitu, mereka menggunakan regresi beta sebagai pengganti model binomial. Mungkin ini sesuai dalam beberapa konteks, mengingat hubungan antara distribusi beta dan binomial, tetapi bagi saya tampaknya ini lebih merupakan kasus khusus daripada yang umum. Dalam pertanyaan ini , sebuah jawaban diberikan untuk menafsirkan rasio odds sehubungan dengan proporsi berkelanjutan daripada hasilnya, tetapi bagi saya tampaknya tidak rumit untuk mencoba dan menafsirkan hal-hal dengan cara ini, yang bertentangan dengan menggunakan, katakanlah, log atau tautan identitas dan menafsirkan% perubahan atau pergeseran unit.

Jadi, mengapa kita menggunakan tautan logit untuk model regresi beta? Apakah ini hanya untuk kenyamanan, untuk menghubungkannya dengan model binomial?

Ryan Simmons
sumber

Jawaban:

8

Pembenaran fungsi tautan: Fungsi tautan memastikan bahwa semua nilai yang dipasang yang selalu di . Ini mungkin tidak terlalu penting di beberapa aplikasi, misalnya, karena prediksi atau hanya dievaluasi dalam sampel atau tidak terlalu dekat dengan 0 atau 1. Tetapi mungkin penting di beberapa aplikasi dan Anda biasanya tidak tahu sebelumnya apakah itu penting atau tidak. Masalah umum yang saya lihat meliputi: mengevaluasi prediksi nilai baru yang (sedikit) di luar kisaran sampel pembelajaran asli atau menemukan nilai awal yang cocok. Untuk yang terakhir pertimbangkan:μ = g - 1 ( x ß ) ( 0 , 1 ) xg(μ):(0,1)Rμ^=g1(xβ^)(0,1)x

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

Tetapi, tentu saja, seseorang dapat dengan mudah mencoba kedua opsi dan melihat apakah ada masalah dengan tautan identitas dan / atau apakah itu meningkatkan kecocokan model.

Interpretasi parameter: Saya setuju bahwa menafsirkan parameter dalam model dengan fungsi tautan lebih sulit daripada model dengan tautan identitas dan praktisi sering salah. Namun, saya juga sering melihat kesalahan interpretasi parameter dalam model probabilitas linier (regresi biner dengan tautan identitas, biasanya dengan kuadrat terkecil). Asumsi bahwa efek marginal konstan tidak dapat bertahan jika prediksi mendekati 0 atau 1 dan seseorang harus benar-benar berhati-hati. Misalnya, untuk pengamatan dengan peningkatan tidak dapat menyebabkan penurunan dari, katakanlah,x μ 0,02μ^=0.01xμ^0.02. Tapi ini sering diperlakukan sangat sembrono dalam skenario itu. Oleh karena itu, saya berpendapat bahwa untuk model respon terbatas, parameter dari fungsi tautan apa pun perlu ditafsirkan dengan hati-hati dan mungkin perlu latihan. Karenanya, saran saya yang biasa (seperti yang ditunjukkan dalam diskusi lain yang Anda tautkan dalam pertanyaan Anda) untuk melihat efek untuk konfigurasi minat yang mundur. Ini lebih mudah untuk ditafsirkan dan sering (tetapi tidak selalu) agak mirip (dari perspektif praktis) untuk fungsi tautan yang berbeda.

Achim Zeileis
sumber
10

Tidak benar bahwa regresi logistik hanya dapat digunakan untuk memodelkan data hasil biner. Model regresi logistik sesuai untuk data apa pun di mana 1) nilai hasil yang diharapkan mengikuti kurva logistik sebagai fungsi dari prediktor 2) varians dari hasil adalah hasil yang diharapkan satu kali dikurangi hasil yang diharapkan (atau sebagian daripadanya) 3) (konsekuensi 2) data berkisar antara 0 dan 1. Properti ini tentu berlaku untuk data Bernoulli. Tetapi seseorang harus melakukan beberapa statistik eksplorasi dan plot sebelum segera mendiskreditkan model logistik sebagai sarana yang layak (dan mudah diimplementasikan / dijelaskan) untuk menjawab pertanyaan ilmiah.

Model regresi logistik adalah kasus khusus dari model linier umum (GLM), yang berarti bahwa estimasi parameter dan inferensi yang konsisten diberikan oleh model. Model logistik digunakan untuk memodelkan proporsi, variabel ordinal, tingkat, nilai ujian, peringkat, dan segala macam hasil non-biner di beberapa tempat dalam literatur.

Maaf bahwa tanggapan ini tidak mengarahkan pertanyaan Anda nanti, tetapi menyatakan alasan sebelumnya memunculkan kesalahpahaman yang perlu ditangani.

Banyak pengguna R telah menyarankan bahwa "peringatan" yang berasal dari pemasangan respons berkelanjutan dengan model logistik harus ditekan. A "tengah jalan" cara adalah dengan perubahan family=binomialuntuk family=quasibinomial. Contoh simulasi data ini, pemasangan model, dan mendapatkan kesimpulan yang benar ditunjukkan di sini:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

Memberikan cakupan akurat 90% dari CI

AdamO
sumber
1
Saya sangat menghargai klarifikasi yang diberikan mengenai model regresi logistik. Anda benar bahwa itu adalah model yang lebih umum daripada yang sering diasumsikan. Saya ragu untuk menerima ini sebagai jawaban, karena tampaknya tidak cukup mengembangkan garis penalaran. Sepertinya Anda mengatakan bahwa kekhawatiran saya tentang tautan logit dalam model beta tidak berdasar, karena tautan logit berfungsi dengan baik pada data non-biner. Yang merupakan sikap yang masuk akal, tapi saya merasa tidak mengerti inti dari pertanyaan saya tentang mengapa kita menggunakan logit dalam model beta dan bagaimana menafsirkannya.
Ryan Simmons
1
@RyanSimmons Terima kasih atas umpan baliknya. Saya setuju dengan alasan Anda di sini. Saya pikir bahwa setiap "peluang untuk belajar" menjamin jawaban dan karenanya satu pertanyaan mungkin memiliki banyak jawaban yang mungkin dengan berbagai tingkat "kebenaran". Saya belum menyentuh pertanyaan Anda, yang merupakan pertanyaan yang bagus, jadi jawaban "yang tepat" mungkin muncul. Saya ingin tahu tentang hal ini sendiri, jadi saya mencoba membaca tentang masalah ini sedikit lagi.
AdamO