Regresi kuantitatif mengungkapkan hubungan yang berbeda pada kuantil yang berbeda: bagaimana?

8

Regresi kuantil (QR) kadang-kadang dikatakan untuk mengungkapkan hubungan yang berbeda antara variabel pada kuantil yang berbeda dari distribusi. Misalnya Le Cook et al. "Berpikir di luar rata-rata: panduan praktis untuk menggunakan metode regresi kuantil untuk penelitian layanan kesehatan" menyiratkan bahwa QR memungkinkan hubungan antara hasil yang menarik dan variabel penjelas menjadi tidak konstan di seluruh nilai variabel yang berbeda.

Namun, sejauh yang saya tahu, dalam model regresi linier standar dengan menjadi iid dan independen dari , penaksir QR untuk lereng

y=β0+βX+ε
εXβkonsisten untuk kemiringan populasi (yang unik dan tidak berubah di semua kuantil). Artinya, objek yang diestimasi selalu sama, terlepas dari kuantil. Diakui, ini bukan kasus untuk intersep, karena penaksir intersep QR bertujuan memperkirakan kuantil tertentu dari distribusi kesalahan. Secara bersama-sama, saya tidak melihat bagaimana hubungan yang berbeda antara variabel seharusnya diungkapkan pada berbagai kuantil melalui QR. Saya kira ini adalah properti dari model regresi linier standar daripada kesalahan dalam pemahaman saya, tetapi saya tidak yakin.

Saya kira situasinya berbeda ketika beberapa asumsi model linear standar dilanggar, misalnya dalam bentuk heteroskedastisitas bersyarat tertentu. Kemudian mungkin estimator kemiringan QR berkumpul untuk sesuatu yang lain dari kemiringan sebenarnya dari model linier dan entah bagaimana mengungkapkan hubungan yang berbeda pada kuantil yang berbeda.

Apa yang salah? Bagaimana seharusnya saya memahami / menafsirkan klaim bahwa regresi kuantil mengungkapkan hubungan yang berbeda antara variabel-variabel pada kuantil yang berbeda?

Richard Hardy
sumber
1
Ada banyak cara untuk berpikir tentang QR. Salah satunya adalah itu adalah jenis regresi kernel di mana kernel adalah kuantil. Dengan cara ini adalah pendekatan nonparametrik dan kuat di mana solusi linier tidak dapat diasumsikan. Hyndman, et al, telah mengusulkan mendorong regresi kuantil adaptif sebagai kerangka kerja global untuk pemodelan berbasis QR. Salinan yang tidak disatukan di sini ... robjhyndman.com/papers/sig-alternate.pdf
Mike Hunter
1
@ Johnson, terima kasih. Saya kira saya terlalu dipengaruhi oleh makalah asli Koenker dan Bassett (1978) di mana motivasi semata-mata untuk menemukan penduga kemiringan yang kuat dalam model linier standar daripada memperoleh hubungan yang berbeda pada berbagai kuantil.
Richard Hardy
Tidak ada pertanyaan kecuali bahwa makalah seperti Koenker dan Bassett mempengaruhi bagaimana analis masa depan membingkai sebuah pertanyaan. Makalah bagus lainnya tentang QR adalah Le Cook and Manning's 2013, * Thinking Beyond the Mean: panduan praktis untuk menggunakan metode regresi kuantil "... salinan yang disingkat di sini ... dash.harvard.edu/bitstream/handle/1/12406692/ ... FWIW ... tetapi fokus mereka adalah perawatan kesehatan ...
Mike Hunter

Jawaban:

8

"Kemiringan sejati" dalam model linier normal memberi tahu Anda seberapa besar respons rata - rata berubah berkat kenaikan satu poin dalam . Dengan mengasumsikan normalitas dan varians yang sama, semua kuantil dari distribusi kondisional dari respons bergerak sejalan dengan itu. Kadang-kadang, asumsi-asumsi ini sangat tidak realistis: varians atau kemiringan distribusi kondisional bergantung pada dan karenanya, kuantilasinya bergerak dengan kecepatannya sendiri ketika meningkatkanxxx. Dalam QR, Anda akan segera melihat ini dari perkiraan kemiringan yang sangat berbeda. Karena OLS hanya peduli tentang rata-rata (yaitu kuantil rata-rata), Anda tidak dapat memodelkan setiap kuantil secara terpisah. Di sana, Anda sepenuhnya bergantung pada asumsi bentuk tetap dari distribusi kondisional ketika membuat pernyataan tentang kuantilnya.

EDIT: Cantumkan komentar dan ilustrasikan

Jika Anda ingin membuat asumsi yang kuat, tidak ada gunanya menjalankan QR karena Anda selalu dapat menghitung kuantil bersyarat melalui mean bersyarat dan varian tetap. Kemiringan "benar" dari semua kuantil akan sama dengan kemiringan sebenarnya dari rata-rata. Dalam sampel tertentu, tentu saja akan ada beberapa variasi acak. Atau Anda bahkan mungkin mendeteksi bahwa asumsi ketat Anda salah ...

Biarkan saya ilustrasikan dengan sebuah contoh dalam R. Ini menunjukkan garis kuadrat terkecil (hitam) dan kemudian merah yang dimodelkan 20%, 50%, dan 80% kuantil data yang disimulasikan menurut hubungan linear berikut sehingga tidak hanya rata-rata bersyarat tergantung pada tetapi juga varians.

y=x+xε,εN(0,1) iid,
yxmasukkan deskripsi gambar di sini
  • Garis regresi rata-rata dan median pada dasarnya identik karena distribusi kondisional simetris. Kemiringan mereka adalah 1.
  • Garis regresi dari kuantil 80% jauh lebih curam (kemiringan 1.9), sedangkan garis regresi dari kuantil 20% hampir konstan (kemiringan 0.3). Ini cocok dengan varian yang sangat tidak setara.
  • Sekitar 60% dari semua nilai berada di dalam garis merah luar. Mereka membentuk interval perkiraan 60% sederhana, searah pada setiap nilai .x

Kode untuk menghasilkan gambar:

library(quantreg)

set.seed(3249)
n <- 1000
x <- seq(0, 1, length.out = n)
y <- rnorm(n, mean = x, sd = x)

plot(y~x)

(fit_lm <- lm(y~x)) # intercept: 0.02445, slope: 1.04858 
abline(fit_lm, lwd = 3)

# quantile cuts
taus <- c(0.2, 0.5, 0.8)

(fit_rq <- rq(y~x, tau = taus))
#               tau= 0.2      tau= 0.5    tau= 0.8
# (Intercept) 0.00108228 -0.0005110046 0.001089583
# x           0.29960652  1.0954521888 1.918622442

lapply(seq_along(taus), function(i) abline(coef(fit_rq)[, i], lwd = 2, lty = 2, col = "red"))
Michael M.
sumber
2
+1. Saya pikir bagian yang penting adalah dalam varian atau kemiringan kesalahan tergantung pada , yang saya coba mengesampingkan dengan mengatakan "model regresi linier standar". Saya telah mengedit posting saya agar lebih jelas. Mengenai Dengan mengasumsikan normalitas dan varians yang sama, semua kuantil dari distribusi kondisional dari respons bergerak sesuai dengan itu , saya kira asumsi normalitas adalah redundan. x
Richard Hardy
2
Persis. Jika Anda ingin membuat asumsi yang kuat, tidak ada gunanya menjalankan QR karena Anda selalu dapat menghitung kuantil bersyarat melalui mean bersyarat dan varian tetap. Kemiringan "benar" dari semua kuantil akan sama dengan kemiringan sebenarnya dari rata-rata. Dalam sampel, akan ada beberapa variasi acak. Atau Anda bahkan mungkin mendeteksi bahwa asumsi ketat Anda salah ... ;-)
Michael M
Itu masuk akal. Dalam sampel, saya pikir estimasi kemiringan QR untuk kuantil yang berbeda kemungkinan akan agak menyebar sejalan dengan kuantil. Ini karena fungsi kerugian yang diperkecil akan menyeret penaksir secara asimetris ke satu sisi (arah dan besarnya hambatan tergantung pada kuantil), meskipun efek asimptotik ini akan semakin kecil.
Richard Hardy
1
Ini adalah jawaban yang baik, dan terima kasih untuk itu, tetapi saya ingin tahu apakah Anda dapat menggambarkan dengan contoh sederhana bagaimana QR mengungkapkan hubungan yang berbeda pada kuantil yang berbeda ketika beberapa asumsi standar (misalnya homoskedastisitas) tidak berlaku.
Richard Hardy
Jadi proses menghasilkan data adalah model linier tetapi dengan standar deviasi (varians?) Dari berbanding lurus dengan rata-rata , kan? Yaitu mana ? Mengeja model secara eksplisit dalam jawabannya akan sangat membantu, IMHO. xxy=x+xεεi.i.N(0,1)
Richard Hardy