Bagaimana regresi kuantil "bekerja"?

25

Saya berharap mendapatkan penjelasan intuitif dan dapat diakses dari regresi kuantil.

Katakanlah saya memiliki dataset sederhana hasil , dan prediktor .X 1 , X 2YX1,X2

Misalnya, jika saya menjalankan regresi kuantil pada 0,25, .5, .75, dan mendapatkan kembali .β0,.25,β1,.25...β2,.75

Apakah nilai ditemukan dengan hanya memesan nilai-nilai , dan melakukan regresi linier berdasarkan pada contoh-contoh yang ada di / dekat kuantil yang diberikan?yβy

Atau apakah semua sampel berkontribusi pada estimasi , dengan bobot menurun seiring meningkatnya jarak dari kuantil?β

Atau itu sesuatu yang sama sekali berbeda? Saya belum menemukan penjelasan yang dapat diakses.

Jeremy
sumber
3
Mengenai matematika Anda mungkin menemukan dua jawaban ini bermanfaat: stats.stackexchange.com/questions/102906/… , stats.stackexchange.com/questions/88387/…
Andy

Jawaban:

21

Saya merekomendasikan Koenker & Hallock (2001, Journal of Economic Perspectives) dan buku teks eponymous Koenker .

  1. Titik awal adalah pengamatan bahwa median kumpulan data meminimalkan jumlah kesalahan absolut . Yaitu, 50% kuantil adalah solusi untuk masalah optimasi tertentu (untuk menemukan nilai yang meminimalkan jumlah kesalahan absolut).
  2. Dari ini, mudah untuk menemukan bahwa setiap quantile adalah solusi untuk masalah minimalisasi tertentu, yaitu untuk meminimalkan jumlah kesalahan absolut tertimbang asimetris , dengan bobot yang bergantung pada τ .ττ
  3. Akhirnya, untuk membuat langkah regresi, kami memodelkan solusi untuk masalah minimisasi ini sebagai kombinasi linear dari variabel prediktor, jadi sekarang masalahnya adalah menemukan bukan nilai tunggal, tetapi seperangkat parameter regresi.

Jadi intuisi Anda cukup benar: semua sampel berkontribusi pada estimasi , dengan bobot asimetris tergantung pada ile yang kami targetkan .βτ

S. Kolassa - Reinstate Monica
sumber
Mengenai poin Anda 1), bukankah ini hanya benar dengan asumsi Y didistribusikan secara simetris? Jika Y miring seperti {1, 1, 2, 4, 10}, median 2 tentu tidak akan meminimalkan kesalahan absolut. Apakah regresi kuantitatif selalu menganggap Y terdistribusi secara simetris? Terima kasih!
Ben
1
@ Ben: tidak, simetri tidak diperlukan. Poin kuncinya adalah median meminimalkan kesalahan absolut yang diharapkan . Jika Anda memiliki distribusi diskrit dengan nilai 1, 2, 4, 10 dan probabilitas 0,4, 0,2, 0,2, 0,2, maka ringkasan titik 2 memang meminimalkan kesalahan absolut yang diharapkan . Simulasi hanyalah beberapa baris kode R:foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
S. Kolassa - Reinstate Monica
(Dan ya, saya seharusnya lebih jelas dalam jawaban saya, alih-alih mendiskusikan "jumlah".)
S. Kolassa - Reinstate Monica
Derp. Apa yang saya pikirkan. Ini masuk akal sekarang, terima kasih.
Ben
19

Ide dasar regresi kuantil berasal dari fakta bahwa analis tertarik pada distribusi data, bukan hanya rata-rata data. Mari kita mulai dengan yang jahat.

y=XβE(Y|X=x)=xβargminβ(yxβ)(yXβ)

argminβ|yXβ||.|

α

Di sini Anda membuat kesalahan kecil, Q-regresi tidak seperti menemukan sejumlah data kemudian cocok dengan garis ke subset itu (atau bahkan perbatasan yang lebih menantang).

α

β^α=argminβ{α|yXβ|I(y>Xβ)+(1α)|yXβ|I(y<Xβ)}.

Seperti yang Anda lihat fungsi target pintar ini tidak lebih dari menerjemahkan kuantil ke masalah optimisasi.

βα

TPArrow
sumber
Jawaban ini sangat brilian.
Jinhua Wang