Regresi kuantitatif: Fungsi kerugian

24

Saya mencoba memahami regresi kuantitatif, tetapi satu hal yang membuat saya menderita adalah pilihan fungsi kerugian.

ρτ(kamu)=kamu(τ-1{kamu<0})

Saya tahu bahwa minimum harapan sama dengan -quantile, tetapi apa alasan intuitif untuk memulai dengan fungsi ini? Saya tidak melihat hubungan antara meminimalkan fungsi ini dan kuantil. Adakah yang bisa menjelaskannya kepada saya?τ %ρτ(y-kamu)τ%

CDO
sumber

Jawaban:

28

Saya memahami pertanyaan ini sebagai meminta wawasan tentang bagaimana orang bisa datang dengan setiap fungsi kerugian yang menghasilkan kuantil diberikan sebagai minimizer kerugian tidak peduli apa distribusi yang mendasari mungkin. Maka, tidak memuaskan, hanya mengulang analisis di Wikipedia atau di tempat lain yang menunjukkan bahwa fungsi kerugian ini berfungsi.

Mari kita mulai dengan sesuatu yang akrab dan sederhana.

Apa yang Anda bicarakan adalah menemukan "lokasi" relatif terhadap distribusi atau sekumpulan data . Sudah diketahui, misalnya, bahwa mean meminimalkan sisa kuadrat yang diharapkan; itu adalah nilai untuk itu F ˉ xxFx¯

L.F(x¯)=R(x-x¯)2dF(x)

sekecil mungkin. Saya telah menggunakan notasi ini untuk mengingatkan kita bahwa diturunkan dari kerugian , yang ditentukan oleh , tetapi yang paling penting tergantung pada angka .L.ˉ xFx¯

Cara standar untuk menunjukkan bahwa meminimalkan fungsi yang dimulai dengan menunjukkan nilai fungsi tidak berkurang ketika diubah sedikit. Nilai seperti itu disebut titik kritis fungsi. x xx

Fungsi kerugian seperti apa apa akan menghasilkan persentil menjadi titik kritis? Kerugian untuk nilai itu adalahF - 1 ( α )ΛF-1(α)

L.F(F-1(α))=RΛ(x-F-1(α))dF(x)=01Λ(F-1(kamu)-F-1(α))dkamu.

Agar ini menjadi titik kritis, turunannya harus nol. Karena kami hanya mencoba menemukan beberapa solusi, kami tidak akan berhenti sejenak untuk melihat apakah manipulasi itu sah: kami akan merencanakan untuk memeriksa detail teknis (seperti apakah kami benar-benar dapat membedakan , dll. ) Pada akhirnya. DemikianΛ

(1)0=LF(x)=LF(F1(α))=01Λ(F1(u)F1(α))du=0αΛ(F1(u)F1(α))duα1Λ(F1(u)F1(α))du.

Di sisi kiri, argumen negatif, sedangkan di sisi kanan positif. Selain itu, kami memiliki sedikit kendali atas nilai-nilai integral ini karena dapat berupa fungsi distribusi apa pun. Akibatnya, satu-satunya harapan kami adalah membuat hanya bergantung pada tanda argumennya, dan jika tidak maka itu harus konstan.F Λ ΛFΛ

Ini menyiratkan akan linear linear, berpotensi dengan kemiringan berbeda di kiri dan kanan nol. Jelas itu harus berkurang ketika mendekati nol - itu, bagaimanapun, adalah kerugian dan bukan keuntungan . Selain itu, men-rescaling dengan konstanta tidak akan mengubah propertinya, jadi kita mungkin merasa bebas untuk mengatur kemiringan tangan kiri menjadi . Biarkan menjadi kemiringan kanan. Kemudian disederhanakan menjadiΛ - 1 τ > 0 ( 1 )ΛΛ1τ>0(1)

0=ατ(1α),

di mana solusinya yang unik , hingga kelipatan positif,

Λ(x)={x, x0α1αx, x0.

Mengalikan solusi (alami) ini dengan , untuk menghapus penyebutnya, menghasilkan fungsi kerugian yang disajikan dalam pertanyaan.1α

Jelas semua manipulasi kami sah secara matematis ketika memiliki formulir ini. Λ

whuber
sumber
19

Cara fungsi kerugian ini diekspresikan bagus dan ringkas tapi saya pikir lebih mudah untuk dipahami dengan menulis ulang sebagai

ρτ(Xm)=(Xm)(τ1(Xm<0))={τ|Xm|ifXm0(1τ)|Xm|ifXm<0)

Jika Anda ingin mendapatkan rasa intuitif mengapa meminimalkan fungsi kerugian ini menghasilkan th kuantil, sangat membantu untuk mempertimbangkan contoh sederhana. Biarkan menjadi variabel acak seragam antara 0 dan 1. Mari kita juga memilih nilai konkret untuk , katakanlah, .τXτ0.25

Jadi sekarang pertanyaannya adalah mengapa fungsi kerugian ini diminimalkan pada ? Jelas, ada massa tiga kali lebih banyak dalam distribusi seragam di sebelah kanan daripada di sebelah kiri. Dan fungsi kerugian menimbang nilai-nilai yang lebih besar dari angka ini hanya dengan sepertiga dari bobot yang diberikan untuk nilai-nilai lebih kecil dari itu. Dengan demikian, itu semacam intuitif yang timbangan seimbang ketika th kuantil yaitu digunakan sebagai titik belok untuk fungsi kerugian.m=0.25mτ

jjet
sumber
1
Bukankah seharusnya sebaliknya? Kurang menebak akan menelan biaya tiga kali lipat?
Edi Bice
Terima kasih sudah menangkapnya. Rumusnya benar tetapi pada awalnya saya salah menuliskannya dalam penjelasan saya.
jjet