Kapan regresi kuantil lebih buruk daripada OLS?

22

Terlepas dari beberapa keadaan unik di mana kita benar-benar harus memahami hubungan rata-rata bersyarat, apa situasi di mana seorang peneliti harus memilih OLS daripada Regresi Kuantil?

Saya tidak ingin jawabannya menjadi "jika tidak ada gunanya memahami hubungan ekor", karena kita bisa menggunakan regresi median sebagai pengganti OLS.

Frank Harrell
sumber
4
Saya pikir sebagian besar peneliti akan menghibur OLS dan regresi kuantil; perbedaan antara metode akan menyoroti apa yang Anda coba modelkan. Sehubungan dengan OLS, jika Anda melemparkan asumsi normal Anda mendapatkan banyak metodologi pengujian yang terdokumentasi dengan cukup baik dan menyeluruh yang tersedia di sebagian besar paket statistik.
Jonathan Lisic

Jawaban:

18

Jika Anda tertarik pada mean, gunakan OLS, jika dalam median, gunakan quantile.

Satu perbedaan besar adalah bahwa rerata lebih dipengaruhi oleh pencilan dan data ekstrem lainnya. Terkadang, itulah yang Anda inginkan. Salah satu contoh adalah jika variabel dependen Anda adalah modal sosial di lingkungan. Kehadiran satu orang dengan banyak modal sosial mungkin sangat penting bagi seluruh lingkungan.

Peter Flom - Pasang kembali Monica
sumber
6
Biarkan saya menantang kalimat pertama Anda. Baik OLS dan regresi kuantil (QR) memperkirakan untuk proses pembuatan data y = X β + ε . Jika distribusi kesalahan memiliki ekor yang berat, β Q R lebih efisien daripada β O L S . Terlepas dari momen distribusi bersyarat P ( y | X ) kita tertarik, kita harus menggunakan salah satu dari β O L S dan β Q Rβy=Xβ+εβ^QRβ^OLSP(y|X)β^OLSβ^QR yang lebih efisien.
Richard Hardy
Mengikuti kritik @RichardHardy dari respons ini, median hanyalah salah satu dari kuantil yang dapat diperkirakan. Makalah Hyndman ini memperkenalkan pendekatan yang ia sebut meningkatkan regresi kuantil aditif yang mengeksplorasi berbagai kuantil, Peramalan Ketidakpastian dalam Meteran Listrik Smart Meter dengan Meningkatkan Regresi Kuantitas Aditif ( ieeexplore.ieee.org/document/7423794 ).
Mike Hunter
15

Tampaknya ada kebingungan dalam premis pertanyaan. Dalam paragraf kedua dikatakan, "kita bisa menggunakan regresi median sebagai pengganti OLS". Perhatikan bahwa regresi median bersyarat pada X adalah (bentuk) regresi kuantil.

Jika kesalahan dalam proses pembuatan data yang mendasarinya terdistribusi secara normal (yang dapat dinilai dengan memeriksa apakah residualnya normal), maka mean kondisional sama dengan median kondisional. Selain itu, setiap kuantil yang mungkin menarik bagi Anda (misalnya, persentil ke-95, atau persentil ke-37), dapat ditentukan untuk titik tertentu dalam dimensi X dengan metode OLS standar. Daya tarik utama dari regresi kuantil adalah bahwa ia lebih kuat daripada OLS. Kelemahannya adalah jika semua asumsi terpenuhi, itu akan menjadi kurang efisien (yaitu, Anda akan membutuhkan ukuran sampel yang lebih besar untuk mencapai kekuatan yang sama / perkiraan Anda akan kurang tepat).

gung - Reinstate Monica
sumber
12

β

y=Xβ+ε
(untuk kasus QR lihat Koenker (1978), hlm. 33, paragraf kedua).

β^QRβ^OLSβ^OLSPY(y|X)β^OLSβ^QR

β^OLS should be preferred over β^QR) when β^OLS is more efficient than β^QR. One such example is when the error distribution is Normal.

References:

  • Koenker, Roger, and Gilbert Bassett Jr. "Regression quantiles." Econometrica: Journal of the Econometric Society (1978): 33-50.
Richard Hardy
sumber
3

Peter Flom had a great and concise answer, I just want to expand it. The most important part of the question is how to define "worse".

In order to define worse, we need to have some metrics, and the function to calculate how good or bad the fittings are called loss functions.

We can have different definitions of the loss function, and there is no right or wrong on each definition, but different definition satisfy different needs. Two well known loss functions are squared loss and absolute value loss.

Lsq(y,y^)=i(yiy^i)2
Labs(y,y^)=i|yiy^i|

If we use squared loss as a measure of success, quantile regression will be worse than OLS. On the other hand, if we use absolute value loss, quantile regression will be better.

Which is what Peter Folm's answer:

If you are interested in the mean, use OLS, if in the median, use quantile.

Haitao Du
sumber
I think your example may be misleading since it addresses in-sample fit (which is of little interest since we already know our sample perfectly) rather than expected loss for new observations (when the goal is prediction) or loss of estimating the parameter vector (when the goal is explanation). See may comment under Peter Flom's answer and my answer for more details.
Richard Hardy
3

To say what some of the excellent responses above said, but in a slightly different way, quantile regression makes fewer assumptions. On the right hand side of the model the assumptions are the same as with OLS, but on the left hand side the only assumption is continuity of the distribution of Y (few ties). One could say that OLS provides an estimate of the median if the distribution of residuals is symmetric (hence median=mean), and under symmetry and not-too-heavy tails (especially under normality), OLS is superior to quantile regression for estimating the median, because of much better precision. If there is only an intercept in the model, the quantile regression estimate is exactly the sample median, which has efficiency of 2π when compared to the mean, under normality. Given a good estimate of the root mean squared error (residual SD) you can use OLS parametrically to estimate any quantile. But quantile estimates from OLS are assumption-laden, which is why we often use quantile regression.

If you want to estimate the mean, you can't get that from quantile regression.

If you want to estimate the mean and quantiles with minimal assumptions (but more assumptions than quantile regression) but have more efficiency, use semiparametric ordinal regression. This also gives you exceedance probabilities. A detailed case study is in my RMS course notes where it is shown on one dataset that the average mean absolute estimation error over several parameters (quantiles and mean) is achieved by ordinal regression. But for just estimating the mean, OLS is best and for just estimating quantiles, quantile regression was best.

Another big advantage of ordinal regression is that it is, except for estimating the mean, completely Y-transformation invariant.

Frank Harrell
sumber