The regresi linier Model membuat sekelompok asumsi yang regresi kuantil tidak dan, jika asumsi regresi linier terpenuhi, maka saya intuisi (dan beberapa pengalaman yang sangat terbatas) adalah bahwa regresi median akan memberikan hasil yang hampir sama sebagai regresi linier.
Jadi, apa kelebihan yang dimiliki regresi linier? Ini tentu lebih akrab, tetapi selain itu?
regression
multiple-regression
quantile-regression
Peter Flom - Pasang kembali Monica
sumber
sumber
Jawaban:
Sangat sering dinyatakan bahwa meminimalkan residu kuadrat terkecil lebih disukai daripada meminimalkan residu absolut karena alasan itu lebih sederhana secara komputasi . Tapi, mungkin juga lebih baik karena alasan lain. Yaitu, jika asumsi itu benar (dan ini tidak jarang terjadi) maka ia memberikan solusi yang (rata-rata) lebih akurat.
Kemungkinan maksimum
Regresi kuadrat terkecil dan regresi kuantil (bila dilakukan dengan meminimalkan residu absolut) dapat dilihat sebagai memaksimalkan fungsi kemungkinan untuk kesalahan terdistribusi Gaussian / Laplace, dan dalam hal ini sangat terkait.
Distribusi Gaussian:
dengan kemungkinan log dimaksimalkan ketika meminimalkan jumlah residu kuadrat
Distribusi Laplace:
dengan kemungkinan log dimaksimalkan ketika meminimalkan jumlah residu absolut
Note: the Laplace distribution and the sum of absolute residuals relates to the median, but it can be generalized to other quantiles by giving different weights to negative and positive residuals.
Known error distribution
When we know the error-distribution (when the assumptions are likely true) it makes sense to choose the associated likelihood function. Minimizing that function is more optimal.
Very often the errors are (approximately) normal distributed. In that case using least squares is the best way to find the parameterμ (which relates to both the mean and the median). It is the best way because it has the lowest sample variance (lowest of all unbiased estimators). Or you can say more strongly: that it is stochastically dominant (see the illustration in this question comparing the distribution of the sample median and the sample mean).
So, when the errors are normal distributed, then the sample mean is a better estimator of the distribution median than the sample median. The least squares regression is a more optimal estimator of the quantiles. It is better than using the least sum of absolute residuals.
Because so many problems deal with normal distributed errors the use of the least squares method is very popular. To work with other type of distributions one can use the Generalized linear model. And, the method of iterative least squares, which can be used to solve GLMs, also works for the Laplace distribution (ie. for absolute deviations), which is equivalent to finding the median (or in the generalized version other quantiles).
Unknown error distribution
Robustness
The median or other quantiles have the advantage that they are very robust regarding the type of distribution. The actual values do not matter much and the quantiles only care about the order. So no matter what the distribution is, minimizing the absolute residuals (which is equivalent to finding the quantiles) is working very well.
The question becomes complex and broad here and it is dependent on what type of knowledge we have or do not have about the distribution function. For instance a distribution may be approximately normal distributed but only with some additional outliers. This can be dealt with by removing the outer values. This removal of the extreme values even works in estimating the location parameter of the Cauchy distribution where the truncated mean can be a better estimator than the median. So not only for the ideal situation when the assumptions hold, but also for some less ideal applications (e.g. additional outliers) there might be good robust methods that still use some form of a sum of squared residuals instead of sum of absolute residuals.
I imagine that regression with truncated residuals might be computationally much more complex. So it may actually be quantile regression which is the type of regression that is performed because of the reason that it is computationally simpler (not simpler than ordinary least squares, but simpler than truncated least squares).
Biased/unbiased
Another issue is biased versus unbiased estimators. In the above I described the maximum likelihood estimate for the mean, ie the least squares solution, as a good or preferable estimator because it often has the lowest variance of all unbiased estimators (when the errors are normal distributed). But, biased estimators may be better (lower expected sum of squared error).
This makes the question again broad and complex. There are many different estimators and many different situations to apply them. The use of an adapted sum of squared residuals loss function often works well to reduce the error (e.g. all kinds of regularization methods), but it may not need to work well for all cases. Intuitively it is not strange to imagine that, since the sum of squared residuals loss function often works well for all unbiased estimators, the optimal biased estimators is probably something close to a sum of squared residuals loss function.
sumber
Regresi linier (LR) bermuara pada optimasi kuadrat terkecil saat menghitung koefisiennya. Ini menyiratkan simetri dalam penyimpangan dari model regresi. Penjelasan yang baik tentang regresi kuantil (QR) ada di https://data.library.virginia.edu/getting-started-with-quantile-regress/ .
Jika asumsi LR (diperlukan untuk kesimpulan: nilai-p, interval kepercayaan, dll.) Dipenuhi, maka prediksi QR dan LR akan serupa. Tetapi jika asumsi sangat dilanggar, kesimpulan LR standar Anda akan salah. Jadi, regresi 0,5 kuantil (median) memberikan keunggulan dibandingkan LR. Ini juga memberikan lebih banyak fleksibilitas dalam memberikan regresi untuk kuantil lain. Setara untuk model linier akan menjadi batas kepercayaan dihitung dari LR (meskipun ini akan salah jika iid sangat dilanggar).
Jadi apa keunggulan LR? Tentu saja lebih mudah untuk menghitung tetapi jika set data Anda berukuran wajar, mungkin tidak terlalu terlihat. Tetapi yang lebih penting, asumsi inferensi LR memberikan informasi yang menurunkan ketidakpastian. Akibatnya, interval kepercayaan LR pada prediksi biasanya akan lebih sempit. Jadi, jika ada dukungan teoritis yang kuat untuk asumsi tersebut, interval kepercayaan yang lebih sempit mungkin menjadi keuntungan.
sumber
Regresi linier digunakan untuk memperkirakan respon rata-rata bersyarat yang diberikan data, yaituE( Y| X) dimana Y adalah respons dan X adalah datanya. Regresi memberi tahu kita hal ituE( Y| X) = Xβ . Ada asumsi tertentu (Anda dapat menemukannya dalam teks statistik apa pun) agar kesimpulan valid. Jika ini dipenuhi maka umumnya penduga standar untukβ adalah BIRU (penaksir linier tidak bias terbaik - lihat teorema Gauss-Markov).
Regresi kuantitatif dapat digunakan untuk mengestimasi APAPUN kuantil dari distribusi bersyarat termasuk median. Ini berpotensi memberikan lebih banyak informasi daripada rata-rata tentang distribusi bersyarat. Jika distribusi kondisional tidak simetris atau ekornya mungkin tebal (misalnya analisis risiko), regresi kuantil berguna BAHKAN jika semua asumsi regresi linier terpenuhi.
Tentu saja, secara numerik lebih intensif untuk melakukan estimasi kuantil relatif terhadap regresi linier tetapi pada umumnya jauh lebih kuat (misalnya seperti median lebih kuat daripada rata-rata untuk outlier). Selain itu, sangat tepat bila regresi linier tidak - misalnya untuk data yang disensor. Inferensi mungkin lebih sulit karena estimasi langsung matriks varians-kovarians mungkin sulit atau mahal secara komputasi. Dalam kasus tersebut, seseorang dapat melakukan bootstrap.
sumber