Mengapa kita biasanya memilih untuk meminimalkan jumlah kesalahan kuadrat (SSE) saat memasang model?

23

Pertanyaannya sangat sederhana: mengapa, ketika kami mencoba menyesuaikan model dengan data kami, linear atau non-linear, apakah kami biasanya mencoba meminimalkan jumlah kuadrat kesalahan untuk mendapatkan estimator kami untuk parameter model? Mengapa tidak memilih beberapa fungsi tujuan lain untuk diminimalkan? Saya mengerti bahwa, karena alasan teknis, fungsi kuadrat lebih bagus daripada beberapa fungsi lainnya, misalnya, jumlah deviasi absolut. Tapi ini masih bukan jawaban yang sangat meyakinkan. Selain alasan teknis ini, mengapa khususnya orang-orang yang mendukung fungsi jarak 'tipe Euclidean' ini? Apakah ada makna atau interpretasi khusus untuk itu?

Logika di balik pemikiran saya adalah sebagai berikut:

Ketika Anda memiliki dataset, Anda pertama-tama mengatur model Anda dengan membuat satu set asumsi fungsional atau distribusi (katakanlah, beberapa kondisi saat tetapi tidak seluruh distribusi). Dalam model Anda, ada beberapa parameter (menganggap itu adalah model parametrik), maka Anda perlu menemukan cara untuk secara konsisten memperkirakan parameter ini dan mudah-mudahan, penaksir Anda akan memiliki varian rendah dan beberapa properti bagus lainnya. Apakah Anda meminimalkan SSE atau LAD atau fungsi objektif lainnya, saya pikir mereka hanya metode yang berbeda untuk mendapatkan penduga yang konsisten. Mengikuti logika ini, saya pikir orang menggunakan kuadrat terkecil harus 1) itu menghasilkan penduga yang konsisten dari model 2) sesuatu yang lain yang saya tidak tahu.

Dalam ekonometrik, kita tahu bahwa dalam model regresi linier, jika Anda mengasumsikan bahwa istilah kesalahan memiliki 0 pengkondisian rata-rata pada prediktor dan homoseksualitas dan kesalahan tidak berkorelasi satu sama lain, maka meminimalkan jumlah kesalahan kuadrat akan memberi Anda penduga KONSISTEN model Anda parameter dan oleh teorema Gauss-Markov, estimator ini BIRU. Jadi ini akan menyarankan bahwa jika Anda memilih untuk meminimalkan beberapa fungsi tujuan lain yang bukan SSE, maka tidak ada jaminan bahwa Anda akan mendapatkan penduga yang konsisten dari parameter model Anda. Apakah pemahaman saya benar? Jika benar, maka meminimalkan SSE daripada beberapa fungsi tujuan lainnya dapat dibenarkan dengan konsistensi, yang dapat diterima, pada kenyataannya, lebih baik daripada mengatakan fungsi kuadrat lebih baik.

Dalam praktiknya, saya benar-benar melihat banyak kasus di mana orang langsung meminimalkan jumlah kesalahan kuadrat tanpa terlebih dahulu menentukan model lengkap, misalnya, asumsi distribusi (asumsi momen) pada istilah kesalahan. Maka menurut saya pengguna metode ini hanya ingin melihat seberapa dekat data sesuai dengan 'model' (saya menggunakan tanda kutip karena asumsi model mungkin tidak lengkap) dalam hal fungsi jarak kuadrat.

Pertanyaan terkait (juga terkait dengan situs web ini) adalah: mengapa, ketika kami mencoba membandingkan model yang berbeda menggunakan validasi silang, apakah kami kembali menggunakan SSE sebagai kriteria penilaian? yaitu, pilih model yang memiliki SSE paling sedikit? Mengapa bukan kriteria lain?

econometrics least-squares KevinKim
sumber

Terkait: stats.stackexchange.com/questions/147001

amoeba mengatakan Reinstate Monica

14

Meskipun pertanyaan Anda mirip dengan sejumlah pertanyaan lain di situs, aspek-aspek dari pertanyaan ini (seperti penekanan Anda pada konsistensi) membuat saya berpikir mereka tidak cukup dekat untuk menjadi duplikat.

Mengapa tidak memilih beberapa fungsi tujuan lain untuk diminimalkan?

Kenapa tidak? Jika sasaran Anda berbeda dari kuadrat terkecil, Anda harus menjawab sasaran Anda sebagai gantinya!

Namun demikian, kuadrat terkecil memiliki sejumlah sifat yang bagus (paling tidak, hubungan yang intim dengan cara memperkirakan , yang diinginkan banyak orang, dan kesederhanaan yang menjadikannya pilihan pertama yang jelas ketika mengajar atau mencoba menerapkan ide-ide baru).

Lebih jauh, dalam banyak kasus orang tidak memiliki fungsi tujuan yang jelas, jadi ada keuntungan untuk memilih apa yang tersedia dan dipahami secara luas.

Yang mengatakan, kuadrat terkecil juga memiliki beberapa properti yang kurang bagus (sensitivitas terhadap outlier, misalnya) - jadi kadang-kadang orang lebih suka kriteria yang lebih kuat.

meminimalkan jumlah kesalahan kuadrat akan memberi Anda penaksir KONSISTEN parameter model Anda

Kuadrat terkecil bukan persyaratan untuk konsistensi. Konsistensi bukanlah rintangan yang sangat tinggi - banyak penaksir akan konsisten. Hampir semua penduga yang digunakan dalam praktik konsisten.

dan oleh teorema Gauss-Markov, estimator ini BIRU.

Tetapi dalam situasi di mana semua estimator linier buruk (seperti yang terjadi di bawah ekor-berat, katakanlah), tidak ada banyak keuntungan dalam yang terbaik.

jika Anda memilih untuk meminimalkan beberapa fungsi tujuan lain yang bukan SSE, maka tidak ada jaminan bahwa Anda akan mendapatkan penduga yang konsisten dari parameter model Anda. Apakah pemahaman saya benar?

tidak sulit untuk menemukan penduga yang konsisten, jadi tidak, itu bukan pembenaran yang sangat baik dari kuadrat terkecil

mengapa ketika kita mencoba membandingkan model yang berbeda menggunakan validasi silang, kita lagi, menggunakan SSE sebagai kriteria penilaian? [...] Kenapa tidak kriteria lain?

Jika tujuan Anda lebih baik tercermin oleh sesuatu yang lain, mengapa tidak?

Tidak ada kekurangan orang menggunakan fungsi objektif selain kuadrat terkecil. Muncul dalam estimasi-M, dalam estimator yang paling tidak dipangkas, dalam regresi kuantil, dan ketika orang menggunakan fungsi kerugian LINEX, hanya untuk menyebutkan beberapa saja.

berpikir bahwa ketika Anda memiliki dataset, Anda pertama-tama mengatur model Anda, yaitu membuat satu set asumsi fungsional atau distribusi. Dalam model Anda, ada beberapa parameter (menganggap itu adalah model parametrik),

Agaknya parameter asumsi fungsional adalah apa yang Anda coba perkirakan - dalam hal ini, asumsi fungsional adalah apa yang paling tidak Anda lakukan kuadrat (atau apa pun yang lain) di sekitar ; mereka tidak menentukan kriteria, mereka adalah yang memperkirakan kriteria.

Di sisi lain, jika Anda memiliki asumsi distribusi, maka Anda memiliki banyak informasi tentang fungsi tujuan yang lebih cocok - mungkin, misalnya, Anda akan ingin mendapatkan estimasi parameter yang efisien - yang dalam sampel besar akan cenderung mengarahkan Anda ke arah MLE, (meskipun mungkin dalam beberapa kasus tertanam dalam kerangka kerja yang diperkuat).

maka Anda perlu menemukan cara untuk secara konsisten memperkirakan parameter ini. Apakah Anda meminimalkan SSE atau LAD atau fungsi objektif lainnya,

LAD adalah penduga kuantil. Ini adalah penduga yang konsisten dari parameter yang seharusnya diestimasi dalam kondisi yang seharusnya diharapkan, dengan cara yang sama dengan kuadrat terkecil. (Jika Anda melihat apa yang Anda menunjukkan konsistensi dengan kuadrat terkecil, ada hasil yang sesuai untuk banyak penaksir umum lainnya. Orang jarang menggunakan penduga yang tidak konsisten, jadi jika Anda melihat penduga yang sedang dibahas secara luas, kecuali jika mereka berbicara tentang ketidakkonsistenannya, itu hampir tentu konsisten. *)

* Yang mengatakan, konsistensi belum tentu merupakan properti penting. Bagaimanapun, untuk sampel saya, saya memiliki beberapa ukuran sampel tertentu, bukan urutan ukuran sampel yang cenderung tak terbatas. Yang penting adalah sifat-sifat di saya miliki, bukan yang jauh lebih besar yang tidak saya miliki dan tidak akan pernah lihat . Tetapi diperlukan lebih banyak kehati-hatian ketika kita memiliki ketidakkonsistenan - kita mungkin memiliki penduga yang baik pada = 20, tetapi mungkin mengerikan pada = 2000; ada beberapa upaya yang diperlukan, dalam beberapa hal, jika kita ingin menggunakan estimator yang konsisten. $n$ $n$ $n$ $n$

Jika Anda menggunakan LAD untuk memperkirakan rata-rata eksponensial, itu tidak akan konsisten untuk itu (meskipun penskalaan sepele estimasi akan menjadi) - tetapi dengan token yang sama jika Anda menggunakan kuadrat terkecil untuk memperkirakan median eksponensial , itu tidak akan konsisten untuk itu (dan sekali lagi, perbaikan perbaikan sepele itu).

Glen_b -Reinstate Monica
sumber

Saya kira saya tidak mengungkapkan kekhawatiran saya dengan jelas. Saya berpikir bahwa ketika Anda memiliki dataset, Anda pertama-tama mengatur model Anda, yaitu membuat satu set asumsi fungsional atau distribusi. Dalam model Anda, ada beberapa parameter (menganggap itu adalah model parametrik), maka Anda perlu menemukan cara untuk secara konsisten memperkirakan parameter ini. Apakah Anda meminimalkan SSE atau LAD atau fungsi objektif lainnya, saya pikir mereka hanya metode yang berbeda untuk mendapatkan estimator. Mengikuti logika ini, saya pikir orang menggunakan kuadrat terkecil harus 1) menghasilkan estimator yang konsisten dari model 2) sesuatu yang lain

KevinKim

Agaknya parameter asumsi fungsional adalah apa yang Anda coba perkirakan - dalam hal ini, asumsi fungsional adalah apa yang paling tidak Anda lakukan kuadrat (atau apa pun yang lain) di sekitar; mereka tidak menentukan kriteria. Di sisi lain, jika Anda memiliki asumsi distribusi, maka Anda memiliki banyak informasi tentang fungsi tujuan yang lebih cocok - mungkin, misalnya, Anda akan ingin mendapatkan estimasi parameter yang efisien - yang dalam sampel besar akan cenderung mengarahkan Anda ke arah MLE, (meskipun mungkin dalam beberapa kasus tertanam dalam kerangka kerja yang diperkuat).

Glen_b -Reinstate Monica

Jawaban ini sesuai dengan pola pikir saya. Tapi saya masih punya pertanyaan, apa maksud Anda dengan 'mereka tidak menentukan kriteria'? Apakah ini berarti bahwa, misalnya, dalam ekonometrik 101 dalam regresi linier, di bawah asumsi fungsional (tanpa distribusi), untuk mendapatkan penaksir yang konsisten, Anda harus menggunakan ols, Anda tidak dapat menggunakan beberapa fungsi tujuan arbiter untuk meminimalkan, karena tidak ada jaminan untuk mendapatkan estimator yang konsisten dari sana?

KevinKim

Pada "jangan menentukan" - izinkan saya memperluas jawaban saya. Pada konsistensi: Saya menyatakan sebaliknya dalam jawaban saya. Biarkan saya nyatakan lagi: kuadrat terkecil bukanlah persyaratan untuk konsistensi. Ini termasuk situasi yang baru saja Anda sebutkan; ada tak terhitung penduga alternatif yang akan konsisten. Hampir semua penduga yang digunakan dalam praktik konsisten. Saya akan mengedit jawaban saya menjadi lebih eksplisit.

Glen_b -Reinstate Monica

untuk jawaban Anda yang diperbarui, paragraf terakhir, jadi untuk beberapa model, ada beberapa cara yang TIDAK AKAN menghasilkan parameter yang konsisten untuk parameter model Anda, meskipun Anda tetap dapat menerapkan metode itu dan kompter akan memberi Anda beberapa angka, bukan? Jadi dapatkah saya mengatakan bahwa untuk model yang dibuat orang, untuk mendapatkan estimator untuk parameter dalam model, orang TIDAK BISA secara sewenang-wenang memilih fungsi objektif untuk mengoptimalkan JUST berdasarkan pada sifat teknis yang bagus dari itu?

KevinKim

5

Anda mengajukan pertanyaan statistik, dan saya berharap bahwa jawaban insinyur sistem kontrol saya menusuk itu dari cukup dari arah yang berbeda untuk menjadi mencerahkan.

Berikut adalah bentuk aliran informasi "kanonik" untuk rekayasa sistem kontrol: masukkan deskripsi gambar di sini

"R" adalah untuk nilai referensi. Itu dijumlahkan dengan transformasi "F" dari output "y" untuk menghasilkan kesalahan "e". Kesalahan ini adalah input untuk pengontrol, ditransformasikan oleh fungsi transfer kontrol "C" menjadi input kontrol untuk pabrik "P". Ini dimaksudkan agar cukup umum untuk diterapkan pada pabrik yang sewenang-wenang. "Pabrik" dapat berupa mesin mobil untuk kontrol jelajah, atau sudut input dari pendulum terbalik.

Katakanlah Anda memiliki pabrik dengan fungsi transfer yang dikenal dengan fenomenologi yang cocok untuk diskusi berikut, kondisi saat ini, dan kondisi akhir yang diinginkan. ( tabel 2.1 hal. 68 ) Ada jalur unik yang tak terbatas yang dapat dilalui sistem, dengan input berbeda, untuk beralih dari kondisi awal ke kondisi akhir. Buku teks mengontrol "pendekatan optimal" insinyur termasuk waktu optimal ( waktu terpendek / bang-bang ), jarak optimal (jalur terpendek), kekuatan optimal (besarnya input maksimum terendah), dan energi optimal (input energi total minimum).

Seperti halnya ada jumlah jalur yang tidak terbatas, ada juga jumlah "optimal" yang tidak terbatas - masing-masing memilih salah satu dari jalur tersebut. Jika Anda memilih satu jalan dan mengatakan itu yang terbaik maka Anda secara implisit memilih "ukuran kebaikan" atau "ukuran optimalitas".

Menurut pendapat pribadi saya, saya pikir orang-orang seperti norma L-2 (alias energi optimal, alias kesalahan kuadrat terkecil) karena sederhana, mudah dijelaskan, mudah dijalankan, memiliki sifat melakukan lebih banyak pekerjaan melawan kesalahan yang lebih besar daripada yang lebih kecil, dan pergi dengan nol bias. Pertimbangkan norma h-infinity di mana variansnya diminimalkan dan bias dibatasi tetapi tidak nol. Mereka bisa sangat berguna, tetapi mereka lebih kompleks untuk dijelaskan, dan lebih kompleks untuk kode.

Saya pikir L2-norma, alias jalur optimal meminimalkan energi, alias cocok kuadrat terkecil, mudah dan dalam arti malas cocok dengan heuristik bahwa "kesalahan yang lebih besar lebih buruk, dan kesalahan yang lebih kecil kurang buruk". Secara harfiah ada banyak cara algoritmik untuk merumuskan ini, tetapi kesalahan kuadrat adalah salah satu yang paling nyaman. Ini hanya membutuhkan aljabar, sehingga lebih banyak orang dapat memahaminya. Ia bekerja di ruang polinom (populer). Energi-optimal konsisten dengan banyak fisika yang membentuk dunia kita yang dipersepsikan, sehingga "terasa akrab". Itu cepat untuk menghitung dan tidak terlalu mengerikan pada memori.

Jika saya mendapatkan lebih banyak waktu saya ingin meletakkan gambar, kode, atau referensi bibliografi.

EngrStudent - Pasang kembali Monica
sumber

1

$SSE$ $SSE$ $R^2$ $SST$

R^{2} = 1 - \frac{S S E}{S S T}

$R^2 = 1 - \frac{SSE}{SST}$

$R^2$ $R^2$ $RMSE$ ).

$R^2$ $R^2$ $SSE$ $SSE$ $PRESS$ ). Untuk detailnya, lihat posting ini dan posting ini, yang relevan dengan pertanyaan Anda di akhir posting.

$SSE$

Aleksandr Blekh
sumber

2

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

0

Anda mungkin juga melihat meminimalkan kesalahan maksimum, bukannya pas kuadrat. Ada banyak literatur tentang masalah ini. Untuk kata pencarian, coba "Tchebechev" yang juga dieja polinomial "Chebyshev".

David F. Mayer
sumber

1

Maks adalah norma L-infinity. Jika Anda melihat Nutonian / Formulize / Eureqa, mereka memiliki kebun binatang fungsional biaya (bentuk kesalahan) yang bagus termasuk kesalahan absolut interkuartil, kesalahan kehilangan engsel, ROC-AUC, dan perbedaan yang ditandatangani. formulize.nutonian.com/documentation/eureqa/general-reference/...

EngrStudent - mengembalikan Monica

0

Tampaknya orang menggunakan kotak karena memungkinkan untuk berada dalam ranah Aljabar Linier dan tidak menyentuh hal-hal lain yang lebih rumit seperti optimasi cembung yang lebih kuat, tetapi hal itu menyebabkan kita menggunakan pemecah tanpa solusi bentuk tertutup yang bagus.

Juga ide dari ranah matematika yang bernama optimasi cembung ini belum banyak menyebar.

"... Mengapa kita peduli dengan kuadrat barang. Jujur saja karena kita dapat menganalisisnya ... Jika Anda mengatakan bahwa itu sesuai dengan Energi dan mereka membelinya maka lanjutkan dengan cepat ...." - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

Juga di sini Stephen P. Boyd menjelaskan pada 2008 bahwa orang menggunakan palu dan adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916

bruziuz
sumber

0

Di samping catatan:

hal (t | x, w, β) = N (t | y (x, w), β^{- 1})

$p(t|x,w,\beta) = \mathbb{N}(t|y(x,\textbf{w}),\beta^{-1})$

{x, t}

$\{\textbf{x}, \textbf{t}\}$

w

$\textbf{w}$

hal (t | x, w, β) = \prod_{n = 1}^{N} N (t_{n} | y (x_{n}, w), β^{- 1}) .

$p(\textbf{t}|\textbf{x}, \textbf{w}, \beta) = \prod_{n=1}^ {N}\mathbb{N}(t_n|y(x_n, \textbf{w}),\beta^{-1}).$

- \frac{β}{2} \sum_{n = 1}^{N} {y (x_{n}, w) - t_{n}}^{2} + \frac{N}{2} l n β - \frac{N}{2} l n (2 π)

$-\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_n, \textbf{w})-t_n\}^2 + \frac{N}{2}ln\beta-\frac{N}{2}ln(2\pi)$

w

$\textbf{w}$

β

$\beta$

- \frac{1}{2} \sum_{n = 1}^{N} {y (x_{n}, w) - t_{n}}^{2} .

$-\frac{1}{2}\sum_{n=1}^{N}\{y(x_n, \textbf{w})-t_n\}^2.$

timm
sumber

Mengapa kita biasanya memilih untuk meminimalkan jumlah kesalahan kuadrat (SSE) saat memasang model?

Jawaban: