Mengapa estimasi OLS melibatkan mengambil penyimpangan vertikal dari titik ke garis daripada jarak horizontal?
least-squares
pengguna333
sumber
sumber
Jawaban:
OLS ( ordinary least square ) mengasumsikan bahwa nilai-nilai yang diwakili oleh jarak horizontal telah ditentukan oleh eksperimen atau diukur dengan akurasi tinggi (relatif terhadap jarak vertikal). Ketika ada pertanyaan tentang ketidakpastian dalam jarak horizontal, Anda seharusnya tidak menggunakan OLS, tetapi harus melihat ke dalam model kesalahan-dalam-variabel atau, mungkin, analisis komponen utama .
sumber
Pertanyaan menarik. Jawaban saya adalah bahwa ketika kita menyesuaikan model OLS kita secara implisit dan terutama mencoba untuk memprediksi / menjelaskan variabel dependen di tangan - "Y" di "Y vs X." Dengan demikian, perhatian utama kami adalah meminimalkan jarak dari jalur kami ke pengamatan aktual sehubungan dengan hasil, yang berarti meminimalkan jarak vertikal. Ini tentu saja mendefinisikan residu.
Juga, rumus kuadrat terkecil lebih mudah diperoleh daripada kebanyakan metode yang bersaing lainnya, yang mungkin mengapa datang lebih dulu. : P
Seperti yang disinggung oleh 'whuber' di atas, ada pendekatan lain yang memperlakukan X dan Y dengan penekanan yang sama ketika memasang garis yang paling cocok. Salah satu pendekatan yang saya ketahui adalah regresi "garis utama" atau "kurva utama", yang meminimalkan jarak ortogonal antara titik dan garis (alih-alih garis kesalahan vertikal yang Anda miliki ada pada 90 derajat ke garis yang dipasang) . Saya memposting satu referensi di bawah untuk bacaan Anda. Itu panjang tapi sangat mudah diakses dan mencerahkan.
Semoga ini bisa membantu, Brenden
sumber
Ini mungkin juga berkaitan dengan eksperimen yang dirancang - jika x adalah kuantitas terkontrol yang merupakan bagian dari desain eksperimental, itu diperlakukan sebagai deterministik; sementara y adalah hasilnya, dan merupakan jumlah acak. x mungkin kuantitas yang kontinu (misalnya konsentrasi beberapa obat) tetapi bisa berupa split 0/1 (mengarah ke uji-2 sampel dengan asumsi y adalah Gaussian). Jika x adalah kuantitas kontinu mungkin ada beberapa kesalahan pengukuran, tetapi biasanya jika ini jauh lebih kecil dari variabilitas y maka ini diabaikan.
sumber