Misalkan saya punya sampel acak .
Seharusnya
dan
Apa perbedaan antara dan ?
regression
Stan Shunpike
sumber
sumber
Jawaban:
Idenya adalah Anda bekerja dengan sampel dari suatu populasi. Sampel Anda membentuk cloud data, jika Anda mau. Salah satu dimensi sesuai dengan variabel dependen, dan Anda mencoba menyesuaikan garis yang meminimalkan istilah kesalahan - dalam OLS, ini adalah proyeksi dari variabel dependen pada subruang vektor yang dibentuk oleh ruang kolom dari matriks model. Estimasi parameter populasi ini dilambangkan denganβ^ simbol. Semakin banyak titik data yang Anda miliki semakin akurat perkiraan koefisien,β^saya adalah, dan semakin baik estimasi koefisien populasi ideal ini, βsaya .
Inilah perbedaan lereng (β melawan β^ ) antara "populasi" berwarna biru, dan sampel dalam titik hitam terisolasi:
Garis regresi bertitik dan berwarna hitam, sedangkan garis "populasi" yang sempurna secara sintetis berwarna biru pekat. Kelimpahan poin memberikan rasa sentuhan normalitas dari distribusi residu.
sumber
The "topi" simbol umumnya menunjukkan perkiraan, yang bertentangan dengan nilai "true". Karena ituβ^ adalah estimasi β . Beberapa simbol memiliki konvensi sendiri: varians sampel, misalnya, sering ditulis sebagais2 tidak σ^2 , meskipun beberapa orang menggunakan keduanya untuk membedakan antara estimasi yang bias dan tidak bias.
Dalam kasus spesifik Anda, theβ^ nilai adalah estimasi parameter untuk model linier. Model linier mengandaikan bahwa variabel hasilY dihasilkan oleh kombinasi linear dari xsaya s, masing-masing ditimbang oleh yang sesuai βsaya nilai. Dalam praktiknya, tentu saja, iniβ nilai tidak diketahui dan bahkan mungkin tidak ada (mungkin data tidak dihasilkan oleh model linier). Namun demikian, kita dapat memperkirakanβ^ nilai dari data yang mendekati Y .
sumber
Persamaannya
adalah apa yang disebut sebagai model yang sebenarnya. Persamaan ini mengatakan bahwa hubungan antar variabelx dan variabelnya y dapat dijelaskan oleh garis y=β0+β1x . Namun, karena nilai yang diamati tidak akan pernah mengikuti persamaan yang tepat (karena kesalahan), tambahanϵi istilah kesalahan ditambahkan untuk menunjukkan kesalahan. Kesalahan dapat diartikan sebagai penyimpangan alami dari hubunganx dan y . Di bawah ini saya menunjukkan dua pasangx dan y (titik-titik hitam adalah data). Secara umum orang dapat melihatnya sebagaix meningkat y meningkat. Untuk kedua pasangan, persamaan sebenarnya adalah
Mari kita lihat plot di sebelah kiri. Kebenaranβ0=4 dan yang benar β1 = 3. Tetapi dalam praktiknya ketika diberi data, kita tidak tahu kebenarannya. Jadi kami memperkirakan kebenarannya. Kami memperkirakanβ0 dengan β^0 dan β1 dengan β^1 . Bergantung pada metode statistik mana yang digunakan, estimasi bisa sangat berbeda. Dalam pengaturan regresi, estimasi diperoleh melalui metode yang disebut Ordinary Least Squares. Ini juga dikenal sebagai metode garis paling cocok. Pada dasarnya, Anda perlu menggambar garis yang paling cocok dengan data. Saya tidak membahas rumus di sini, tetapi menggunakan rumus untuk OLS, Anda dapatkan
dan garis yang dihasilkan paling cocok adalah,
Contoh sederhana adalah hubungan antara ketinggian ibu dan anak perempuan. Membiarkanx= tinggi ibu dan y = ketinggian anak perempuan. Secara alami, orang akan mengharapkan ibu yang lebih tinggi untuk memiliki anak perempuan yang lebih tinggi (karena kesamaan genetik). Namun, apakah menurut Anda satu persamaan dapat meringkas dengan tepat tinggi ibu dan anak perempuan, sehingga jika saya mengetahui tinggi ibu, saya akan dapat memperkirakan tinggi persis anak perempuan itu? Di sisi lain, orang mungkin bisa meringkas hubungan dengan bantuan rata-rata pernyataan .
TL DR:β adalah kebenaran populasi. Ini mewakili hubungan yang tidak diketahui antaray dan x . Karena kita tidak selalu bisa mendapatkan semua nilai yang mungkin dariy dan x , kami mengumpulkan sampel dari populasi, dan mencoba serta memperkirakannya β menggunakan data. β^ adalah estimasi kami. Ini adalah fungsi dari data.β adalah tidak fungsi dari data, tapi kebenaran.
sumber