Mengapa regresi tentang varians?

19

Saya membaca catatan ini .

Pada halaman 2, ini menyatakan:

"Berapa banyak varian dalam data dijelaskan oleh model regresi yang diberikan?"

"Interpretasi regresi adalah tentang rata-rata koefisien; kesimpulannya adalah tentang varians mereka."

Saya telah membaca tentang pernyataan seperti itu berkali-kali, mengapa kita peduli tentang "seberapa banyak perbedaan dalam data dijelaskan oleh model regresi yang diberikan?" ... lebih khusus lagi, mengapa "perbedaan"?

Luna
sumber
"[V] ariance" sebagai kebalikan dari apa, standar deviasi? Menurut Anda apa yang harus kita perhatikan dalam regresi? Apa tujuan khas Anda dalam membangun model regresi?
gung - Reinstate Monica
Varians memiliki unit yang berbeda dari kuantitas yang dimodelkan, jadi saya selalu merasa sulit untuk menafsirkan "proporsi varian dijelaskan oleh model".
terbang

Jawaban:

18

mengapa kita peduli tentang "berapa banyak varians dalam data dijelaskan oleh model regresi yang diberikan?"

Untuk menjawab ini, penting untuk memikirkan dengan tepat apa artinya persentase tertentu dari varian dijelaskan oleh model regresi.

Biarkan menjadi variabel hasil. Varians sampel biasa dari variabel dependen dalam model regresi adalah Sekarang mari menjadi prediksi berdasarkan model regresi linier kuadrat terkecil dengan nilai prediktor . Sebagaimana dibuktikan di sini , varian di atas dapat dipartisi sebagai:1Y1,...,Yn Y i f (Xi)YiXi1

1n-1saya=1n(Ysaya-Y¯)2
Y^sayaf^(Xsaya)YsayaXsaya
1n-1saya=1n(Ysaya-Y¯)2=1n-1saya=1n(Ysaya-Y^saya)2ressayadkamuSebuahl vSebuahrsayaSebuahnce+1n-1saya=1n(Y^saya-Y¯)2exhallSebuahsayaned vSebuahrsayaSebuahnce

Dalam regresi kuadrat terkecil, rata-rata nilai prediksi adalah , oleh karena itu total varians sama dengan perbedaan kuadrat rata-rata antara nilai yang diamati dan yang diprediksi (varians residual) ditambah varians sampel dari prediksi itu sendiri (dijelaskan variance), yang hanya merupakan fungsi dari s . Oleh karena itu varian "yang dijelaskan" dapat dianggap sebagai varian dalam yang disebabkan oleh variasi dalam . Proporsi varians dalam yang "dijelaskan" (yaitu proporsi variasi dalam yang disebabkan oleh variasi dalam XYiXiYiYiXiR2Y¯XYsayaXsayaYsayaYsayaXsaya) kadang-kadang disebut sebagai . R2

Sekarang kita menggunakan dua contoh ekstrim memperjelas mengapa dekomposisi varian ini penting:

  • (1) Prediktor tidak ada hubungannya dengan respons . Dalam hal itu, prediktor tidak bias terbaik (dalam pengertian kuadrat terkecil) untuk adalah . Oleh karena itu total varians dalam hanya sama dengan varians residual dan tidak terkait dengan varians dalam prediktor .Y i = ¯ Y Y i X iYsayaY^saya=Y¯YsayaXsaya

  • (2) Prediktor sangat linier terkait dengan prediktor . Dalam hal ini, prediksi tersebut benar dan . Oleh karena itu tidak ada varians residual dan semua varians dalam hasil adalah varians dalam prediksi itu sendiri, yang hanya merupakan fungsi dari prediktor. Oleh karena itu semua varians dalam hasil hanya karena varians dalam prediktor .Y^saya=YsayaXsaya

Situasi dengan data nyata akan sering berada di antara dua ekstrem, demikian juga proporsi varians yang dapat dikaitkan dengan dua sumber ini. Semakin "dijelaskan varians" ada - yaitu semakin banyak variasi dalam yang disebabkan oleh variasi dalam - semakin baik prediksi berkinerja (yaitu semakin kecil "varians residual" adalah), yang merupakan cara lain untuk mengatakan bahwa model kuadrat paling cocok. YsayaXsayaY^saya

Makro
sumber
Ini seperti jawaban saya tapi mungkin sedikit lebih baik dijelaskan. Saya juga melihat kritik yang mungkin bisa disebutkan adalah bahwa saya seharusnya menulis variasi relatif terhadap rata-rata Y.
Michael R. Chernick
1
@MichaelChernick, ya tapi dalam regresi kuadrat (yang saya pikir OP bicarakan berdasarkan slide yang ditautkan), nilai rata-rata yang diprediksi sama dengan nilai rata-rata , jadi Anda bisa menyebutnya varians sampel dari prediksi. Y
Makro
Saya melakukan edit pada jawaban saya karena Yb diperlukan agar dekomposisi varians berfungsi dengan baik.
Michael R. Chernick
Ya jelas bagi saya bahwa dia mengacu pada regresi kuadrat terkecil. Masih banyak dari apa yang Anda tulis hanya mengulangi apa yang saya katakan sedikit berbeda. Saya masih memberi Anda +1.
Michael R. Chernick
1
Makro, maksud saya adalah dekomposisi ini hanya terjadi jika dan jadi "regresi" secara inheren melibatkan proyeksi ortogonal ke ruang yang berisi vektor konstan. Perhatikan bahwa kami dapat dengan mudah "memecah" dekomposisi ini hanya dengan menghapus vektor konstan dari model kami, yang tampaknya bertentangan dengan komentar terakhir Anda. y-y^,y^-y¯1=0
kardinal
9

Saya tidak dapat berlari dengan anjing-anjing besar statistik yang telah menjawab sebelum saya, dan mungkin pemikiran saya naif, tetapi saya melihatnya seperti ini ...

Bayangkan Anda berada di dalam mobil dan Anda menyusuri jalan dan memutar roda ke kiri dan ke kanan dan menekan pedal gas dan rem dengan panik. Namun mobil berjalan dengan lancar, tidak terpengaruh oleh tindakan Anda. Anda akan segera curiga bahwa Anda tidak berada di dalam mobil sungguhan, dan mungkin jika kami melihat lebih dekat, kami akan menentukan bahwa Anda sedang dalam perjalanan di Disney World. (Jika Anda berada di mobil sungguhan, Anda akan berada dalam bahaya besar, tetapi jangan pergi ke sana.)

Di sisi lain, jika Anda mengemudi di jalan di dalam mobil dan memutar roda hanya sedikit ke kiri atau ke kanan segera mengakibatkan mobil bergerak, merekam rem menghasilkan perlambatan yang kuat, sambil menekan pedal gas melemparkan Anda kembali ke kursi. Anda mungkin curiga bahwa Anda berada di dalam mobil sport berkinerja tinggi.

Secara umum, Anda mungkin mengalami sesuatu di antara kedua ekstrem itu. Sejauh mana input Anda (kemudi, rem, gas) secara langsung mempengaruhi gerakan mobil memberi Anda petunjuk tentang kualitas mobil. Artinya, semakin banyak varian mobil Anda yang terkait dengan tindakan Anda, semakin baik mobil, dan semakin banyak mobil bergerak secara independen dari kendali Anda, semakin buruk mobil itu.

Dengan cara yang sama, Anda berbicara tentang membuat model untuk beberapa data (sebut saja data ini ), berdasarkan beberapa set data lainnya (sebut saja mereka ). Jika tidak bervariasi, itu seperti mobil yang tidak bergerak dan ada benar-benar ada gunanya membahas jika mobil (model) bekerja dengan baik atau tidak, jadi kami akan menganggap tidak bervariasi.x 1 , x 2 , . . . , x i y yyx1,x2,...,xsayayy

Sama seperti mobil, model berkualitas baik akan memiliki hubungan yang baik antara hasil bervariasi dan input bervariasi. Tidak seperti mobil, tidak selalu menyebabkan berubah, tetapi jika modelnya akan berguna, perlu diubah dalam hubungan yang dekat dengan . Dengan kata lain, menjelaskan banyak perbedaan dalam .x i x i y x i y x i yyxsayaxsaya yxsayayxsayay

PS Saya tidak bisa membuat analogi Winnie The Pooh, tetapi saya mencoba.

PPS [EDIT:] Perhatikan bahwa saya sedang menjawab pertanyaan khusus ini. Jangan bingung untuk berpikir bahwa jika Anda menghitung 100% dari varians model Anda akan tampil luar biasa. Anda juga perlu memikirkan over-fitting, di mana model Anda sangat fleksibel sehingga sangat cocok dengan data pelatihan - termasuk keanehan acak dan keanehan. Untuk menggunakan analogi ini, Anda menginginkan mobil yang memiliki kemudi dan rem yang baik, tetapi Anda ingin mobil itu bekerja dengan baik di jalan, tidak hanya di jalur uji yang Anda gunakan.

Wayne
sumber