Menjelaskan Varian Model Regresi

13

Ini mungkin penjelasan sederhana (saya berharap sih).

Saya telah melakukan beberapa analisis regresi di Matlab menggunakan kotak alat regresi. Namun, saya menemukan studi yang menyatakan ini:

"Menggunakan analisis regresi, adalah mungkin untuk membuat model prediksi menggunakan hanya empat fitur sonik yang menjelaskan 60% dari varians"

Tautan ke artikel ada di sini jika diperlukan: Artikel

Saya tidak 100% yakin apa artinya ini, tapi saya berharap ini sesuatu yang sederhana. Juga apakah 60% hal yang baik? Saya telah mencoba mencari ini tetapi karena selalu ada persentase sebelum kata 'varians', sulit untuk menemukan jawabannya.

pengguna1574598
sumber

Jawaban:

9

Saya akan mencoba menjelaskan ini secara sederhana.

Model regresi berfokus pada hubungan antara variabel dependen dan satu set variabel independen . Variabel dependen adalah hasil, yang Anda coba prediksi, menggunakan satu atau lebih variabel independen.

Asumsikan Anda memiliki model seperti ini:

Weight_i = 3.0 + 35 * Tinggi_i + ε

Sekarang salah satu pertanyaan yang jelas adalah: seberapa baik model ini bekerja? Dengan kata lain, seberapa baik ketinggian seseorang secara akurat memprediksi - atau menjelaskan - berat orang itu?

Sebelum kita menjawab pertanyaan ini, pertama-tama kita perlu memahami berapa banyak fluktuasi yang kita amati dalam bobot orang. Ini penting, karena apa yang kami coba lakukan di sini adalah menjelaskan fluktuasi (variasi) bobot pada orang yang berbeda, dengan menggunakan ketinggiannya. Jika tinggi badan orang mampu menjelaskan variasi berat ini, maka kita memiliki model yang baik.

The varians adalah baik metrik yang akan digunakan untuk tujuan ini, karena ukuran seberapa jauh satu set nomor tersebar (dari nilai rata-rata mereka).

Ini membantu kita mengulangi pertanyaan awal kita: Berapa banyak perbedaan berat badan seseorang yang bisa dijelaskan oleh tingginya ?

Di sinilah "% varians dijelaskan" berasal. By the way, untuk analisis regresi, itu sama dengan koefisien korelasi R-squared .

Untuk model di atas, kita mungkin bisa membuat pernyataan seperti: Menggunakan analisis regresi, adalah mungkin untuk membuat sebuah model prediktif menggunakan ketinggian seseorang yang menjelaskan 60% dari varians dalam berat badan ”.

Sekarang, seberapa bagus 60%? Sulit untuk membuat penilaian obyektif tentang ini. Tetapi jika Anda memiliki model lain yang bersaing - katakanlah, model regresi lain yang menggunakan usia seseorang untuk memprediksi beratnya - Anda dapat membandingkan berbagai model berdasarkan pada seberapa banyak perbedaan yang dijelaskan oleh mereka dan memutuskan model mana yang lebih baik. (Ada beberapa peringatan untuk ini, lihat 'Menafsirkan dan Menggunakan Regresi' - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )

Vishal
sumber
1
Itu tentu menjawab sebagian besar pertanyaan saya. Dalam hal mengapa penulis menyatakan ini seperti sangat penting, saya tidak tahu. Jadi, jika ini adalah nilai R-sqaured dan kami kembali ke contoh Anda: katakanlah kami menggunakan model untuk 'usia' yang memiliki varian 80%, dan kemudian model untuk 'tinggi' yang memiliki varian 85 Untuk memprediksi berat badan seseorang, saya anggap bahwa model yang terakhir akan lebih signifikan? Terima kasih untuk tautan buku, saya membelinya tadi malam karena saya akan menggunakan regresi cukup banyak dalam beberapa bulan mendatang.
user1574598
1
Ya, Anda dapat menyimpulkan bahwa model terakhir lebih baik dalam kemampuannya untuk memprediksi (atau, menjelaskan) berat seseorang, ceteris paribus. BTW, Anda menyatakan ini sebagai "model memiliki varian 80%", tetapi seharusnya "model menjelaskan 80% varian".
Vishal
4

Penulis mengacu pada nilai untuk model yang diberikan oleh rumusR2

i=1n(y^iy¯)2i=1n(yiy¯)2

di mana adalah nilai yang diamati, nilai kotak kuadrat terkecil untuk titik data dan adalah rata-rata keseluruhan. Kami kadang-kadang menganggap sebagai proporsi variasi yang dijelaskan oleh model karena jumlah total dekomposisi kuadratyiy^iithy¯R2

i=1n(yiy¯)2=i=1n(y^iy¯)2+i=1n(yiy^i)2,

istilah terakhir adalah kesalahan residual yang tidak diperhitungkan oleh model. The pada dasarnya memberitahu kita berapa banyak variasi secara keseluruhan telah "diserap ke dalam" nilai-nilai pas.R2

dsaxton
sumber