Mengapa kita mengatakan variabel hasil "regresi" pada prediktor?

16

Apakah ada penjelasan intuitif untuk terminologi ini? Mengapa demikian, dan bukankah para prediktor mengalami kemunduran pada hasilnya?

Idealnya saya berharap bahwa penjelasan yang tepat tentang mengapa istilah ini ada akan membantu siswa mengingatnya, dan menghentikan mereka dari mengatakannya dengan cara yang salah.

user1205901 - Pasang kembali Monica
sumber
1
Apakah kita Saya tidak yakin saya pernah mengatakan itu - dan saya sudah banyak membahas regresi. Jika Anda mengenal seseorang yang mengatakannya, mungkin Anda bisa bertanya kepada mereka. (Saya kadang-kadang mengatakan " mundur " - tetapi ke akan terdengar agak aneh bagi saya)
Glen_b -Reinstate Monica
Terima kasih - maksud saya "pada" dan bukan "ke". Saya sudah memperbaikinya sekarang.
user1205901
Terkait: Mengapa masalah regresi disebut masalah "regresi"?
Amoeba berkata Reinstate Monica

Jawaban:

19

Saya tidak tahu apa etimologi "sedang diregresikan", tetapi inilah interpretasi yang ada dalam pikiran saya ketika saya mengatakan atau mendengar ungkapan ini. Pertimbangkan gambar berikut dari The Elements of Statistics Learning oleh Hastie et al .:

regresi adalah proyeksi

Pada intinya, jumlah regresi linier adalah proyeksi ortogonal dari pada (ke) X , di mana y adalah vektor n- dimensi pengamatan variabel dependen dan X adalah subruang yang direntang oleh vektor prediktor.yXynX

Ini adalah interpretasi yang sangat berguna dari regresi linier.

Sejak sedang diproyeksikan di X , yang adalah apa yang saya pikir ketika saya mendengar bahwa y adalah "kemunduran pada" X . Dari sudut pandang ini, itu akan membuat kurang akal untuk mengatakan bahwa X adalah kemunduran pada y atau yang y adalah kemunduran "melawan" atau "dengan" X .yXyXXyyX

Idealnya saya berharap bahwa penjelasan yang tepat tentang mengapa istilah ini ada akan membantu siswa mengingatnya, dan menghentikan mereka dari mengatakannya dengan cara yang salah.

Seperti yang saya katakan, saya ragu bahwa ini adalah penjelasan mengapa terminologi ini ada (mungkin hanya mengapa itu bertahan?), Tetapi saya yakin itu dapat membantu siswa mengingatnya.

amuba kata Reinstate Monica
sumber
2
+1. Tergantung pada siswa! Ini jelas merupakan cara yang valid dan bermanfaat untuk berbicara dan berpikir pada tingkat menengah atau lanjutan. Apakah itu bertanggung jawab untuk terminologi "pada" saya bertanya-tanya. Belum lama ini Anda dapat menemukan teks regresi dengan hampir tanpa diagram, apalagi pendekatan yang sangat visual atau geometris, meskipun itu sekarang benar-benar standar, sedangkan saya pikir terminologi ini kembali beberapa dekade.
Nick Cox
(+1) Satu-satunya cara saya mendapatkan konsep regresi melalui tengkorak saya adalah memikirkannya sebagai proyeksi ke ruang kolom C ( A ) dari matriks model, yang saya pikir itu adalah interpretasi geometris yang Anda tunjukkan . yC(A)
Antoni Parellada
1
Ini adalah alasan statistik yang sangat bagus untuk menggunakan terminologi. Alasan sosial atau bahasa mengapa itu populer bisa berbeda!
Nick Cox
Untuk lebih jelasnya: Saya sepenuhnya setuju dengan apa yang dikatakan @NickCox dalam komentar di sini.
Amoeba berkata Reinstate Monica
6

Saya sering menggunakan dan mendengar cara berbicara ini. Saya menduga bahwa urutan yang menyebutkan hasil atau tanggapan sebelum prediktor mengikuti dari konvensi secara tertulis, menggunakan kata-kata atau menggunakan notasi atau mencampur keduanya, semua jalan hingga

Y=Xβ

mengesampingkan pertanyaan yang sama menarik (atau tidak menarik!) dari apa yang kita sebut berbagai jenis variabel.

Tetapi tampaknya sama-sama valid secara matematis dan statistik untuk menyebutkan prediktor terlebih dahulu, seperti halnya banyak matematikawan menulis pemetaan atau fungsi dengan argumen terlebih dahulu.

Apa yang sering mendorong urutan yang kita gunakan dalam diskusi statistik adalah bahwa secara ilmiah atau praktis kita biasanya memiliki gagasan yang jelas tentang apa yang kita coba prediksi - itu adalah kematian, atau pendapatan, atau hasil gandum, atau suara dalam pemilihan, atau apa pun - sementara kumpulan prediksi potensial atau aktual mungkin tidak begitu jelas. Bahkan jika jelas, masuk akal untuk menyebutkan hal-hal penting terlebih dahulu. Apa yang sedang Anda coba lakukan? Prediksikan apa saja . Bagaimana kamu akan melakukannya? Gunakan beberapa atau semua variabel ini .

Saya tidak punya cerita untuk "on" daripada kata lain yang cocok. Saya tidak mendengar "mundur melawan" atau "mundur dengan". Mungkin tidak ada logika di sini, hanya meme yang diteruskan dalam buku pelajaran, pengajaran dan diskusi.

yx

Nick Cox
sumber
+1. Tetapi interpretasi pribadi saya tentang "mengalami kemunduran" adalah melalui "diproyeksikan", lihat jawaban saya. Saya bertanya-tanya apakah banyak orang berpikir tentang ungkapan ini dengan cara ini, atau hanya saya.
Amuba kata Reinstate Monica
3

1) Istilah regresi berasal dari fakta bahwa dalam model regresi linier sederhana yang biasa:

y=α+βx+ϵ

yxy^y¯xx¯

|y^-y¯|/sy<|x-x¯|/sx

Sebagai contoh jika kita menggunakan bingkai data BOD yang dibangun ke dalam R maka:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

Untuk bukti, lihat: https://en.wikipedia.org/wiki/Regression_toward_the_mean

2) Istilah pada berasal dari fakta bahwa nilai-nilai yang dipasang adalah proyeksi dari variabel hasil ke subruang yang direntang oleh variabel prediktor (termasuk intersep) sebagaimana dijelaskan lebih lanjut dalam banyak sumber seperti http: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / slide / linearRegression.pdf .

Catatan

Mengenai komentar di bawah ini, apa yang dinyatakan oleh komentator adalah apa jawaban yang sudah dinyatakan di atas dalam bentuk rumus kecuali bahwa jawaban menyatakannya dengan benar. Bahkan, karena kesetaraan:

(y^-y¯)=β^(x-x¯)

|β|<1. Apa yang benar adalah bahwa variabel dependen rata-rata lebih sedikit standar deviasi dari rata-rata daripada prediktornya seperti yang dinyatakan dalam rumus dalam jawaban.

Dengan menggunakan data Galton yang merujuk komentar (yang tersedia dalam paket UsingR dalam R) saya menjalankan regresi dan sebenarnya kemiringannya adalah 0,646 sehingga rata-rata anak lebih dekat dengan rata-rata daripada orang tuanya dibandingkan dengan orang tuanya tetapi bukan kasus umum. Penggunaan regresi untuk mean saat ini didasarkan pada hubungan umum yang benar yang kami tunjukkan dalam jawaban. Dalam contoh yang ditunjukkan pada kode R dalam jawaban di atasbetSebuah>1jadi tidak benar bahwa permintaan selalu lebih dekat dengan permintaan rata-rata daripada Waktu adalah dengan rata-rata Waktu dan kita dapat dengan mudah memeriksa secara numerik dalam contoh ini bahwa itu tidak selalu lebih dekat. Itu hanya benar jika kita mengukur kedekatan dalam penyimpangan standar seperti yang ditunjukkan oleh ketidaksetaraan jawaban.

G. Grothendieck
sumber
1
Saya cukup yakin bukan dari situlah istilah regresi berasal. Pada awalnya, penggunaan istilah tinggi putra mengalami kemunduran pada tinggi ayah; karena rata-rata temuan pengembalian menunjukkan anak laki-laki ayah cenderung cenderung mundur ke rata-rata.
PaulB
Sementara itu berlaku untuk dataset tertentu yang tidak secara umum benar, kecuali jika Anda mengukur kedekatan dalam hal standar deviasi, tetapi justru itulah yang terjadi pada ketidaksetaraan jawaban sehingga mungkin Anda hanya tidak mengenalinya. Sebenarnya gagasan modern didasarkan pada formulasi yang benar yang telah saya nyatakan dan bukan pada formulasi yang salah yang tidak melibatkan standar deviasi. Saya telah memperluas ini di Catatan yang telah saya tambahkan di akhir jawaban.
G. Grothendieck
0

Secara pribadi, ketika menjelaskan terminologi, saya menemukan definisi istilah itu sendiri selalu membantu, terutama ketika menjelaskan kepada siswa. Definisi sebenarnya dari kata regress adalah:

"kembali ke negara bekas atau kurang berkembang".

Jadi salah satu cara untuk menjelaskan saya kira adalah sebagai berikut:

"Memikirkan hasil sebagai negara berkembang sepenuhnya, kami mencoba menjelaskan hasil dengan menggunakan negara-negara yang kurang berkembang, yaitu variabel independen. Dengan demikian hasilnya adalah regresi pada prediktor."

Semoga itu bisa membantu.

EhsanF
sumber
1
Ada lebih dari satu "definisi aktual". Saya akan menyarankan bahwa dalam ilmu statistik definisi teknis regresi sesuai dengan model (secara default model linier) sekarang primer dan pengertian historis. Seperti ditangkap oleh "kemunduran untuk mean", yang tetap menarik dan beberapa kali berguna, adalah sekunder. Saya tidak merasa terbantu untuk berpikir bahwa para prediktor secara umum adalah "negara-negara yang kurang berkembang", misalnya tidak ada pengertian di mana curah hujan prediktor adalah kondisi hasil gandum yang kurang berkembang. Either way, saya tidak melihat bagaimana ini menjelaskan ekspresi.
Nick Cox
Saya mengerti maksud Anda sepenuhnya. Apakah ada cara Anda bisa menjelaskan regresi melalui definisi yang saya posting? Karena cara saya berpikir "kurang berkembang" tidak dalam arti curah hujan kurang berkembang daripada hasil gandum, tetapi lebih sebagai sesuatu yang sebagian dapat menjelaskan hasil gandum.
EhsanF
1
Jika "kurang berkembang" tidak berarti kurang berkembang, saya tidak bisa melihat bahwa kata-katanya membantu sama sekali.
Nick Cox