Apakah ada penjelasan intuitif untuk terminologi ini? Mengapa demikian, dan bukankah para prediktor mengalami kemunduran pada hasilnya?
Idealnya saya berharap bahwa penjelasan yang tepat tentang mengapa istilah ini ada akan membantu siswa mengingatnya, dan menghentikan mereka dari mengatakannya dengan cara yang salah.
regression
terminology
teaching
user1205901 - Pasang kembali Monica
sumber
sumber
Jawaban:
Saya tidak tahu apa etimologi "sedang diregresikan", tetapi inilah interpretasi yang ada dalam pikiran saya ketika saya mengatakan atau mendengar ungkapan ini. Pertimbangkan gambar berikut dari The Elements of Statistics Learning oleh Hastie et al .:
Pada intinya, jumlah regresi linier adalah proyeksi ortogonal dari pada (ke) X , di mana y adalah vektor n- dimensi pengamatan variabel dependen dan X adalah subruang yang direntang oleh vektor prediktor.y X y n X
Ini adalah interpretasi yang sangat berguna dari regresi linier.
Sejak sedang diproyeksikan di X , yang adalah apa yang saya pikir ketika saya mendengar bahwa y adalah "kemunduran pada" X . Dari sudut pandang ini, itu akan membuat kurang akal untuk mengatakan bahwa X adalah kemunduran pada y atau yang y adalah kemunduran "melawan" atau "dengan" X .y X y X X y y X
Seperti yang saya katakan, saya ragu bahwa ini adalah penjelasan mengapa terminologi ini ada (mungkin hanya mengapa itu bertahan?), Tetapi saya yakin itu dapat membantu siswa mengingatnya.
sumber
Saya sering menggunakan dan mendengar cara berbicara ini. Saya menduga bahwa urutan yang menyebutkan hasil atau tanggapan sebelum prediktor mengikuti dari konvensi secara tertulis, menggunakan kata-kata atau menggunakan notasi atau mencampur keduanya, semua jalan hingga
mengesampingkan pertanyaan yang sama menarik (atau tidak menarik!) dari apa yang kita sebut berbagai jenis variabel.
Tetapi tampaknya sama-sama valid secara matematis dan statistik untuk menyebutkan prediktor terlebih dahulu, seperti halnya banyak matematikawan menulis pemetaan atau fungsi dengan argumen terlebih dahulu.
Apa yang sering mendorong urutan yang kita gunakan dalam diskusi statistik adalah bahwa secara ilmiah atau praktis kita biasanya memiliki gagasan yang jelas tentang apa yang kita coba prediksi - itu adalah kematian, atau pendapatan, atau hasil gandum, atau suara dalam pemilihan, atau apa pun - sementara kumpulan prediksi potensial atau aktual mungkin tidak begitu jelas. Bahkan jika jelas, masuk akal untuk menyebutkan hal-hal penting terlebih dahulu. Apa yang sedang Anda coba lakukan? Prediksikan apa saja . Bagaimana kamu akan melakukannya? Gunakan beberapa atau semua variabel ini .
Saya tidak punya cerita untuk "on" daripada kata lain yang cocok. Saya tidak mendengar "mundur melawan" atau "mundur dengan". Mungkin tidak ada logika di sini, hanya meme yang diteruskan dalam buku pelajaran, pengajaran dan diskusi.
sumber
1) Istilah regresi berasal dari fakta bahwa dalam model regresi linier sederhana yang biasa:
Sebagai contoh jika kita menggunakan bingkai data BOD yang dibangun ke dalam R maka:
Untuk bukti, lihat: https://en.wikipedia.org/wiki/Regression_toward_the_mean
2) Istilah pada berasal dari fakta bahwa nilai-nilai yang dipasang adalah proyeksi dari variabel hasil ke subruang yang direntang oleh variabel prediktor (termasuk intersep) sebagaimana dijelaskan lebih lanjut dalam banyak sumber seperti http: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / slide / linearRegression.pdf .
Catatan
Mengenai komentar di bawah ini, apa yang dinyatakan oleh komentator adalah apa jawaban yang sudah dinyatakan di atas dalam bentuk rumus kecuali bahwa jawaban menyatakannya dengan benar. Bahkan, karena kesetaraan:
Dengan menggunakan data Galton yang merujuk komentar (yang tersedia dalam paket UsingR dalam R) saya menjalankan regresi dan sebenarnya kemiringannya adalah 0,646 sehingga rata-rata anak lebih dekat dengan rata-rata daripada orang tuanya dibandingkan dengan orang tuanya tetapi bukan kasus umum. Penggunaan regresi untuk mean saat ini didasarkan pada hubungan umum yang benar yang kami tunjukkan dalam jawaban. Dalam contoh yang ditunjukkan pada kode R dalam jawaban di atasb e t a > 1 jadi tidak benar bahwa permintaan selalu lebih dekat dengan permintaan rata-rata daripada Waktu adalah dengan rata-rata Waktu dan kita dapat dengan mudah memeriksa secara numerik dalam contoh ini bahwa itu tidak selalu lebih dekat. Itu hanya benar jika kita mengukur kedekatan dalam penyimpangan standar seperti yang ditunjukkan oleh ketidaksetaraan jawaban.
sumber
Secara pribadi, ketika menjelaskan terminologi, saya menemukan definisi istilah itu sendiri selalu membantu, terutama ketika menjelaskan kepada siswa. Definisi sebenarnya dari kata regress adalah:
"kembali ke negara bekas atau kurang berkembang".
Jadi salah satu cara untuk menjelaskan saya kira adalah sebagai berikut:
"Memikirkan hasil sebagai negara berkembang sepenuhnya, kami mencoba menjelaskan hasil dengan menggunakan negara-negara yang kurang berkembang, yaitu variabel independen. Dengan demikian hasilnya adalah regresi pada prediktor."
Semoga itu bisa membantu.
sumber