Dalam Analisis Regresi, mengapa kita menyebut variabel independen "independen"?

30

Maksud saya beberapa variabel tersebut sangat berkorelasi di antara mereka. Bagaimana / mengapa / dalam konteks apa kita mendefinisikannya sebagai variabel independen ?

Amarpreet Singh
sumber
1
Itu sejarah dan berasal dari karya ilmiah Prancis. Saya mencoba mencari referensi.
Alecos Papadopoulos
1
Saya akan memanggil satu set variabel "berpotensi co-dependen" untuk menghindari menyimpulkan kausalitas.
qed
1
Pertanyaan yang bagus!
Rafael Marazuela

Jawaban:

29

Jika kita menarik kembali dari penekanan hari ini pada pembelajaran mesin dan mengingat berapa banyak analisis statistik dikembangkan untuk studi eksperimental terkontrol, frase "variabel independen" masuk akal.

Dalam studi eksperimental terkontrol, pilihan obat dan konsentrasinya, atau pilihan pupuk dan jumlah per acre, dibuat secara independen oleh peneliti. Yang menjadi perhatian adalah bagaimana variabel respons yang diminati (misalnya, tekanan darah, hasil panen) bergantung pada manipulasi eksperimental ini. Idealnya, karakteristik variabel independen ditentukan secara ketat, dengan dasarnya tidak ada kesalahan dalam mengetahui nilai-nilai mereka. Kemudian regresi linier standar, misalnya, memodelkan perbedaan antara nilai-nilai variabel dependen dalam hal nilai-nilai variabel independen ditambah kesalahan residual.

Formalisme matematika yang sama digunakan untuk regresi dalam konteks studi eksperimental terkontrol juga dapat diterapkan untuk analisis set data yang diamati dengan sedikit atau tidak ada manipulasi eksperimental, jadi mungkin tidak mengherankan bahwa frase "variabel independen" telah dibawa ke jenis seperti studi. Tetapi, sebagaimana dicatat oleh orang lain di halaman ini, itu mungkin pilihan yang tidak menguntungkan, dengan "prediktor" atau "fitur" yang lebih tepat dalam konteks seperti itu.

EdM
sumber
2
Tetapi pilihan tingkat obat tergantung pada apa yang dilakukan penyelidik sehingga saya tidak dapat mengingat yang mana.
mdewey
Dalam pembelajaran mesin, "fitur" seringkali merupakan variabel laten dan tidak teramati. "Fitur yang diamati" lebih umum.
Neil G
18

Dalam banyak hal, "variabel independen" adalah pilihan yang tidak menguntungkan. Variabel tidak perlu independen satu sama lain, dan tentu saja tidak perlu menjadi independen dari variabel dependen . Dalam mengajar dan dalam buku saya Strategi Pemodelan Regresi, saya menggunakan kata prediktor . Dalam beberapa situasi kata itu tidak cukup kuat, tetapi rata-rata berfungsi dengan baik. Deskripsi lengkap tentang peran variabel (sisi kanan) dalam model statistik mungkin terlalu lama untuk digunakan setiap kali: set variabel atau pengukuran yang mendasari distribusi dikondisikan. Ini adalah cara lain untuk mengatakan himpunan variabel yang distribusinya saat ini tidak kami minati, tetapi yang nilainya kami perlakukan sebagai konstanta.X YYXY

Frank Harrell
sumber
Jadi semua yang Anda katakan bahwa memanggil variabel input sebagai "independen" adalah praktik yang salah? @ Jujur
Amarpreet Singh
11
Mereka pasti tidak dianggap independen dari APA SAJA jadi itu praktik yang salah, hanya digunakan karena kebiasaan.
Frank Harrell
1
"himpunan variabel atau pengukuran di mana distribusi Y dikondisikan" ... sebenarnya saya menganggapnya sebagai (dan kadang-kadang memanggil mereka) "variabel pengkondisian" atau "variabel yang dikondisikan", yang tidak terlalu lama deskripsi dan bekerja secara alami dengan notasiE(Y|X)
Silverfish
11

Saya setuju dengan jawaban lain di sini bahwa "independen" dan "tergantung" adalah terminologi yang buruk. Seperti yang dijelaskan oleh EdM , terminologi ini muncul dalam konteks percobaan terkontrol di mana peneliti dapat mengatur regresi secara independen satu sama lain. Ada banyak istilah yang lebih disukai yang tidak memiliki konotasi kausal yang dimuat ini, dan dalam pengalaman saya, ahli statistik cenderung lebih suka istilah yang lebih netral. Ada banyak istilah lain yang digunakan di sini, termasuk yang berikut:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Secara pribadi, saya menggunakan istilah variabel penjelas, dan variabel respons, karena istilah-istilah itu tidak memiliki konotasi independensi atau kontrol statistik, dll. (Orang mungkin berpendapat bahwa 'respons' memiliki konotasi kausal, tetapi ini adalah konotasi yang cukup lemah, jadi saya belum menemukannya bermasalah.)

Pasang kembali Monica
sumber
1
(+1) Saya kira regressor / regressand adalah istilah yang paling netral, tetapi saya juga lebih suka menjelaskan menggunakan penjelasan / respons.
Frans Rodenburg
2
Saya setuju dengan kecenderungan untuk memilih istilah netral, tetapi "jelas" terdengar sangat kausal bagi saya seperti dalam: "Variabel X menjelaskan mengapa variabel Y bertindak seperti itu."
timwiz
1
Saya menganggapnya penjelas dalam arti probabilistik - yaitu, ia menjelaskan perubahan dalam distribusi variabel respons. Anda mungkin benar, tetapi dalam semua kasus ini konotasi dengan kausalitas apa pun lemah.
Pasang kembali Monica
2
Penjelasan menyiratkan kausal sehingga tidak pantas.
Frank Harrell
1
@ Frank: Saya tidak setuju dengan pandangan itu. Penjelasan diturunkan dari kata "jelaskan" jadi saya menganggapnya hanya menyiratkan bahwa variabel menjelaskan variabel respons entah bagaimana. Penjelasan itu bisa kausal, atau bisa saja statistik, dan saya anggap yang terakhir. Namun demikian, tampaknya orang menafsirkan konotasi kata-kata ini secara berbeda, jadi saya akan mengakui bahwa beberapa orang akan membacanya sebagai konotasi kausal.
Pasang kembali Monica
9

Untuk menambah jawaban Frank Harrell dan Peter Flom:

Saya setuju bahwa memanggil variabel "independen" atau "dependen" sering menyesatkan. Tetapi beberapa orang masih melakukan itu. Saya pernah mendengar jawaban mengapa:

Dalam analisis regresi kita memiliki satu "khusus" variabel (biasanya dilambangkan dengan ) dan banyak "tidak begitu istimewa" variabel ( 's) dan kami ingin melihat bagaimana perubahan ' s mempengaruhi . Dengan kata lain, kita ingin melihat bagaimana tergantung pada s'.X X Y Y XYXXYY X

Itu sebabnya disebut "tergantung". Dan jika seseorang disebut "tergantung" bagaimana Anda akan memanggil yang lain?Y

Łukasz Deryło
sumber
Anda mengatakan bahwa Y bergantung pada X, (jadi Y disebut variabel dependen) dan maksud Anda bahwa X tidak bergantung pada Y. Tetapi mungkin ada kasus di mana X dapat bergantung pada Y atau berkorelasi dengan Y (sehingga dapat bisa disebut "independen" lagi). Adakah yang melihatnya?
Amarpreet Singh
Tidak, saya tidak bermaksud bahwa X tidak bergantung pada Y. Saya hanya bermaksud bahwa penjelasan paling mendasar dari apa yang dilakukan analisis regresi adalah bahwa ia menggambarkan bagaimana Y bergantung pada X. Jadi nama paling dasar untuk Y akan "tergantung "
Łukasz Deryło
6
Saya tidak mencoba menjawab pertanyaan "haruskah kita memanggil X independen?" melainkan "mengapa kami menyebutnya independen?", seperti dalam judul posting Anda
Łukasz Deryło
5

"Dependent" dan "independent" bisa membingungkan. Satu pengertian pseudo-kausal atau bahkan kausal dan ini adalah yang dimaksud ketika mengatakan "variabel independen" dan "variabel dependen". Maksud kami, DV, dalam beberapa hal, tergantung pada IV. Jadi, misalnya, ketika memodelkan hubungan tinggi dan berat pada manusia dewasa, kita katakan berat adalah DV dan tinggi adalah IV.

Ini memang menangkap sesuatu yang "prediksi" tidak - yaitu, arah hubungan. Tinggi memprediksi berat, tetapi berat juga memprediksi tinggi. Artinya, jika Anda diminta menebak ketinggian orang dan diberi bobot, itu akan berguna.

Tetapi kami tidak akan mengatakan bahwa ketinggian tergantung pada berat.

Peter Flom - Pasang kembali Monica
sumber
Apakah Anda spesifik tentang model SEM?
Amarpreet Singh
Tidak, saya sedang berpikir tentang regresi.
Peter Flom - Reinstate Monica
Ok, jadi itu hanya masalah nama. Saya bingung bahwa memanggil variabel input sebagai "independen" berarti sesuatu.
Amarpreet Singh
12
DV dan IV adalah singkatan umum (yang secara pribadi saya tidak suka), tetapi hati-hati untuk banyak ekonom dan beberapa ilmuwan sosial lainnya yang IV hanya bisa berarti variabel instrumental. Adalah kurang umum untuk bertemu orang-orang yang hanya bisa diartikan sebagai Deo volente (insya Allah).
Nick Cox
0

Berdasarkan jawaban di atas, ya, saya setuju bahwa variabel dependen dan independen ini adalah terminologi yang lemah. Tapi saya bisa menjelaskan konteks di mana itu digunakan oleh banyak dari kita. Anda mengatakan bahwa untuk masalah regresi umum kami memiliki variabel Output, katakanlah Y, yang nilainya tergantung pada variabel input lainnya, katakanlah x1, x2, x3. Itulah sebabnya ia disebut "Variabel Dependen". Dan sama tergantung pada konteks ini saja , dan hanya untuk membedakan antara Output dan Input Variabel, x1, x2, x3 disebut sebagai variabel independen. Karena tidak seperti Y, itu tidak tergantung pada variabel lain (Tapi ya di sini kita tidak berbicara tentang ada ketergantungan dengan diri mereka sendiri.)

Pooja Sonkar
sumber
Anda menjawab mirip dengan @Ramya R.
Amarpreet Singh
-2

Variabel independen disebut independen karena mereka tidak bergantung pada variabel lain. Misalnya, perhatikan masalah prediksi harga rumah. Asumsikan kita memiliki data tentang house_size, lokasi, dan house_price. Di sini, house_price ditentukan berdasarkan pada house_size dan lokasi tetapi lokasi dan house_size dapat bervariasi untuk rumah yang berbeda.

Ramya R
sumber
4
Terkadang variabel yang disebut "independen" dalam regresi berkorelasi. Jadi mereka tidak harus independen secara statistik. Akan lebih baik menyebutnya variabel prediktor.
Michael R. Chernick
Micheal, Terima kasih telah menunjukkan itu. Saya punya pertanyaan lanjutan. Dalam kasus di mana kita memiliki dua variabel prediktor yang collinear, tidakkah kita membuang salah satunya untuk menghilangkan masalah multikolinieritas sehingga variabel prediktor kita tidak saling bergantung?
Ramya R
1
Belum tentu. Itu tergantung pada apakah atau tidak itu mempengaruhi stabilitas estimasi dan seberapa kuat prediksi ketika kedua variabel dimasukkan. Jika dua variabel memiliki korelasi 0,1 mereka tidak independen tetapi hubungan di antara mereka lemah.
Michael R. Chernick