Apakah regresi linier sederhana menyiratkan sebab-akibat?

17

Saya tahu korelasi tidak menyiratkan sebab-akibat, melainkan kekuatan dan arah hubungan. Apakah regresi linier sederhana menyiratkan sebab-akibat? Atau diperlukan uji statistik inferensial (uji-t, dll.) Untuk itu?

pengguna4572
sumber
3
Apa yang Anda maksud dengan "arah"? Sudahkah Anda membaca jawaban untuk pertanyaan serupa stats.stackexchange.com/search?q=causal ? Jawaban singkatnya adalah tidak!
NRH
3
Tidak satu pun dari saran Anda menyiratkan sebab akibat (atau arah).
Henry
2
Saya pikir OP berarti "arah" dalam arti korelasi positif vs negatif, bukan arah hubungan sebab akibat antara X dan Y.
JMS

Jawaban:

19

Jawaban cepatnya adalah, tidak. Anda dapat dengan mudah menemukan data yang tidak terkait yang ketika diregresikan, akan lulus semua jenis uji statistik. Di bawah ini adalah gambar lama dari Wikipedia (yang, untuk beberapa alasan baru-baru ini dihapus) yang telah digunakan untuk menggambarkan "hubungan sebab akibat" yang didorong oleh data.

Kita perlu lebih banyak bajak laut untuk mendinginkan planet ini?

masukkan deskripsi gambar di sini

Untuk deret waktu, ada istilah yang disebut "Granger Causality" yang memiliki arti sangat spesifik.

http://en.wikipedia.org/wiki/Granger_causality

Selain itu, "kausalitas" ada di mata yang melihatnya.

bill_080
sumber
Maksud saya korelasi positif atau negatif dengan arah. Terima kasih atas tanggapan Anda dan tautan ke pertanyaan serupa.
user4572
1
Itu sumbu X yang cukup gila dalam gambar itu! (Tapi contoh yang bagus!)
Andy W
2
Lain ..... Keju, Mentega, dan Domba di Bangladesh, versus S & P500 (R ^ 2 = 0,99) ...... nerdsonwallstreet.typepad.com/my_weblog/files/… ....
bill_080
5
Grafik itu jelas sudah ketinggalan zaman. Entah itu atau ada bias karena kurangnya surveyor tersedia untuk sampel di Teluk Aden
kardinal
2
Data itu sebelum Al Gore menjadi bajak laut.
bill_080
10

Tidak ada yang eksplisit dalam matematika regresi yang menyatakan hubungan sebab akibat, dan karenanya orang tidak perlu secara eksplisit menafsirkan kemiringan (kekuatan dan arah) maupun nilai-p (yaitu probabilitas suatu hubungan sekuat atau lebih kuat akan diamati jika hubungan adalah nol dalam populasi) secara kausal.

Yang sedang berkata, saya akan mengatakan regresi memang memiliki konotasi yang jauh lebih kuat bahwa seseorang memperkirakan hubungan terarah eksplisit daripada memperkirakan korelasi antara dua variabel. Dengan asumsi berdasarkan korelasi yang Anda maksud Pearson's r , biasanya tidak memiliki interpretasi kausal eksplisit karena metriknya simetris (yaitu Anda dapat mengganti variabel mana yang X dan mana yang Y dan Anda masih akan memiliki ukuran yang sama). Juga bahasa sehari-hari "Korelasi tidak menyiratkan sebab-akibat" Saya menduga sangat dikenal bahwa menyatakan dua variabel berkorelasi asumsinya adalah satu tidak membuat pernyataan kausal.

Efek yang diperkirakan dalam analisis regresi tidak simetris, dan dengan memilih variabel apa yang ada di sisi kanan versus sisi kiri, orang membuat pernyataan implisit tidak seperti korelasi. Saya menduga seseorang berniat untuk membuat beberapa pernyataan kausal di sebagian besar keadaan di mana regresi digunakan (inferensi vs prediksi samping). Bahkan dalam kasus yang hanya menyatakan korelasi, saya curiga orang sering memiliki beberapa tujuan tersirat dari inferensi kausal dalam pikiran. Mengingat beberapa kendala terpenuhi korelasi dapat menyiratkan sebab-akibat !

Andy W
sumber
7

Baik korelasi maupun regresi tidak dapat mengindikasikan sebab-akibat (seperti yang diilustrasikan oleh jawaban @ bill_080) tetapi sebagaimana @Andy W menunjukkan regresi sering didasarkan pada variabel yang secara eksplisit ditetapkan (yaitu, independen) dan variabel dependen yang eksplisit (yaitu, acak). Penunjukan ini tidak sesuai dalam analisis korelasi.

Mengutip Sokal dan Rohlf, 1969, hlm. 496

"Dalam regresi kami bermaksud untuk menggambarkan ketergantungan variabel Y pada variabel independen X ... untuk memberikan dukungan kepada hipotesis mengenai kemungkinan penyebab perubahan Y oleh perubahan dalam X ..."

"Dalam korelasi, sebaliknya, kami sangat peduli apakah dua variabel saling tergantung atau kovary - yaitu, bervariasi bersama-sama. Kami tidak menyatakan satu sebagai fungsi dari yang lain."

Sokal, RR dan FJ Rohlf, 1969. Biometri. Freeman dan Co.

DQdlM
sumber
4

Dari perspektif semantik, tujuan alternatif adalah untuk membangun bukti untuk model prediksi yang baik daripada membuktikan sebab-akibat. Prosedur sederhana untuk membangun bukti untuk nilai prediktif model regresi adalah membagi data Anda menjadi 2 bagian dan menyesuaikan regresi Anda dengan satu bagian data dan dengan bagian lain dari tes data seberapa baik prediksi.

Gagasan kausalitas Granger menarik.

b_dev
sumber
2

β^=Cov(x,y)Var(x)
α^=y¯β^x¯,

di mana Var (.) dan Cov (.) adalah perkiraan dari sampel (data).

Akibatnya, parameter-parameter ini sendiri tidak lain adalah beberapa fungsi korelasi antara x dan y. Terutama, beta hanyalah koefisien korelasi "dinormalisasi". Jadi, tidak ada lagi kausalitas tersirat dalam regresi daripada dalam korelasi. Regresi kausal adalah teknik khusus dalam ekonometrik di mana seseorang harus bergantung pada misalnya variabel instrumental untuk menyiasati fenomena seperti perancu yang mengaburkan interpretasi kausal dari setiap model regresi tertentu.

Maksud saya adalah: regresi dapat dibuat sebab-akibat tetapi itu bukan sebab - akibat default.

Untuk lebih banyak lihat video ini: https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s

"Model Rubin" oleh Rubin sendiri: http://www.stat.columbia.edu/~cook/qr33.pdf

Kursus pengantar hebat tentang kausalitas (meskipun, belum ada regresi): https://www.coursera.org/learn/crash-course-in-causality

Alfred Beit
sumber
Poin bagus. Selamat Datang di CV.
Neil G
0

Pemahaman saya (saya pemula kausalitas) adalah sebagai berikut:

  • Regresi linier menyiratkan kausalitas jika kovariat Anda berasal dari eksperimen terkontrol, dan eksperimen Anda mengisolasi faktor penyebab yang dihipotesiskan dengan baik (lihat Regresi linear dan kausalitas dalam percobaan terkontrol acak ).

  • Atau, (diperbarui berkat komentar), banyak pelanggaran kausalitas menyebabkan E(ϵ|X)0. Catat ituE(ϵ|X)0 berarti bahwa kita tidak dapat menarik kesimpulan kausal, tetapi E(ϵ|X)=0 bukan berarti kita bisa.

Perhatikan bahwa kami tidak dapat menguji apakah E(ϵ|X)=0, dan ada beberapa lingkaran dalam argumen di sini.

siswa
sumber
2
Could you elaborate on how E(ϵ|X)=0 implies causation?
Sextus Empiricus
See this for a detailed discussion stats.stackexchange.com/questions/59588/…, with some nice points made.
mlstudent
could you be a bit more direct. I see no prrof or explanation how or why E(ϵ|X)=0 implies causation.
Sextus Empiricus
I'm a bit new to causality, but as I understand it there are three major concerns that could make y=α+βx+ϵ not imply causality. One is if there is some other omitted variable causing y, another is if there is an omitted variable causing x, and finally a third is that y may cause x. All will lead to violations of the exogeneity condition. I don't have the math for exactly why but will actually look this up/try to derive it.
mlstudent
A simple counter example. When you generate data YN(μY,σY) and X|YN(a+bY,σX) then you still have E(ϵ|X)=0 (X and Y are jointly normal distributed).
Sextus Empiricus
-6

Regression ASSUMES a causal relationship....if there is no basis for causality as a result of physical/intellectual/scientific analysis of the issue, there is no basis for a causal analysis and no basis for a regression. This is why the FDA and similar government agencies are always proclaiming "This causes that!" only to retract it years and billions of dollars in damage, later. Examples are legion: coffee, chocolate, caffeine, bacon, eggs, etc....

Worse yet is when two variable have a feedback loop. One may cause the other at one point; only for the other to cause the one, later. This always happens in my field, economics: which is why most economic analysis isn't worth the paper it is printed on.

Gary Jakacky
sumber
6
This is completely wrong. Regression just finds a relationship between two sets of numbers. Whether that relationship exists because of a direct causal connection or not is a completely different issue.
gung - Reinstate Monica