X dan Y tidak berkorelasi, tetapi X adalah prediktor signifikan Y dalam regresi berganda. Apa artinya?

34

X dan Y tidak berkorelasi (-.01); Namun, ketika saya menempatkan X dalam regresi berganda yang memprediksi Y, di samping tiga (A, B, C) variabel (terkait) lainnya, X dan dua variabel lainnya (A, B) adalah prediktor signifikan dari Y. Perhatikan bahwa dua lainnya ( Variabel A, B) secara signifikan berkorelasi dengan Y di luar regresi.

Bagaimana saya menafsirkan temuan ini? X memprediksi varians unik dalam Y, tetapi karena ini tidak berkorelasi (Pearson), entah bagaimana sulit untuk ditafsirkan.

Saya tahu kasus yang berlawanan (yaitu, dua variabel berkorelasi tetapi regresi tidak signifikan) dan itu relatif lebih mudah dipahami dari perspektif teoritis dan statistik. Perhatikan bahwa beberapa prediktor cukup berkorelasi (misalnya, .70) tetapi tidak sejauh yang saya harapkan multikolinieritas substansial. Mungkin saya salah.

CATATAN: Saya mengajukan pertanyaan ini sebelumnya dan sudah ditutup. Rasionalnya adalah bahwa pertanyaan ini mubazir dengan pertanyaan " Bagaimana mungkin sebuah regresi signifikan tetapi semua prediktor tidak signifikan?". Mungkin saya tidak mengerti pertanyaan yang lain, tetapi saya yakin ini adalah pertanyaan yang sepenuhnya terpisah, baik secara matematis maupun teoretis. Pertanyaan saya sepenuhnya independen dari jika" suatu regresi adalah signifikan ". Selanjutnya, beberapa prediktor signifikan, sedangkan pertanyaan lainnya memerlukan variabel yang tidak signifikan, jadi saya tidak melihat tumpang tindih. Jika pertanyaan ini berlebihan karena alasan yang saya tidak mengerti, silakan masukkan komentar sebelum menutup pertanyaan ini. Juga, saya berharap untuk mengirim pesan kepada moderator yang menutup yang lain pertanyaan untuk menghindari pertanyaan yang identik, tetapi saya tidak dapat menemukan pilihan untuk melakukannya.

regression correlation interpretation causality Behacad
sumber

2

Saya pikir ini sangat mirip dengan pertanyaan sebelumnya. Jika X dan Y pada dasarnya tidak berkorelasi maka dalam regresi linier sederhana koefisien kemiringan untuk X tidak akan signifikan. Bagaimanapun estimasi lereng sebanding dengan korelasi sampel. Regresi berganda nut bisa menjadi cerita yang berbeda karena X dan Z bersama-sama dapat menjelaskan banyak variabilitas dalam Y. Karena jawaban saya terdengar mirip dengan jawaban pertanyaan sebelumnya, mungkin itu menunjukkan kesamaan yang berbeda.

Michael R. Chernick

2

Terima kasih atas balasan Anda dan jawaban yang sangat terperinci di utas lainnya. Saya perlu membacanya beberapa kali untuk mendapatkan tesisnya. Kekhawatiran saya yang lain, saya kira, adalah bagaimana menafsirkannya secara praktis daripada mungkin secara statistik atau matematis. Katakanlah misalnya kecepatan berenang dan kecemasan sifat tidak berkorelasi, tetapi kecemasan sifat adalah prediktor signifikan kecepatan berenang dalam regresi berganda bersama dengan prediksi lainnya. Bagaimana ini bisa masuk akal, secara praktis? Katakanlah Anda menulis ini di bagian diskusi jurnal klinis!

Behacad

3

@ jth Karena Anda mempertahankan kedua pertanyaan tersebut cukup berbeda untuk tidak dianggap duplikat, jangan ragu untuk memindahkan jawaban Anda ke yang lain di sini. (Saya minta maaf karena tidak menghargai perbedaan awalnya.) Catatan baru, saya percaya, salah dalam mengandaikan pertanyaan secara matematis berbeda - @ Michael Chernick menunjukkan bahwa mereka pada dasarnya sama - tetapi penekanan pada interpretasi menetapkan alasan yang valid untuk memisahkan utas.

whuber

1

Saya juga memindahkan jawabannya di sini. Saya pikir kedua pertanyaan itu sangat berbeda tetapi mungkin berbagi beberapa penjelasan umum.

JDav

1

Halaman web ini memiliki diskusi hebat lainnya tentang topik terkait. Itu panjang, tetapi sangat bagus & dapat membantu Anda memahami masalah. Saya merekomendasikan untuk membacanya sepenuhnya.

gung - Reinstate Monica

39

Teori sebab-akibat menawarkan penjelasan lain tentang bagaimana dua variabel bisa independen tanpa syarat namun tergantung kondisi. Saya bukan ahli teori kausal dan bersyukur atas kritik yang akan memperbaiki kesalahan arah di bawah ini.

Sebagai ilustrasi, saya akan menggunakan grafik asiklik terarah (DAG). Dalam grafik ini, tepi ( $-$ ) antara variabel mewakili hubungan sebab akibat langsung. Kepala panah ( $\leftarrow$ atau $\rightarrow$ ) menunjukkan arah hubungan sebab akibat. Jadi $A \rightarrow B$ menyimpulkan bahwa $A$ secara langsung menyebabkan $B$ , dan $A \leftarrow B$ menyimpulkan bahwa $A$ secara langsung disebabkan oleh $B$ . $A \rightarrow B \rightarrow C$ adalah jalur sebab akibat yang menyimpulkan bahwa $A$ secara tidak langsung menyebabkan $C$ hingga $B$ . Untuk kesederhanaan, anggap semua hubungan kausal adalah linier.

Pertama, perhatikan contoh sederhana bias pembaur :

perancu

Di sini, regresi bivariat sederhana akan menyarankan ketergantungan antara $X$ dan $Y$ . Namun, tidak ada hubungan kausal langsung antara $X$ dan $Y$ . Sebaliknya keduanya secara langsung disebabkan oleh $Z$ , dan dalam regresi bivariabel sederhana, mengamati $Z$ menginduksi ketergantungan antara $X$ dan $Y$ , yang menghasilkan bias dengan mengacaukan. Namun, pendingin regresi multivariabel pada $Z$ akan menghapus bias dan menyarankan tidak ada ketergantungan antara $X$ dan $Y$ .

Kedua, perhatikan contoh bias collider (juga dikenal sebagai bias Berkson atau bias berksonian, di mana bias seleksi adalah tipe khusus):

collider

Di sini, regresi bivariat sederhana akan menyarankan tidak ada ketergantungan antara $X$ dan $Y$ . Ini setuju dengan DAG, yang menyimpulkan tidak ada hubungan sebab akibat langsung antara $X$ dan $Y$ . Namun, pengkondisian regresi multivariabel pada $Z$ akan menginduksi ketergantungan antara $X$ dan $Y$ menunjukkan bahwa hubungan sebab akibat langsung antara dua variabel mungkin ada, padahal sebenarnya tidak ada. Dimasukkannya $Z$ dalam hasil regresi multivariabel dalam bias collider.

Ketiga, pertimbangkan contoh pembatalan insidental:

pembatalan

Mari kita asumsikan bahwa $\alpha$ , $\beta$ , dan $\gamma$ adalah koefisien jalur dan $\beta = -\alpha\gamma$ . Sebuah regresi bivariat sederhana akan menyarankan tidak depenence antara $X$ dan $Y$ . Meskipun $X$ sebenarnya merupakan penyebab langsung dari $Y$ , efek perancu dari $Z$ pada $X$ dan $Y$ kebetulan membatalkan efek dari $X$ pada $Y$ . Pengondisian regresi multivariabel pada $Z$ akan menghapus efek perancu $Z$ pada $X$ dan $Y$ , memungkinkan untuk estimasi efek langsung $X$ pada $Y$ , dengan asumsi DAG dari model kausal benar.

Untuk meringkas:

Perancu contoh: $X$ dan $Y$ tergantung dalam regresi bivariat dan independen dalam pendingin regresi multivariabel pada perancu $Z$ .

Collider contoh: $X$ dan $Y$ adalah independen dalam regresi bivariat dan tergantung di pendingin regresssion multivariabel pada collider $Z$ .

Pembatalan Inicdental contoh: $X$ dan $Y$ adalah independen dalam regresi bivariat dan tergantung di pendingin regresssion multivariabel pada perancu $Z$ .

Diskusi:

Hasil analisis Anda tidak kompatibel dengan contoh perancu, tetapi kompatibel dengan contoh collider dan contoh pembatalan insidental. Dengan demikian, penjelasan potensial adalah bahwa Anda telah salah mengkondisikan pada variabel collider dalam regresi multivariabel Anda dan telah menginduksi hubungan antara $X$ dan $Y$ meskipun $X$ bukan penyebab $Y$ dan $Y$ bukan merupakan penyebab $X$ . Atau, Anda mungkin telah mengkondisikan dengan benar pada perancu dalam regresi multivariabel Anda yang secara kebetulan membatalkan efek sebenarnya dari $X$ pada $Y$ dalam regresi bivariabel Anda.

Saya menemukan menggunakan latar belakang pengetahuan untuk membangun model kausal untuk membantu ketika mempertimbangkan variabel mana yang akan dimasukkan dalam model statistik. Sebagai contoh, jika penelitian acak berkualitas tinggi sebelumnya menyimpulkan bahwa $X$ menyebabkan $Z$ dan $Y$ menyebabkan $Z$ , saya bisa membuat asumsi kuat bahwa $Z$ adalah penumbuk $X$ dan $Y$ dan tidak mengkondisikannya dalam model statistik. Namun, jika saya hanya memiliki intuisi yang merupakan collider dari dan $X$ menyebabkan $Z$ , dan $Y$ menyebabkan $Z$ , tetapi tidak ada bukti ilmiah yang kuat untuk mendukung intuisi saya, saya hanya bisa membuat asumsi yang lemah bahwa $Z$ $X$ $Y$ , karena intuisi manusia memiliki sejarah salah arah. Selanjutnya, saya akan skeptis infering hubungan kausal antara $X$ dan $Y$ tanpa penyelidikan lebih lanjut hubungan kausal mereka dengan $Z$ . Sebagai pengganti atau di samping pengetahuan latar belakang, ada juga algoritma yang dirancang untuk menyimpulkan model kausal dari data menggunakan servic of test of association (misalnya algoritma PC dan algoritma FCI, lihatTETRADuntuk implementasi Java,PCalguntuk implementasi R). Algoritma ini sangat menarik, tetapi saya tidak akan merekomendasikan untuk mengandalkan mereka tanpa pemahaman yang kuat tentang kekuatan dan keterbatasan kalkulus kausal dan model kausal dalam teori kausal.

Kesimpulan:

Kontemplasi model sebab-akibat tidak memaafkan simpatisan untuk menanggapi pertimbangan statistik yang dibahas dalam jawaban lain di sini. Namun, saya merasa bahwa model kausal tetap dapat memberikan kerangka kerja yang membantu ketika memikirkan penjelasan potensial untuk ketergantungan statistik yang diamati dan kemandirian dalam model statistik, terutama ketika memvisualisasikan pembaur potensial dan colliders.

Bacaan lebih lanjut:

Gelman, Andrew. 2011. " Kausalitas dan Pembelajaran Statistik ." Saya. J. Sosiologi 117 (3) (November): 955–966.

Greenland, S, J Pearl, dan JM Robins. 1999. " Diagram Kausal untuk Penelitian Epidemiologi ." Epidemiologi (Cambridge, Mass.) 10 (1) (Januari): 37-48.

Greenland, Sander. 2003. “ Mengukur Bias dalam Model Kausal: Bias Stratifikasi Kolider-Pengganggu Klasik .” Epidemiologi 14 (3) (1 Mei): 300–306.

Mutiara, Yudea. 1998. Mengapa Tidak Ada Tes Statistik Untuk Mengacaukan, Mengapa Banyak Orang Berpikir Ada, Dan Mengapa Mereka Hampir Benar .

Mutiara, Yudea. 2009. Kausalitas: Model, Penalaran dan Inferensi . 2nd ed. Cambridge University Press.

Spirtes, Peter, Clark Glymour, dan Richard Scheines. 2001. Penyebab, Prediksi, dan Pencarian , Edisi Kedua. Buku Bradford.

Pembaruan: Judea Pearl membahas teori inferensi kausal dan kebutuhan untuk memasukkan inferensi kausal ke dalam kursus statistik pengantar dalam Amstat News edisi November 2012 . -Nya Kuliah Turing Award , berjudul "The mekanisasi kausal inferensi: Sebuah Turing Test 'mini' dan di luar" juga menarik.

jthetzel
sumber

Argumen kausal tentu saja valid tetapi bagi peneliti untuk berlangganan pendekatan itu membutuhkan pengetahuan yang sangat baik tentang fenomena yang mendasarinya. Saya ingin tahu apakah analisis yang dilakukan @Behacad hanya bersifat eksplorasi.

JDav

1

@Behacad: Seperti yang disebutkan dalam jawaban saya, saya sarankan Anda untuk melupakan

tunggal karena masalah Anda adalah multivarian dan bukan bivariat. Untuk mengukur pengaruh variabel minat Anda, Anda perlu mengontrol sumber variasi lain yang dapat mendistorsi pengaruh terukur x.

ρ

$\rho$

JDav

5

+1 Ilustrasi dan penjelasannya sangat jelas dan dilakukan dengan baik. Terima kasih atas upaya dan penelitian yang (jelas) masuk ke jawaban ini.

Whuber

1

Juga, dapatkah seseorang memberi saya contoh praktis "Ketiga, pertimbangkan contoh pembatalan insidental?". Pertanyaan sebab akibat muncul. Jika X dan Y tidak berkorelasi (yaitu, perubahan dalam X tidak terkait dengan perubahan dalam Y "), bagaimana kita dapat mempertimbangkan" penyebab "ini. Inilah yang saya ingin tahu dalam pertanyaan lain! Stats.stackexchange.com/questions / 33638 / ...

Behacad

4

Perlu dicatat bahwa ada beberapa nama alternatif untuk ini: Confounder -> Common Cause Model; Collider -> Model Efek Umum; & Pembatalan Insiden adalah kasus khusus Mediasi Parsial.

gung - Reinstate Monica

22

Saya pikir pendekatan @ jthetzel adalah yang benar (+1). Untuk menafsirkan hasil ini, Anda harus memikirkan / memiliki beberapa teori tentang mengapa hubungan itu bermanifestasi seperti itu. Artinya, Anda perlu memikirkan pola hubungan kausal yang mendasari data Anda. Anda perlu menyadari bahwa, seperti yang ditunjukkan oleh @jthetzel, hasil Anda konsisten dengan beberapa proses menghasilkan data yang berbeda. Saya tidak berpikir bahwa jumlah tes statistik tambahan pada dataset yang sama akan memungkinkan Anda untuk membedakan di antara kemungkinan-kemungkinan tersebut (walaupun percobaan lebih lanjut tentu saja bisa). Jadi berpikir keras tentang apa yang diketahui tentang topik sangat penting di sini.

Saya ingin menunjukkan kemungkinan situasi mendasar lain yang dapat menghasilkan hasil seperti milik Anda: Penindasan . Ini lebih sulit untuk diilustrasikan dengan menggunakan diagram panah, tetapi jika saya dapat memperbesarnya sedikit, kita dapat memikirkannya seperti ini:

masukkan deskripsi gambar di sini

Yang penting tentang situasi ini adalah bahwa terdiri dari dua bagian, bagian yang tidak terkait ( ), dan bagian yang terkait ( ). The akan berkorelasi dengan , tetapi mungkin sangat baik menjadi 'signifikan' dalam model regresi berganda. Selain itu, mungkin atau mungkin tidak 'berkorelasi' dengan atau sendiri. Selain itu, variabel X Anda dapat memainkan peran sebagai atau $\text{Other Variable}$ $\text{U}$ $\text{R}$ $\text{Suppressor}$ $\text{Y}$ $\text{Other Variable}$ $\text{Suppressor}$ $\text{Y}$ $\text{Suppressor}$ $\text{Other Variable}$ dalam situasi ini (dan dengan demikian, sekali lagi, Anda perlu berpikir tentang apa pola yang mendasari mungkin didasarkan pada pengetahuan Anda tentang area)

Saya tidak tahu apakah Anda dapat membaca kode R, tetapi ini adalah contoh yang saya lakukan. (Contoh khusus ini lebih cocok dengan X yang berperan sebagai , tetapi keduanya tidak 'berkorelasi' dengan ; harus dimungkinkan untuk mendapatkan korelasi antara dan mendekati 0 dan mencocokkan deskripsi lainnya dengan hanya pengaturan yang tepat.) $\text{Suppressor}$ $\text{Y}$ $\text{Other Variable}$ $\text{Y}$

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 *

Maksud saya di sini bukanlah bahwa situasi ini adalah yang mendasari data Anda. Saya tidak tahu apakah ini lebih atau kurang mungkin daripada opsi yang disarankan @jthetzel. Saya hanya menawarkan ini sebagai lebih banyak makanan untuk dipikirkan. Untuk menginterpretasikan hasil Anda saat ini, Anda perlu memikirkan kemungkinan ini dan memutuskan apa yang paling masuk akal. Untuk mengonfirmasi pilihan Anda, diperlukan eksperimen yang saksama.

gung - Reinstate Monica
sumber

2

Luar biasa! Terima kasih. Ini berfungsi sebagai contoh bagus lain dari apa yang bisa terjadi dalam data saya. Sepertinya saya hanya dapat menerima satu jawaban, meskipun ...

Behacad

Tidak masalah, @Behacad, saya pikir jthetzel layak mendapat tanda centang; Saya senang bisa membantu.

gung - Reinstate Monica

7

Hanya beberapa visualisasi yang dimungkinkan.

Pada gambar (a) situasi penyesalan "normal" atau "intuitif" ditampilkan. Gambar ini sama dengan misalnya ditemukan (dan dijelaskan) di sini atau di sini .

$Y'$ $\hat Y$ $b$ - sebanding dengan koefisien regresi prediktor tersebut.

$b_1$ $b_2$ $X_1$ $X_2$

$X_1$ $Y$ $Y'$ $X_1$ $Y'$ $X_2$ superimpose , yang berarti bahwa nilai prediksi benar-benar berkorelasi dengan prediktor lain tersebut.

$X_1$ $Y$ $X_1$

Data dan analisis kira-kira sesuai dengan gambar (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

Data dan analisis kira-kira sesuai dengan gambar (c):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

$X_1$ $Y$ $-.224$ $X_2$ $.419$ $.538$

ttnphns
sumber

Terima kasih! Masih terasa agak berlawanan dengan intuisi, tetapi setidaknya foto Anda menunjukkan hal itu layak :)

JelenaČuklina

5

Saya setuju dengan jawaban sebelumnya tetapi berharap saya dapat berkontribusi dengan memberikan rincian lebih lanjut.

$X$ $Y$ $x$ $y$

$Y = a + \beta x + u$

$\hat \rho_{yx} = \hat \beta \hat\sigma_x/\hat\sigma_y$

$Y$

$Y = a + \beta x + \sum_j\alpha_jz_j + u$

$\beta$ $z_j$ $\rho$ $\rho_{xy|z}$ $z_j$

JDav
sumber

ρ

$\rho$

ρ

$\rho$

X dan Y tidak berkorelasi, tetapi X adalah prediktor signifikan Y dalam regresi berganda. Apa artinya?

Jawaban: