X dan Y tidak berkorelasi (-.01); Namun, ketika saya menempatkan X dalam regresi berganda yang memprediksi Y, di samping tiga (A, B, C) variabel (terkait) lainnya, X dan dua variabel lainnya (A, B) adalah prediktor signifikan dari Y. Perhatikan bahwa dua lainnya ( Variabel A, B) secara signifikan berkorelasi dengan Y di luar regresi.
Bagaimana saya menafsirkan temuan ini? X memprediksi varians unik dalam Y, tetapi karena ini tidak berkorelasi (Pearson), entah bagaimana sulit untuk ditafsirkan.
Saya tahu kasus yang berlawanan (yaitu, dua variabel berkorelasi tetapi regresi tidak signifikan) dan itu relatif lebih mudah dipahami dari perspektif teoritis dan statistik. Perhatikan bahwa beberapa prediktor cukup berkorelasi (misalnya, .70) tetapi tidak sejauh yang saya harapkan multikolinieritas substansial. Mungkin saya salah.
CATATAN: Saya mengajukan pertanyaan ini sebelumnya dan sudah ditutup. Rasionalnya adalah bahwa pertanyaan ini mubazir dengan pertanyaan " Bagaimana mungkin sebuah regresi signifikan tetapi semua prediktor tidak signifikan?". Mungkin saya tidak mengerti pertanyaan yang lain, tetapi saya yakin ini adalah pertanyaan yang sepenuhnya terpisah, baik secara matematis maupun teoretis. Pertanyaan saya sepenuhnya independen dari jika" suatu regresi adalah signifikan ". Selanjutnya, beberapa prediktor signifikan, sedangkan pertanyaan lainnya memerlukan variabel yang tidak signifikan, jadi saya tidak melihat tumpang tindih. Jika pertanyaan ini berlebihan karena alasan yang saya tidak mengerti, silakan masukkan komentar sebelum menutup pertanyaan ini. Juga, saya berharap untuk mengirim pesan kepada moderator yang menutup yang lain pertanyaan untuk menghindari pertanyaan yang identik, tetapi saya tidak dapat menemukan pilihan untuk melakukannya.
Jawaban:
Teori sebab-akibat menawarkan penjelasan lain tentang bagaimana dua variabel bisa independen tanpa syarat namun tergantung kondisi. Saya bukan ahli teori kausal dan bersyukur atas kritik yang akan memperbaiki kesalahan arah di bawah ini.
Sebagai ilustrasi, saya akan menggunakan grafik asiklik terarah (DAG). Dalam grafik ini, tepi (- ) antara variabel mewakili hubungan sebab akibat langsung. Kepala panah ( ← atau → ) menunjukkan arah hubungan sebab akibat. Jadi A → B menyimpulkan bahwa SEBUAH secara langsung menyebabkan B , dan A ← B menyimpulkan bahwa SEBUAH secara langsung disebabkan oleh B . A → B → C adalah jalur sebab akibat yang menyimpulkan bahwa SEBUAH secara tidak langsung menyebabkan C hingga B . Untuk kesederhanaan, anggap semua hubungan kausal adalah linier.
Pertama, perhatikan contoh sederhana bias pembaur :
Di sini, regresi bivariat sederhana akan menyarankan ketergantungan antaraX dan Y . Namun, tidak ada hubungan kausal langsung antara X dan Y . Sebaliknya keduanya secara langsung disebabkan oleh Z , dan dalam regresi bivariabel sederhana, mengamati Z menginduksi ketergantungan antara X dan Y , yang menghasilkan bias dengan mengacaukan. Namun, pendingin regresi multivariabel pada Z akan menghapus bias dan menyarankan tidak ada ketergantungan antara X dan Y .
Kedua, perhatikan contoh bias collider (juga dikenal sebagai bias Berkson atau bias berksonian, di mana bias seleksi adalah tipe khusus):
Di sini, regresi bivariat sederhana akan menyarankan tidak ada ketergantungan antaraX dan Y . Ini setuju dengan DAG, yang menyimpulkan tidak ada hubungan sebab akibat langsung antaraX danY . Namun, pengkondisian regresi multivariabel padaZ akan menginduksi ketergantungan antaraX danY menunjukkan bahwa hubungan sebab akibat langsung antara dua variabel mungkin ada, padahal sebenarnya tidak ada. DimasukkannyaZ dalam hasil regresi multivariabel dalam bias collider.
Ketiga, pertimbangkan contoh pembatalan insidental:
Mari kita asumsikan bahwaα , β , dan γ adalah koefisien jalur dan β= - α γ . Sebuah regresi bivariat sederhana akan menyarankan tidak depenence antara X dan Y . Meskipun X sebenarnya merupakan penyebab langsung dari Y , efek perancu dari Z pada X danY kebetulan membatalkan efek dariX padaY . Pengondisian regresi multivariabel padaZ akan menghapus efek perancuZ padaX danY , memungkinkan untuk estimasi efek langsungX padaY , dengan asumsi DAG dari model kausal benar.
Untuk meringkas:
Perancu contoh:X dan Y tergantung dalam regresi bivariat dan independen dalam pendingin regresi multivariabel pada perancu Z .
Collider contoh:X dan Y adalah independen dalam regresi bivariat dan tergantung di pendingin regresssion multivariabel pada collider Z .
Pembatalan Inicdental contoh:X dan Y adalah independen dalam regresi bivariat dan tergantung di pendingin regresssion multivariabel pada perancu Z .
Diskusi:
Hasil analisis Anda tidak kompatibel dengan contoh perancu, tetapi kompatibel dengan contoh collider dan contoh pembatalan insidental. Dengan demikian, penjelasan potensial adalah bahwa Anda telah salah mengkondisikan pada variabel collider dalam regresi multivariabel Anda dan telah menginduksi hubungan antaraX dan Y meskipun X bukan penyebabY danY bukan merupakan penyebabX . Atau, Anda mungkin telah mengkondisikan dengan benar pada perancu dalam regresi multivariabel Anda yang secara kebetulan membatalkan efek sebenarnya dariX padaY dalam regresi bivariabel Anda.
Saya menemukan menggunakan latar belakang pengetahuan untuk membangun model kausal untuk membantu ketika mempertimbangkan variabel mana yang akan dimasukkan dalam model statistik. Sebagai contoh, jika penelitian acak berkualitas tinggi sebelumnya menyimpulkan bahwaX menyebabkan Z dan Y menyebabkan Z , saya bisa membuat asumsi kuat bahwa Z adalah penumbuk X dan Y dan tidak mengkondisikannya dalam model statistik. Namun, jika saya hanya memiliki intuisi yang merupakan collider dari X danX menyebabkanZ , danY menyebabkanZ , tetapi tidak ada bukti ilmiah yang kuat untuk mendukung intuisi saya, saya hanya bisa membuat asumsi yang lemah bahwaZ X Y , karena intuisi manusia memiliki sejarah salah arah. Selanjutnya, saya akan skeptis infering hubungan kausal antaraX danY tanpa penyelidikan lebih lanjut hubungan kausal mereka denganZ . Sebagai pengganti atau di samping pengetahuan latar belakang, ada juga algoritma yang dirancang untuk menyimpulkan model kausal dari data menggunakan servic of test of association (misalnya algoritma PC dan algoritma FCI, lihatTETRADuntuk implementasi Java,PCalguntuk implementasi R). Algoritma ini sangat menarik, tetapi saya tidak akan merekomendasikan untuk mengandalkan mereka tanpa pemahaman yang kuat tentang kekuatan dan keterbatasan kalkulus kausal dan model kausal dalam teori kausal.
Kesimpulan:
Kontemplasi model sebab-akibat tidak memaafkan simpatisan untuk menanggapi pertimbangan statistik yang dibahas dalam jawaban lain di sini. Namun, saya merasa bahwa model kausal tetap dapat memberikan kerangka kerja yang membantu ketika memikirkan penjelasan potensial untuk ketergantungan statistik yang diamati dan kemandirian dalam model statistik, terutama ketika memvisualisasikan pembaur potensial dan colliders.
Bacaan lebih lanjut:
Gelman, Andrew. 2011. " Kausalitas dan Pembelajaran Statistik ." Saya. J. Sosiologi 117 (3) (November): 955–966.
Greenland, S, J Pearl, dan JM Robins. 1999. " Diagram Kausal untuk Penelitian Epidemiologi ." Epidemiologi (Cambridge, Mass.) 10 (1) (Januari): 37-48.
Greenland, Sander. 2003. “ Mengukur Bias dalam Model Kausal: Bias Stratifikasi Kolider-Pengganggu Klasik .” Epidemiologi 14 (3) (1 Mei): 300–306.
Mutiara, Yudea. 1998. Mengapa Tidak Ada Tes Statistik Untuk Mengacaukan, Mengapa Banyak Orang Berpikir Ada, Dan Mengapa Mereka Hampir Benar .
Mutiara, Yudea. 2009. Kausalitas: Model, Penalaran dan Inferensi . 2nd ed. Cambridge University Press.
Spirtes, Peter, Clark Glymour, dan Richard Scheines. 2001. Penyebab, Prediksi, dan Pencarian , Edisi Kedua. Buku Bradford.
Pembaruan: Judea Pearl membahas teori inferensi kausal dan kebutuhan untuk memasukkan inferensi kausal ke dalam kursus statistik pengantar dalam Amstat News edisi November 2012 . -Nya Kuliah Turing Award , berjudul "The mekanisasi kausal inferensi: Sebuah Turing Test 'mini' dan di luar" juga menarik.
sumber
Saya pikir pendekatan @ jthetzel adalah yang benar (+1). Untuk menafsirkan hasil ini, Anda harus memikirkan / memiliki beberapa teori tentang mengapa hubungan itu bermanifestasi seperti itu. Artinya, Anda perlu memikirkan pola hubungan kausal yang mendasari data Anda. Anda perlu menyadari bahwa, seperti yang ditunjukkan oleh @jthetzel, hasil Anda konsisten dengan beberapa proses menghasilkan data yang berbeda. Saya tidak berpikir bahwa jumlah tes statistik tambahan pada dataset yang sama akan memungkinkan Anda untuk membedakan di antara kemungkinan-kemungkinan tersebut (walaupun percobaan lebih lanjut tentu saja bisa). Jadi berpikir keras tentang apa yang diketahui tentang topik sangat penting di sini.
Saya ingin menunjukkan kemungkinan situasi mendasar lain yang dapat menghasilkan hasil seperti milik Anda: Penindasan . Ini lebih sulit untuk diilustrasikan dengan menggunakan diagram panah, tetapi jika saya dapat memperbesarnya sedikit, kita dapat memikirkannya seperti ini:
Yang penting tentang situasi ini adalah bahwa terdiri dari dua bagian, bagian yang tidak terkait ( U ), dan bagian yang terkait ( R ). The Suppressor akan berkorelasi dengan Y , tetapi mungkin sangat baik menjadi 'signifikan' dalam model regresi berganda. Selain itu, Variabel Lain mungkin atau mungkin tidak 'berkorelasi' dengan Penekan atau Y sendiri. Selain itu, variabel X Anda dapat memainkan peran sebagai Penekan atau Variabel LainnyaOther Variable U R Suppressor Y Other Variable Suppressor Y Suppressor Other Variable dalam situasi ini (dan dengan demikian, sekali lagi, Anda perlu berpikir tentang apa pola yang mendasari mungkin didasarkan pada pengetahuan Anda tentang area)
Saya tidak tahu apakah Anda dapat membaca kode R, tetapi ini adalah contoh yang saya lakukan. (Contoh khusus ini lebih cocok dengan X yang berperan sebagai , tetapi keduanya tidak 'berkorelasi' dengan Y ; harus dimungkinkan untuk mendapatkan korelasi antara Variabel Lain dan Y mendekati 0 dan mencocokkan deskripsi lainnya dengan hanya pengaturan yang tepat.)Suppressor Y Other Variable Y
Maksud saya di sini bukanlah bahwa situasi ini adalah yang mendasari data Anda. Saya tidak tahu apakah ini lebih atau kurang mungkin daripada opsi yang disarankan @jthetzel. Saya hanya menawarkan ini sebagai lebih banyak makanan untuk dipikirkan. Untuk menginterpretasikan hasil Anda saat ini, Anda perlu memikirkan kemungkinan ini dan memutuskan apa yang paling masuk akal. Untuk mengonfirmasi pilihan Anda, diperlukan eksperimen yang saksama.
sumber
Hanya beberapa visualisasi yang dimungkinkan.
Pada gambar (a) situasi penyesalan "normal" atau "intuitif" ditampilkan. Gambar ini sama dengan misalnya ditemukan (dan dijelaskan) di sini atau di sini .
Data dan analisis kira-kira sesuai dengan gambar (b):
Data dan analisis kira-kira sesuai dengan gambar (c):
sumber
Saya setuju dengan jawaban sebelumnya tetapi berharap saya dapat berkontribusi dengan memberikan rincian lebih lanjut.
sumber