Apa yang harus saya ketahui ketika menggunakan regresi berganda untuk menemukan hubungan "kausal" dalam data saya?

8

Pertama-tama, saya menyadari beberapa regresi tidak benar-benar memberikan kesimpulan "kausal" tentang data. Biarkan saya jelaskan kasus saya saat ini:

Saya memiliki empat variabel independen yang saya harap (tetapi tidak yakin) terlibat dalam mengemudikan hal yang saya ukur. Saya ingin menggunakan regresi berganda untuk melihat seberapa besar masing-masing variabel berkontribusi terhadap variabel dependen saya, dan melakukannya. Seharusnya, variabel "Nomor empat" memengaruhi ukuran hasil saya dengan sangat kuat (berat beta mendekati 0,7).

Namun, saya sudah diberitahu ini tidak cukup, karena beberapa variabel "independen" saya mungkin sebenarnya berkorelasi satu sama lain. Dalam hal ini, saya bisa berpikir "Variabel empat" mendorong variabel dependen saya, ketika benar-benar baik tiga dan empat dapat berkontribusi sama. Tampaknya ini benar, tetapi karena saya baru dalam hal ini, saya tidak yakin.

Bagaimana saya bisa menghindari masalah ini secara sistemik di masa depan? Prosedur spesifik apa yang akan Anda rekomendasikan ketika menggunakan regresi berganda untuk memastikan bahwa data "independen" Anda belum mengandung korelasi tersembunyi?

Sunting: Data itu sendiri adalah serangkaian model jaringan (grafik) dari keadaan neurologis tertentu. Saya mengukur "koefisien pengelompokan" yang menggambarkan topologi masing-masing jaringan secara keseluruhan (variabel dependen di sini), dan kemudian melihat apakah konektivitas individu dari empat node dalam jaringan 100+ yang lebih besar mendorong nilai-nilai pengelompokan global (empat independen) variabel). Namun, simpul-simpul ini adalah bagian dari jaringan, jadi menurut definisi, mungkin saja mereka berkorelasi sampai batas tertentu.

rd108
sumber
3
Apa yang menyebabkan hubungan sebab-akibat adalah masalah kontroversial dalam filsafat sains. "Standar emas" adalah untuk melakukan percobaan di mana variabel perlakuan ditugaskan secara acak, sehingga memastikan kovariat berpotensi pengganggu lainnya tidak secara sistematis terkait dengan pengobatan. Namun, di banyak bidang dan untuk banyak pertanyaan, percobaan tidak mungkin. Beberapa beralih ke apa yang disebut percobaan alami untuk eksogenitas. Anda mungkin tertarik pada artikel klasik Paul Holland, "Statistik dan kesimpulan kausal". Jurnal Asosiasi Statistik Amerika, 81, 945-970.
Jason Morgan
1
Anda mengajukan pertanyaan yang sangat penting, tetapi diragukan ada yang bisa memberi Anda serangkaian langkah pasti untuk diambil atau resep yang bagus dan padat; Menguasai masalah ini adalah usulan jangka panjang. Saran tambahan tentang syarat dan topik untuk dipelajari: variabel penekan; estimasi toleransi dan varians inflasi; korelasi zero-order, partial, dan semipartial; metode pemilihan variabel; validasi silang.
rolando2
Jika Anda memberi tahu kami tujuan pemodelan ini, Anda mungkin mendapatkan saran yang lebih bermanfaat. Regresi berganda berhubungan cukup baik dengan variabel-variabel independen berkorelasi, selama mereka tidak terlalu berkorelasi tinggi, menghasilkan multikolinearitas. Seperti yang dikatakan orang lain, menilai hubungan sebab akibat sulit (tetapi bukan tidak mungkin) di luar eksperimen acak. Lihat beberapa tautan ini: delicious.com/MichaelBishop/causality untuk informasi lebih lanjut tentang topik itu.
Michael Bishop
Data itu sendiri adalah serangkaian model jaringan (grafik) dari keadaan neurologis tertentu. Saya mengukur "koefisien pengelompokan" yang menggambarkan topologi masing-masing jaringan secara keseluruhan (variabel dependen di sini), dan kemudian melihat apakah konektivitas individu dari empat node dalam jaringan 100+ yang lebih besar mendorong nilai-nilai pengelompokan global (empat independen) variabel). Namun, simpul-simpul ini adalah bagian dari jaringan, jadi menurut definisi, mungkin saja mereka berkorelasi sampai batas tertentu.
rd108

Jawaban:

5

Anda tidak dapat "secara sistematis menghindari masalah ini di masa mendatang", karena itu tidak boleh disebut "masalah". Jika realitas dunia material menampilkan kovariat yang kuat, maka kita harus menerimanya sebagai fakta dan menyesuaikan teori dan model kita sebagai konsekuensinya. Saya sangat menyukai pertanyaan itu, dan berharap yang berikut tidak akan terdengar terlalu mengecewakan.

Berikut beberapa penyesuaian yang mungkin cocok untuk Anda. Anda perlu meninjau buku pegangan regresi sebelum melanjutkan.

  • Diagnosis masalah ini, dengan menggunakan teknik korelasi atau pasca-estimasi seperti Variance Inflation Factor (VIF). Gunakan alat yang disebutkan oleh Peter Flom jika Anda menggunakan SAS atau R. Di Stata, gunakan pwcorruntuk membangun matriks korelasi, gr matrixuntuk membangun matriks sebar, dan vifuntuk mendeteksi tingkat toleransi bermasalah 1 / VIF <0,1.

  • Ukur efek interaksi dengan menambahkan, misalnya, var3*var4ke model. Koefisien akan membantu Anda menyadari berapa banyak bermain di antara var3dan var4. Ini hanya akan membawa Anda sejauh mengukur interaksi secara parsial, tetapi itu tidak akan menyelamatkan model Anda dari keterbatasannya.

  • Yang paling penting, jika Anda mendeteksi multikolinieritas yang kuat atau masalah lain seperti heteroskedastisitas, Anda harus membuang model Anda dan mulai lagi. Salah spesifikasi model adalah wabah analisis regresi (dan metode frequentist pada umumnya). Paul Schrodt memiliki beberapa makalah yang bagus tentang masalah ini, termasuk " Tujuh Dosa Mematikan " yang baru-baru ini saya sukai.

Ini menjawab poin Anda tentang multikolinearitas, dan banyak dari ini dapat dipelajari dari buku pegangan regresi di UCLA Stat Computing. Itu tidak menjawab pertanyaan Anda tentang kausalitas. Secara singkat, regresi tidak pernah bersifat kausal. Tidak ada model statistik apa pun: informasi kausal dan statistik adalah spesies yang terpisah. Baca selektif dari Judea Pearl ( contoh ) untuk mempelajari lebih lanjut tentang masalah ini.

Secara keseluruhan, jawaban ini tidak membatalkan nilai analisis regresi, atau bahkan statistik frequentist (kebetulan saya mengajar keduanya). Namun, hal itu mengurangi ruang lingkup ketepatannya, dan juga menggarisbawahi peran penting dari teori penjelas awal Anda, yang benar-benar menentukan kemungkinan model Anda memiliki sifat kausal.

Fr.
sumber
+1 untuk tautan ke buku pegangan, menyebutkan collinearity dan IVF, dan solusi spesifik dan bahkan implementasi dalam R. Saya ingin mendengar pendapat Anda tentang apakah data itu sendiri tidak cocok untuk analisis regresi- Saya mengedit pertanyaan di atas untuk mencerminkan bahwa ini adalah pengukuran jaringan.
rd108
Maaf atas jawaban yang terlambat, tapi sayangnya saya tahu terlalu sedikit tentang topik untuk menjawab bahwa Anda menggunakan teknik yang tepat. Dugaan saya adalah bahwa SNA berisi alat-alat lain yang akan membantu (misalnya memodelkan langkah-langkah sentralitas yang berbeda ketika Anda menekan kombinasi dari empat node Anda).
Fr.
5

Jika Anda ingin melihat apakah variabel independen berkorelasi, itu mudah - cukup uji korelasi misalnya dengan PROC CORR di SAS, atau cor di R, atau apa pun dalam paket apa pun yang Anda gunakan.

Namun, Anda mungkin ingin menguji collinearity, atau sebagai tambahan.

Tetapi itu hanya sebagian dari masalah sebab-akibat. Lebih bermasalah adalah bahwa beberapa variabel yang TIDAK dalam data Anda terlibat. Contoh klasik:

Siswa yang mempekerjakan tutor mendapatkan nilai lebih buruk daripada siswa yang tidak mempekerjakan tutor.

Jumlah kerusakan yang disebabkan oleh kebakaran sangat terkait dengan jumlah petugas pemadam kebakaran yang muncul.

dan (favorit saya)

jika Anda mundur IQ pada tanda astrologi dan usia di antara anak-anak usia 5 - 12, ada interaksi yang signifikan dan efek signifikan tanda pada IQ, tetapi hanya pada anak kecil.


Alasan: 1. Ya. Karena siswa yang mendapat nilai bagus cenderung tidak mempekerjakan tutor sejak awal

  1. Ya, karena kebakaran yang lebih besar merusak lebih banyak dan membawa lebih banyak petugas pemadam kebakaran

  2. Jumlah sekolah (dalam bulan) yang dimiliki seorang anak tergantung pada bulan kelahiran. Sistem sekolah memiliki batasan umur. Jadi, satu anak 6 tahun mungkin memiliki sekolah 11 bulan lebih banyak daripada anak 6 tahun lainnya.

Dan semua itu tanpa masuk ke filsafat!

Peter Flom
sumber
2

Hubungan antara sebab akibat dan asosiasi pada dasarnya dalam menjawab pertanyaan berikut:

Apa lagi, selain hubungan sebab akibat yang dihipotesiskan, yang bisa menyebabkan dan saling berhubungan?XY

Selama jawaban untuk pertanyaan ini bukan "tidak ada" maka Anda hanya dapat berbicara secara pasti tentang asosiasi. Selalu ada satu usulan hubungan "kausal" yang sebenarnya merupakan kasus khusus dari hubungan kausal "benar" - inilah yang terjadi antara teori gravitasi Newton dan Einstein, saya pikir. Hubungan sebab akibat Newton adalah kasus khusus teori Einstein. Dan teorinya mungkin akan menjadi kasus khusus dari beberapa teori lain.

Selain itu, kesalahan apa pun dalam data Anda menghilangkan kemungkinan adanya hubungan sebab akibat yang pasti. Ini karena frasa "A menyebabkan B" agak merupakan hubungan deduktif antara A dan B. Yang harus Anda lakukan untuk menyangkal hipotesis ini adalah untuk menemukan 1 kasus di mana B tidak ada tetapi A ada (karena A adalah benar , tetapi ini harus berarti bahwa B juga benar - tetapi kami mengamati B salah).

Dalam pengaturan regresi, jauh lebih konstruktif untuk memikirkan prediksi daripada menafsirkan koefisien ketika melihat sebab-akibat. Jadi jika Anda benar-benar memiliki alasan yang baik untuk berpikir bahwa variabel empat adalah "penyebab utama" variabel (variabel dependen Anda), maka Anda harus dapat memprediksi dengan hampir pasti menggunakan variabel empat. Jika Anda tidak dapat melakukan hal ini, maka tidak pantas untuk menyimpulkan bahwa variabel empat menyebabkan . Tetapi jika Anda dapat melakukan prediksi ini dengan hampir pasti menggunakan keempat variabel - maka ini menunjukkan bahwa kombinasi tertentu "menyebabkan"YYYY. Dan setiap kali Anda mengusulkan hubungan sebab-akibat, Anda hampir pasti harus "membuktikannya" dengan mereproduksi hasil Anda dengan data baru - Anda harus dapat memprediksi data apa yang akan dilihat, dan benar tentang hal itu.

Anda juga memerlukan semacam teori fisik tentang "mekanisme sebab-akibat" (ketika saya menekan tombol itu, lampu menyala, ketika saya menekan tombol ini, cahaya berubah warna, dll.). Jika yang Anda miliki hanyalah bahwa "koefisien regresi adalah 0,7", hal ini tidak banyak berpengaruh dalam membangun mekanisme sebab-akibat yang sedang bekerja.

probabilityislogic
sumber
1

Saya tidak yakin di bidang apa pekerjaan Anda, jadi ini mungkin atau mungkin tidak membantu - tapi saya paling terbiasa menggunakan SPSS dengan konstruksi psikologis. Dalam pengalaman saya, jika saya memiliki beberapa variabel yang memprediksi variabel hasil (atau variabel dependen) dalam suatu regresi, dan saya memiliki satu atau lebih variabel independen yang muncul sebagai prediktor yang signifikan, langkah selanjutnya adalah melihat mana yang lebih penting secara bertahap daripada lainnya. Salah satu cara untuk mendekati ini adalah dengan regresi hirarkis. Ini pada dasarnya menjawab pertanyaan "Jika saya sudah memiliki 'variabel empat' untuk memprediksi variabel hasil saya, apakah ada variabel lain yang memberikan peningkatan signifikan secara statistik dalam daya prediksi?" SPSS memiliki cara yang cukup jelas untuk menganalisis ini, karena saya yakin R dan SAS juga melakukannya. Begitu, Saya pikir regresi hierarkis mungkin menjadi langkah Anda berikutnya dalam mencari tahu apakah 'variabel empat' benar-benar pilihan terbaik Anda dalam memprediksi faktor hasil Anda. Yang lain yang merespons telah memberikan diskusi yang baik tentang masalah-masalah yang disebabkan oleh korelasi, jadi saya akan meninggalkan itu sendiri ... Semoga beruntung!

Travis
sumber