Jika korelasi tidak menyiratkan hubungan sebab akibat, lalu apa gunanya mengetahui korelasi antara dua variabel?

11

Katakanlah sebagai pemilik bisnis (atau pemasaran atau siapa pun yang memahami sebaran sebaran) ditampilkan sebaran sebaran dua variabel: jumlah iklan vs jumlah penjualan produk per bulan selama 5 tahun terakhir (atau skala waktu lain sehingga Anda punya lebih banyak sampel. Saya baru saja membuat ini).

Sekarang dia melihat plot pencar dan diberitahu bahwa koefisien korelasi (koreksi) adalah:

  1. 1 atau
  2. 0,5 atau
  3. 0,11 atau
  4. 0 atau
  5. -0,75 atau
  6. -1

Pada dasarnya nilai apa pun yang valid untuk corr

Pertanyaan: Apa artinya ini bagi pengambil keputusan atau konsumen plot pencar? Keputusan apa yang bisa diambil hanya berdasarkan ini?

Yaitu: Apa gunanya melihat korelasi antara dua variabel dan apa yang bisa dilakukan dengan informasi itu secara terpisah? Apakah hanya untuk melihat apa yang harus dan tidak dipertimbangkan untuk dimasukkan dalam analisis regresi atau apakah ada penggunaan yang lebih praktis?

Hanya ingin tahu, saya selalu bekerja dengan teknik ini, tetapi saya telah diberitahu bahwa korelasi dengan sendirinya tidak banyak berguna - jadi apa "IS" yang digunakan?

PhD
sumber

Jawaban:

12

Beberapa pemikiran:

  • Kanard lama tentang korelasi yang tidak menjadi penyebab hanya setengah dari cerita. Korelasi mungkin bukan sebab-akibat, tetapi beberapa bentuk hubungan antara dua variabel adalah langkah yang diperlukan di sepanjang jalan untuk menunjukkan sebab-akibat, dan korelasi dapat membantu menunjukkan itu.
  • Ini membantu menunjukkan tren. Perlihatkan kepada pemilik bisnis, dan mereka mungkin berkata "Ya, itu masuk akal, Anda melihat Widget X dan Widget Y keduanya akhirnya digunakan oleh sekelompok orang tertentu, meskipun mereka tidak benar-benar terkait. Atau mereka mungkin mengatakan "Itu ... aneh", pada titik mana Anda meminta penyelidikan lebih lanjut.
  • Lihatlah seperti ini. Korelasi adalah alat. Palu, dengan sendirinya, tidak terlalu berguna. Itu pasti tidak akan membangun rumah dengan sendirinya. Tetapi pernahkah Anda mencoba membangun rumah tanpa palu?
Fomite
sumber
5
Dalam peluru pertama Anda, Anda mengatakan bahwa korelasi adalah kondisi yang diperlukan untuk sebab-akibat - itu tidak benar. Jika ada hubungan non-monotonik antara dua variabel maka mereka dapat tidak berkorelasi - ini tidak menghalangi sebab akibat.
Makro
@ Macro - benar, dan diedit
Fomite
@ Macro Benar, tetapi dalam praktiknya Anda dapat menerapkan fungsi ke variabel Anda untuk membuat hubungan yang akan diuji monoton. jika Anda tidak tahu fungsi ini, maka ... Anda tidak tahu banyak tentang apa yang Anda cari
RockScience
@EpiGrad: Asumsikan grafik korelasi XY dari dua variabel terlihat seperti smiley yang bahagia (atau bentuk lain apa pun). Koefisien korelasi sebenarnya akan sangat kecil, tetapi pasti akan ada beberapa hubungan, bukan? Bagaimana / apa yang harus dilakukan dalam kasus seperti itu?
PhD
@Nupul Eksplorasi XY yang agak lebih rumit di luar linearitas.
Fomite
7

Lihatlah dari perspektif judi. Katakanlah kita tahu bahwa rata-rata orang yang memakai sepatu bot untuk bekerja akan memiliki 1,5 cedera di tempat kerja, dan orang yang memakai sepatu pantofel rata-rata akan mengalami 0,05 cedera. Atau, mungkin kemungkinan cedera bagi orang yang memakai sepatu bot adalah .85, dan kemungkinan cedera pada orang yang memakai sepatu adalah .1.

Jika saya secara acak memilih seseorang dari populasi, dan memberi tahu Anda bahwa orang tersebut mengenakan sepatu kerja, dan menawarkan Anda taruhan uang pada apakah mereka mengalami cedera di tempat kerja tahun lalu, apakah Anda akan mengambil taruhan? Nah, Anda akan mengambil taruhan jika Anda bisa bertaruh di sisi bahwa mereka mengalami cedera .. 85% dari waktu Anda akan menang, dan Anda mendapatkan uang lebih.

Intinya adalah, mengetahui bahwa sepotong informasi memberi kita informasi tentang apakah mereka cenderung mengalami cedera di tempat kerja atau tidak. Sepatu tidak ada hubungannya dengan itu, pada kenyataannya, sepatu kerja mencegah cedera. adalah jenis pekerjaan yang sejalan dengan workboots .. Dan mungkin hal-hal lain seperti orang yang mungkin lebih ceroboh.

Adam
sumber
6

Ungkapan "korelasi tidak menyiratkan sebab-akibat" menjadi overplayed. (Seperti yang ditulis Cohen, "ini isyarat yang sangat besar".) Kami mengalahkan frasa ini ke dalam siswa karena adanya bias intrinsik pada pikiran manusia. Ketika Anda mendengar 'tingkat kejahatan berkorelasi dengan tingkat kemiskinan', atau sesuatu seperti itu, Anda tidak dapat tidak berpikir bahwa ini berarti bahwa kemiskinan menyebabkan kejahatan. Itu wajar bagi orang untuk menganggap ini, karena itulah cara pikiran bekerja. Kami menggunakan frasa berulang-ulang dengan harapan menangkal itu. Namun, begitu Anda menyerap ide itu, frasa kehilangan sebagian besar nilainya, dan inilah saatnya untuk beralih ke pemahaman yang lebih canggih.

Ketika ada korelasi antara dua variabel, ada dua kemungkinan: semuanya kebetulan, atau ada beberapa pola kausal yang bekerja. Menyebut suatu pola di dunia sebagai suatu kebetulan adalah kerangka penjelasan yang mengerikan dan mungkin harus menjadi pilihan terakhir Anda. Itu menyisakan kausalitas. Masalahnya adalah kita tidak tahu sifat dari pola sebab akibat itu. Bisa jadi kemiskinan menyebabkan kejahatan, tetapi bisa juga kejahatan menyebabkan kemiskinan (misalnya, orang tidak mau tinggal di daerah dengan kejahatan tinggi, sehingga mereka pindah dan nilai properti jatuh, dll.). Bisa juga ada beberapa variabel ketiga atau kelompok variabel yang menyebabkan kejahatan dan kemiskinan, tetapi tidak ada langsunghubungan sebab akibat antara kejahatan dan kemiskinan (dikenal sebagai model 'penyebab umum'). Ini sangat merusak, karena, dalam model statistik, semua sumber variasi lain diciutkan ke dalam istilah kesalahan variabel dependen. Akibatnya, variabel independen dikorelasikan dengan (disebabkan oleh) istilah kesalahan, yang mengarah ke masalah endogenitas . Masalah-masalah ini sangat sulit, dan tidak boleh dianggap enteng. Meskipun demikian, bahkan dalam skenario ini, penting untuk mengenali bahwa ada kausalitas nyata yang bekerja.

Singkatnya, ketika Anda melihat korelasi, Anda harus berpikir bahwa mungkin ada semacam kausalitas yang dimainkan di suatu tempat , tetapi Anda tidak tahu sifat dari pola kausal itu.

gung - Pasang kembali Monica
sumber
4

Saya pikir saya memiliki pengetahuan tentang hal-hal ini, tetapi hanya bulan lalu saya mencari "menyiratkan" dalam kamus dan menemukan itu memiliki dua makna yang sangat berbeda. 1. Sarankan dan 2. Membutuhkan. (!) Korelasi jarang memerlukan sebab-akibat, tetapi pasti bisa menyarankan itu. Seperti yang ditunjukkan oleh @EpiGrad, ini adalah kondisi yang diperlukan meskipun tidak cukup untuk menetapkan penyebab.

Seiring berjalannya waktu orang diharapkan menemukan jalan tengah antara melihat korelasi sebagai yang terakhir dan sama sekali tidak berguna. Dan seseorang memperhitungkan pengetahuan khusus subjek / domain- / konten dalam menafsirkan hasil korelasional. Hanya sedikit orang yang akan mempertanyakan setidaknya ada beberapa tautan sebab akibat ketika melihat hasil penjualan iklan yang Anda gambarkan. Tapi itu selalu baik untuk tetap terbuka terhadap kemungkinan lain, variabel lain yang setidaknya bisa menjelaskan sebagian hubungan yang diamati. Bacaan tentang variabel pengganggu, validitas, dan sejenisnya membayar dengan dividen besar. Sebagai contoh, kuasi-eksperimentasi klasik lama karya Cook dan Campbell memiliki bagian yang baik tentang validitas dan ancaman terhadap validitas.

rolando2
sumber
1
Seperti yang saya tunjukkan pada @EpiGrad, korelasi bukanlah kondisi yang diperlukan untuk penyebab. Ada konsepsi yang meluas dalam analisis data bahwa hubungan antar variabel selalu mengacu pada hubungan monotonik, yang diasumsikan secara diam-diam dengan menyarankan bahwa korelasi adalah kondisi yang diperlukan untuk sebab-akibat.
Makro
1
Cukup adil. Katakanlah "asosiasi statistik" diperlukan, kalau begitu.
rolando2
2

Koefisien korelasi, seperti ukuran asosiasi lainnya, berguna jika Anda ingin tahu seberapa banyak mengetahui nilai X informatif tentang nilai Y. Ini berbeda dengan mengetahui apakah Anda menetapkan X ke nilai tertentu, apa nilai Y yang akan Anda dapatkan (yang merupakan inti dari interpretasi sebab akibat yang kontrafaktual).

Namun demikian, dalam banyak konteks (mis prediksi) kesimpulan berdasarkan korelasi akan bernilai dalam hak mereka sendiri. Gigi kuning berkorelasi dengan kanker paru-paru (karena keduanya kemungkinan disebabkan oleh kanker). Tidak ada penyebab di antara keduanya: memutihkan gigi tidak akan menyembuhkan kanker paru-paru. Tetapi jika Anda memerlukan tes skrining cepat untuk siapa yang kemungkinan menderita kanker paru-paru, memeriksa gigi kuning mungkin merupakan langkah pertama yang baik.

Ini adalah pertanyaan yang berbeda apakah koefisien korelasi adalah ukuran asosiasi terbaik yang tersedia, tetapi saya pikir pertanyaannya lebih tentang apa nilai mengetahui hubungan non-kausal.

Btw, tidak hanya korelasi tidak cukup demonstrasi sebab-akibat, tetapi tidak perlu juga. Dua variabel dapat dihubungkan secara kausal namun tidak menunjukkan korelasi dalam dataset tertentu (misalnya karena bias seleksi atau perancu).

Dimiter
sumber
1

korelasi dengan sendirinya tidak banyak digunakan - jadi apa "IS" yang digunakan?

Biarkan saya tidak setuju dengan frasa ini, korelasi biarkan untuk mengetahui tingkat hubungan antara 2 variabel. Kemudian, akan berguna ketika mencoba menjelaskan hubungan antara variabel-variabel tersebut. Di sisi lain, (seperti yang ditulis Makro) korelasi bukanlah kondisi yang diperlukan untuk sebab-akibat, namun, cukup untuk menjelaskan tingkat hubungan. Selanjutnya, Anda dapat menguji independensi variabel, tetapi korelasi dapat memberi Anda informasi lain yang berguna, koefisien determinasi.

Meskipun demikian, analis harus mengetahui domain untuk dapat menjelaskan jenis hubungan.

Jose Zubcoff
sumber
Saya tidak yakin apa yang Anda maksud dengan ini:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
PhD
Yang saya maksud adalah: "Anda dapat menguji independensi variabel" tetapi bagaimanapun, bahkan ketika tidak menguji independensi, informasi korelasi dan koefisien. penentuan "berguna" untuk memahami dan menjelaskan jenis hubungan antar variabel.
Jose Zubcoff
1

Saya pikir pengumpulan data dan desain studi juga dapat berperan dalam menjawab pertanyaan ini. Anda tidak akan mendesain studi dan mengumpulkan satu set data yang sama sekali tidak relevan satu sama lain, bahkan dalam studi observasi. Oleh karena itu "korelasi tidak menyiratkan sebab-akibat" dapat dibenarkan. Meskipun itu bukan hubungan kausal, mungkin ada asosiasi yang terkait.

Namun jika Anda berbicara tentang dua dataset yang sama sekali tidak relevan, tetapi Anda masih ingin menggunakan korelasi untuk menjelaskan hubungan dan penyebabnya, maka itu mungkin tidak pantas. Misalnya, jika dua dataset semua memiliki tren menurun, katakanlah penjualan es krim dan jumlah pernikahan, koefisien korelasi mungkin sangat tinggi. Tetapi apakah perlu artinya asosiasi?

Fred
sumber