Bisakah variabel independen dengan korelasi rendah dengan variabel dependen menjadi prediktor signifikan?

10

Saya memiliki delapan variabel independen dan satu dependen. Saya telah menjalankan matriks korelasi, dan 5 di antaranya memiliki korelasi rendah dengan DV. Saya kemudian menjalankan beberapa regresi bertahap untuk melihat apakah ada / semua IVs dapat memprediksi DV. Regresi menunjukkan bahwa hanya dua IV yang dapat memprediksi DV (hanya dapat menjelaskan sekitar 20% dari varians), dan SPSS menghapus sisanya dari model. Atasan saya berpendapat bahwa saya belum menjalankan regresi dengan benar, karena karena kekuatan korelasinya, saya seharusnya menemukan lebih banyak prediktor dalam model regresi. Tetapi korelasinya kecil, jadi pertanyaan saya adalah: jika infus dan DV hampir tidak berkorelasi, bisakah infus masih menjadi prediktor yang baik untuk DV?

Elle
sumber
5
Judul dan konten Anda menunjukkan kebingungan antara istilah "dependen" dan "independen". Harap periksa bahwa edit saya mempertahankan makna yang Anda maksudkan. Fakta bahwa orang menjadi bingung tentang mana yang memperkuat kasus untuk terminologi yang lebih menggugah, seperti "respons" atau "hasil" daripada "variabel dependen". Akhirnya pada singkatan perhatikan bahwa bagi banyak orang "IV" berarti variabel instrumental .
Nick Cox
4
Iya itu mungkin. Salah satu alasannya adalah ukuran sampel yang tinggi. Alasan lain adalah membingungkan: variabel independen utama dapat menunjukkan korelasi yang rendah dengan depeden karena variabel tersebut tidak ditemukan oleh variabel independen lainnya. Setelah perancu ditambahkan ke model, itu dapat membuat perubahan variabel independen asli dari tidak prediktif menjadi prediktif (atau prediktif menjadi tidak prediktif, tergantung pada jenis perancu.) Regresi akan sepenuhnya setuju dengan semua tes korelasi hanya ketika semua variabel independen tidak berkorelasi, yang hampir tidak pernah terjadi.
Penguin_Knight
3
Mengatakan regresi langkah-bijaksana "menunjukkan bahwa hanya dua IV yang dapat memprediksi DV" menunjukkan Anda tidak mengerti cara kerjanya. Jika dua infus sangat berkorelasi, & memprediksi DV dengan baik, prosedur bertahap dapat menghapus satu dengan sewenang-wenang. Apa masalah dengan menggunakan model 8-IV penuh?
Scortchi
3
Jika tergoda untuk menggunakan langkah demi langkah, raihlah Frank Harrell, strategi pemodelan Regresi Springer, NY, 2001 sebagai penangkal racun. Dia aktif di situs ini dan kemungkinan akan menembakkan roket jika dia mendengar kata "stepwise".
Nick Cox
1
Semakin lemah pemahaman Anda tentang statistik, semakin sedikit Anda harus dipusingkan dengan prosedur pemilihan variabel. Jika tujuan Anda untuk memeriksa bagaimana masing-masing IV berhubungan dengan DV setelah mengendalikan yang lain, itulah yang estimasi koefisien (dengan interval kepercayaan mereka) dari model lengkap memberitahu Anda. Melihat varians faktor inflasi bersama menunjukkan bagaimana korelasi antara infus berkontribusi terhadap ketidakpastian. Gunakan koefisien determinasi yang divalidasi silang atau disesuaikan,R2, untuk menilai kemampuan prediktif keseluruhan model & untuk memeriksa pemasangan berlebihan.
Scortchi

Jawaban:

8

Dengan matriks korelasi, Anda memeriksa asosiasi (mentah) tanpa syarat antara variabel Anda. Dengan model regresi, Anda memeriksa asosiasi gabungan IV Anda dengan DV Anda, sehingga melihat asosiasi kondisional (untuk setiap IV, hubungannya dengan DV tergantung pada IV lainnya). Tergantung pada struktur data Anda, keduanya dapat menghasilkan hasil yang sangat berbeda, bahkan bertentangan.

miura
sumber
5

Secara kebetulan saya hanya melihat contoh yang telah saya buat sebelumnya untuk menunjukkan konsep yang sama (sebenarnya untuk menunjukkan salah satu masalah dengan regresi bertahap). Berikut ini adalah kode R untuk membuat dan menganalisis dataset yang disimulasikan:

set.seed(1)
x1 <- rnorm(25)
x2 <- rnorm(25, x1)
y <- x1-x2 + rnorm(25)
pairs( cbind(y,x1,x2) )    # Relevant results of each following line appear below...
cor( cbind(y,x1,x2) )      # rx1y  =   .08      rx2y = -.26      rx1x2 = .79
summary(lm(y~x1))          # t(23) =   .39         p = .70
summary(lm(y~x2))          # t(23) = -1.28         p = .21
summary(lm(y~x1+x2))       # t(22) =  2.54, -2.88  p = .02, .01 (for x1 & x2, respectively)

Korelasi dan regresi linier sederhana menunjukkan hubungan yang rendah (tidak signifikan secara statistik) antara y dan masing-masing xvariabel. Tapiy didefinisikan sebagai fungsi dari keduanya xs, dan regresi berganda menunjukkan keduanya sebagai prediktor signifikan.

Greg Snow
sumber
4

Pertanyaan Anda akan lebih mudah dijawab jika kami dapat melihat detail kuantitatif dari output perangkat lunak Anda dan idealnya juga melihat data.

Apa itu "korelasi rendah", khususnya? Tingkat signifikansi apa yang Anda gunakan? Apakah ada hubungan built-in antara prediktor yang mengakibatkan SPSS menjatuhkan beberapa?

Perhatikan bahwa kami tidak memiliki ruang untuk menilai apakah Anda menggunakan sintaksis terbaik atau paling tepat untuk tujuan Anda, karena Anda tidak menyatakan dengan tepat apa yang Anda lakukan.

Secara umum, korelasi rendah antara prediktor dan hasil menyiratkan bahwa regresi mungkin mengecewakan dengan cara yang sama seperti Anda membutuhkan cokelat untuk membuat kue cokelat. Beri kami lebih banyak detail, dan Anda harus mendapatkan jawaban yang lebih baik.

Secara umum, kekecewaan atasan Anda tidak menyiratkan bahwa Anda melakukan hal yang salah. Jika atasan Anda tahu lebih sedikit statistik daripada Anda, Anda perlu mencari saran dan dukungan dari orang lain di lembaga Anda.

Nick Cox
sumber
Terima kasih semuanya. Saya tahu ini sedikit pertanyaan bayi. Saya merasakan tekanan karena DV dan IV saya adalah Locus of Control (dengan 3 subskala), Dukungan Sosial, Coping Self Efficacy (3 subskala) dan Kecerdasan Emosional (ini semua berhubungan dengan kuesioner laporan diri) dan saya ingin tahu bagaimana / apakah DV mampu memprediksi tekanan yang dirasakan. Saya melihat korelasi antara semua variabel, semuanya sebagian besar di bawah 0,40, tingkat signifikansi adalah 0,001. Saya menjalankan korelasi Pearsons terlebih dahulu untuk melihat apakah DV berkorelasi dengan stres yang dirasakan, kemudian regresi untuk melihat apakah mereka dapat memprediksi stres.
Elle
1
Seperti yang benar-benar ditekankan oleh @miura, hal-hal lucu dapat terjadi, tetapi hasil ini tampaknya sangat konsisten dengan yang relatif rendah R2.
Nick Cox