Apakah ada masalah serius dengan menjatuhkan pengamatan dengan nilai yang hilang saat menghitung matriks korelasi?

12

Saya memiliki kumpulan data besar ini dengan 2500 variabel dan 142 observasi.

Saya ingin menjalankan korelasi antara Variabel X dan variabel lainnya. Tetapi untuk banyak kolom, ada entri yang hilang.

Saya mencoba melakukan ini di R menggunakan argumen "pairwise-complete" ( use=pairwise.complete.obs) dan menghasilkan banyak korelasi. Tetapi kemudian seseorang di StackOverflow memposting tautan ke artikel ini http://bwlewis.github.io/covar/missing.html dan itu membuat metode "pairwise-complete" di R terlihat tidak dapat digunakan.

Pertanyaan Saya: Bagaimana saya tahu kapan waktu yang tepat untuk menggunakan opsi "pairwise-complete"?

Saya use = complete.obskembali no complete element pairs, jadi jika Anda bisa menjelaskan apa artinya itu, itu akan bagus.

Stan Shunpike
sumber
4
Sebuah kisah klasik yang perlu diketahui adalah kisah Abraham Wald dan pertanyaan tentang di mana menambahkan baju besi ke pesawat di WWII . Penting untuk memahami mengapa data Anda tidak ada.
Matthew Gunn

Jawaban:

11

Masalah dengan korelasi pada observasi lengkap berpasangan

Dalam kasus yang Anda gambarkan, masalah utamanya adalah interpretasi. Karena Anda menggunakan pengamatan lengkap berpasangan, Anda sebenarnya menganalisis kumpulan data yang sedikit berbeda untuk masing-masing korelasi, tergantung pada pengamatan mana yang hilang.

Perhatikan contoh berikut:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

Tiga variabel dalam dataset, a, b, dan c, masing-masing memiliki beberapa nilai yang hilang. Jika Anda menghitung korelasi pada pasangan variabel di sini, Anda hanya akan dapat menggunakan kasus yang tidak memiliki nilai yang hilang untuk kedua variabel tersebut. Dalam hal ini, itu berarti Anda akan menganalisis hanya 3 kasus terakhir untuk korelasi antara adan b, hanya tiga kasus pertama untuk korelasi antara bdan c, dll.

Fakta bahwa Anda menganalisis kasus yang benar-benar berbeda ketika Anda menghitung setiap korelasi berarti bahwa pola korelasi yang dihasilkan dapat terlihat tidak masuk akal. Lihat:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

Ini terlihat seperti kontradiksi logis --- adan bsangat berkorelasi positif, dan bdan cjuga sangat berkorelasi positif, sehingga Anda akan berharap adan cberkorelasi positif juga, tetapi sebenarnya ada asosiasi yang kuat di arah yang berlawanan. Anda dapat melihat mengapa banyak analis tidak suka itu.

Edit untuk menyertakan klarifikasi yang berguna dari whuber:

Perhatikan bahwa bagian dari argumen tergantung pada apa arti korelasi "kuat". Sangat mungkin untuk adan bjuga bdan cmenjadi "sangat berkorelasi positif" sementara ada "asosiasi kuat dalam arah yang berlawanan" antara adanc , tetapi tidak cukup ekstrim seperti dalam contoh ini. Inti masalahnya adalah bahwa estimasi korelasi (atau kovarian) matriks mungkin tidak positif-pasti: itulah bagaimana seseorang harus menghitung "kuat".

Masalah dengan jenis orang hilang

Anda mungkin berpikir pada diri sendiri, "Yah, tidak apa-apa untuk hanya berasumsi bahwa kumpulan kasus yang saya miliki untuk setiap korelasi mengikuti kurang lebih pola yang sama yang akan saya dapatkan jika saya memiliki data lengkap?" Dan ya, itu benar --- tidak ada yang salah secara fundamental dengan menghitung korelasi pada subset dari data Anda (walaupun Anda kehilangan presisi dan kekuatan, tentu saja, karena ukuran sampel yang lebih kecil), selama data yang tersedia adalah acak sampel semua data yang akan ada di sana jika Anda tidak memiliki data yang hilang.

Ketika ketidakhadiran itu murni acak, itu disebut MCAR (hilang sepenuhnya secara acak). Dalam hal itu, menganalisis subset dari data yang tidak memiliki ketiadaan tidak akan secara sistematis bias hasil Anda, dan itu tidak mungkin (tetapi bukan tidak mungkin) untuk mendapatkan jenis pola korelasi gila yang saya tunjukkan dalam contoh di atas.

Ketika ketidakhadiran Anda sistematis dalam beberapa hal (sering disingkat MAR atau NI, menggambarkan dua jenis hilang secara sistematis) maka Anda memiliki masalah yang jauh lebih serius, baik dalam hal berpotensi memperkenalkan bias dalam perhitungan Anda dan dalam hal kemampuan Anda untuk menggeneralisasi Anda hasil ke populasi yang menarik (karena sampel yang Anda analisis bukan sampel acak dari populasi, bahkan jika dataset lengkap Anda seharusnya).

Ada banyak sumber daya hebat yang tersedia untuk belajar tentang data yang hilang dan bagaimana menanganinya, tetapi rekomendasi saya adalah Rubin: klasik , dan artikel yang lebih baru

Rose Hartman
sumber
2
abbcac
1
@whuber Terima kasih, itu poin penting. Saya telah memperbarui bagian jawaban itu untuk memasukkan klarifikasi itu.
Rose Hartman
7

Kekhawatiran besar adalah apakah data hilang dengan cara sistematis yang akan merusak analisis Anda. Data Anda mungkin hilang tidak secara acak.

Ini dibesarkan dalam jawaban sebelumnya, tetapi saya pikir saya akan berkontribusi sebagai contoh.

Contoh keuangan: pengembalian yang hilang mungkin merupakan pengembalian yang buruk

  • Tidak seperti reksa dana, dana ekuitas swasta (dan dana swasta lainnya) tidak diharuskan oleh hukum untuk melaporkan pengembaliannya ke beberapa basis data pusat.
  • Karenanya kekhawatiran utama adalah bahwa pelaporan bersifat endogen, lebih khusus, bahwa beberapa perusahaan tidak akan melaporkan pengembalian yang buruk.
  • 1niRiRi

Semua tidak selalu hilang dalam situasi ini (ada hal-hal yang dapat Anda lakukan), tetapi menjalankan regresi (atau menghitung korelasi) secara naif pada data yang tidak ada dapat menyebabkan perkiraan yang bias dan tidak konsisten dari parameter sebenarnya dalam populasi.

Matthew Gunn
sumber
4

Korelasi berpasangan cocok jika data Anda yang hilang adalah Missing Complete At Random (MCAR). Buku Data Hilang Paul Allison adalah tempat yang baik untuk memulai mengapa.

Anda dapat menguji ini menggunakan Little (1988) MCAR Test, yang ada dalam BaylorEdPsychpaket.

Tim
sumber
1
Masih ada kekhawatiran: bahkan dengan data MCAR, matriks korelasi yang diperkirakan melalui korelasi berpasangan bisa gagal menjadi positif-pasti.
whuber
Tentu, tetapi pertanyaannya adalah tentang korelasi, itu tidak menyebutkan penggunaan matriks korelasi yang dihasilkan sebagai input ke beberapa algoritma lainnya. Dan, mengingat ukuran sampel, MCAR sangat tidak mungkin.
Tim
1
Jika matriksnya tidak pasti-positif, itu merupakan estimasi yang tidak valid. Setidaknya kita harus khawatir tentang ketidakkonsistenan itu. Saya khawatir saya tidak melihat bagaimana kemungkinan MCAR (yang merupakan mekanisme kehilangan) dapat dikaitkan dengan ukuran sampel.
Whuber
Penanya tertarik pada satu baris matriks korelasi. Sudahkah Anda mendapatkan bukti yang menunjukkan korelasi satu baris semua tidak valid jika matriksnya tidak pasti positif? Saya ingin sekali melihat buktinya dan mendapatkan kebijaksanaan. MCAR, secara umum, sangat tidak mungkin dengan data dunia nyata. Dengan ukuran sampel yang besar, kekuatan uji Little meningkat, sehingga ada kemungkinan besar penolakan terhadap hipotesis nol MCAR. Jangan salah paham di sini: Saya tidak akan pernah menggunakan matriks korelasi parsial-data sebagai input ke metode multivarian, tetapi ini bukan pertanyaan yang diajukan.
Tim
1
Izinkan saya mengklarifikasi: Saya tidak mengklaim bahwa korelasinya "semuanya tidak valid." Saya mengklaim bahwa kumpulan perkiraan korelasi (yaitu, matriks) dapat tidak valid. Itu tidak bisa dibantah (tidak memerlukan bukti), karena semua yang perlu dilakukan adalah menunjukkan satu contoh dari estimasi yang tidak valid, yang sudah dilakukan oleh @RoseHartman di utas ini. Saya tidak akan membantah klaim Anda bahwa MCAR mungkin tidak mungkin - asalkan dipahami secara pribadi: dalam pengalaman Anda, dengan jenis data yang Anda kenal, MCAR jarang terjadi. Saya tidak melihat bagaimana Anda bisa membenarkan interpretasi yang lebih luas dari klaim itu.
whuber