Saya memiliki kumpulan data besar ini dengan 2500 variabel dan 142 observasi.
Saya ingin menjalankan korelasi antara Variabel X dan variabel lainnya. Tetapi untuk banyak kolom, ada entri yang hilang.
Saya mencoba melakukan ini di R menggunakan argumen "pairwise-complete" ( use=pairwise.complete.obs
) dan menghasilkan banyak korelasi. Tetapi kemudian seseorang di StackOverflow memposting tautan ke artikel ini http://bwlewis.github.io/covar/missing.html dan itu membuat metode "pairwise-complete" di R terlihat tidak dapat digunakan.
Pertanyaan Saya: Bagaimana saya tahu kapan waktu yang tepat untuk menggunakan opsi "pairwise-complete"?
Saya use = complete.obs
kembali no complete element pairs
, jadi jika Anda bisa menjelaskan apa artinya itu, itu akan bagus.
sumber
Jawaban:
Masalah dengan korelasi pada observasi lengkap berpasangan
Dalam kasus yang Anda gambarkan, masalah utamanya adalah interpretasi. Karena Anda menggunakan pengamatan lengkap berpasangan, Anda sebenarnya menganalisis kumpulan data yang sedikit berbeda untuk masing-masing korelasi, tergantung pada pengamatan mana yang hilang.
Perhatikan contoh berikut:
Tiga variabel dalam dataset,
a
,b
, danc
, masing-masing memiliki beberapa nilai yang hilang. Jika Anda menghitung korelasi pada pasangan variabel di sini, Anda hanya akan dapat menggunakan kasus yang tidak memiliki nilai yang hilang untuk kedua variabel tersebut. Dalam hal ini, itu berarti Anda akan menganalisis hanya 3 kasus terakhir untuk korelasi antaraa
danb
, hanya tiga kasus pertama untuk korelasi antarab
danc
, dll.Fakta bahwa Anda menganalisis kasus yang benar-benar berbeda ketika Anda menghitung setiap korelasi berarti bahwa pola korelasi yang dihasilkan dapat terlihat tidak masuk akal. Lihat:
Ini terlihat seperti kontradiksi logis ---
a
danb
sangat berkorelasi positif, danb
danc
juga sangat berkorelasi positif, sehingga Anda akan berharapa
danc
berkorelasi positif juga, tetapi sebenarnya ada asosiasi yang kuat di arah yang berlawanan. Anda dapat melihat mengapa banyak analis tidak suka itu.Edit untuk menyertakan klarifikasi yang berguna dari whuber:
Perhatikan bahwa bagian dari argumen tergantung pada apa arti korelasi "kuat". Sangat mungkin untuk
a
danb
jugab
danc
menjadi "sangat berkorelasi positif" sementara ada "asosiasi kuat dalam arah yang berlawanan" antaraa
danc
, tetapi tidak cukup ekstrim seperti dalam contoh ini. Inti masalahnya adalah bahwa estimasi korelasi (atau kovarian) matriks mungkin tidak positif-pasti: itulah bagaimana seseorang harus menghitung "kuat".Masalah dengan jenis orang hilang
Anda mungkin berpikir pada diri sendiri, "Yah, tidak apa-apa untuk hanya berasumsi bahwa kumpulan kasus yang saya miliki untuk setiap korelasi mengikuti kurang lebih pola yang sama yang akan saya dapatkan jika saya memiliki data lengkap?" Dan ya, itu benar --- tidak ada yang salah secara fundamental dengan menghitung korelasi pada subset dari data Anda (walaupun Anda kehilangan presisi dan kekuatan, tentu saja, karena ukuran sampel yang lebih kecil), selama data yang tersedia adalah acak sampel semua data yang akan ada di sana jika Anda tidak memiliki data yang hilang.
Ketika ketidakhadiran itu murni acak, itu disebut MCAR (hilang sepenuhnya secara acak). Dalam hal itu, menganalisis subset dari data yang tidak memiliki ketiadaan tidak akan secara sistematis bias hasil Anda, dan itu tidak mungkin (tetapi bukan tidak mungkin) untuk mendapatkan jenis pola korelasi gila yang saya tunjukkan dalam contoh di atas.
Ketika ketidakhadiran Anda sistematis dalam beberapa hal (sering disingkat MAR atau NI, menggambarkan dua jenis hilang secara sistematis) maka Anda memiliki masalah yang jauh lebih serius, baik dalam hal berpotensi memperkenalkan bias dalam perhitungan Anda dan dalam hal kemampuan Anda untuk menggeneralisasi Anda hasil ke populasi yang menarik (karena sampel yang Anda analisis bukan sampel acak dari populasi, bahkan jika dataset lengkap Anda seharusnya).
Ada banyak sumber daya hebat yang tersedia untuk belajar tentang data yang hilang dan bagaimana menanganinya, tetapi rekomendasi saya adalah Rubin: klasik , dan artikel yang lebih baru
sumber
Kekhawatiran besar adalah apakah data hilang dengan cara sistematis yang akan merusak analisis Anda. Data Anda mungkin hilang tidak secara acak.
Ini dibesarkan dalam jawaban sebelumnya, tetapi saya pikir saya akan berkontribusi sebagai contoh.
Contoh keuangan: pengembalian yang hilang mungkin merupakan pengembalian yang buruk
Semua tidak selalu hilang dalam situasi ini (ada hal-hal yang dapat Anda lakukan), tetapi menjalankan regresi (atau menghitung korelasi) secara naif pada data yang tidak ada dapat menyebabkan perkiraan yang bias dan tidak konsisten dari parameter sebenarnya dalam populasi.
sumber
Korelasi berpasangan cocok jika data Anda yang hilang adalah Missing Complete At Random (MCAR). Buku Data Hilang Paul Allison adalah tempat yang baik untuk memulai mengapa.
Anda dapat menguji ini menggunakan Little (1988) MCAR Test, yang ada dalam
BaylorEdPsych
paket.sumber