Apa bahaya menghitung korelasi Pearson (bukan yang tetrachoric) untuk variabel biner dalam analisis faktor?

Saya melakukan penelitian tentang game edukasi, dan beberapa proyek saya saat ini melibatkan menggunakan data dari BoardGameGeek ( BGG ) dan VideoGameGeek (VGG) untuk menguji hubungan antara elemen desain game (yaitu, "diatur dalam Perang Dunia II", "melibatkan rolling dadu" ) dan peringkat pemain dari game-game tersebut (yaitu skor dari 10). Masing-masing elemen desain ini berkorespondensi dengan tag pada sistem BGG atau VGG, sehingga setiap elemen pada dasarnya adalah variabel dikotomis. Gim memiliki 1 untuk setiap tag yang ada dalam database untuknya, dan 0 untuk setiap tag yang tidak ada.

Ada lusinan tag ini, jadi saya ingin menggunakan exploratory factor analysis (EFA) untuk menghasilkan sejumlah "genre" yang dapat dikelola yang menangkap pola dalam desain game. Berkonsultasi dengan beberapa sumber, saya mengerti bahwa karena saya bekerja dengan variabel dikotomis , saya harus menggunakan korelasi polikorik ( tetrachoric , terutama di sini) daripada yang Pearson ketika datang dengan faktor-faktor saya (ada juga pilihan lain — seperti analisis sifat laten— di luar sana, tapi ini yang saya jelajahi sekarang).

Karena penasaran, saya datang dengan dua set faktor, satu menggunakan korelasi Pearson dan yang lainnya menggunakan korelasi polikorik (jumlah faktor yang sama setiap kali). Masalah saya adalah bahwa faktor-faktor yang dihitung menggunakan korelasi Pearson jauh lebih masuk akal dan lebih mudah diinterpretasikan daripada faktor-faktor yang dihitung menggunakan korelasi polikorik. Dengan kata lain, "genre" dari set faktor pertama masuk akal secara intuitif dan sesuai dengan pemahaman saya tentang bagaimana game biasanya dirancang; itu tidak berlaku untuk faktor kedua.

Di satu sisi, saya ingin memastikan bahwa saya memenuhi asumsi tes yang saya gunakan, bahkan jika itu membuat hasil saya kurang cantik. Di sisi lain, saya merasa bahwa bagian dari tujuan analisis faktor dan (lebih luas) membangun model adalah untuk menghasilkan sesuatu yang bermanfaat, dan informasi yang lebih berguna muncul ketika saya "melanggar aturan." Apakah perlunya model yang berguna cukup untuk melebihi pelanggaran asumsi tes ini? Apa sebenarnya konsekuensi dari menggunakan korelasi Pearson daripada yang polikorik?

r categorical-data factor-analysis binary-data Spencer Greenhalgh
sumber

Asumsi normalitas multivariat yang mendasari begitu kuat dengan data lebih dari tiga dimensi sehingga korelasi polikorik berhenti masuk akal. Tingkat kesalahan spesifikasi model dengan korelasi polikorik kemungkinan besar membuat analisis Anda agak tidak berguna. Saya tidak yakin mengapa Anda memerlukan korelasi tersebut di tempat pertama, meskipun: jika Anda memiliki variabel hasil yang jelas (peringkat) dan banyak variabel penjelas (fitur desain), Anda memerlukan analisis regresi, bukan analisis faktor.

Tugas

Analisis regresi @StasK adalah tujuan akhir saya, tetapi saya memiliki lebih dari 100 variabel penjelas dan ingin mengurangi itu ke angka yang lebih mudah dikelola.

Spencer Greenhalgh

Selanjutnya, untuk masalah seperti itu klasifikasi adalah tujuan itu sendiri.

Pere

Jawaban:

Analisis Faktor Linier secara teoretis , logis hanya untuk variabel kontinu . Jika variabel tidak kontinu tetapi, misalnya, dikotomis, salah satu cara bagi Anda adalah dengan mengakui variabel kontinu yang mendasari di belakang dan menyatakan bahwa variabel yang diamati adalah yang mendasarinya binned atau yang benar. Anda tidak dapat menghitung variabel dikotomis menjadi skala satu tanpa "guru" yang asing, tetapi Anda masih dapat menyimpulkan korelasi yang akan terjadi jika variabel Anda belum dibuang dan variabel "asli" terus menerus didistribusikan secara normal. Dan ini tetrachorickorelasi (atau polikorik, jika menggantikan biner Anda memiliki variabel ordinal). Jadi, menggunakan korelasi tetrachoric (korelasi Pearson disimpulkan) di tempat korelasi Phi (mengamati korelasi Pearson dengan data dikotomis) adalah tindakan yang logis.

Korelasi Phi dihitung pada variabel binch dikotomi sangat sensitif terhadap titik potong (alias "tingkat kesulitan tugas") di mana binning berlangsung. Sepasang variabel bisa berharap untuk mencapai batas teoretis hanya ketika mereka dikurung di atas titik potong setara. Semakin berbeda titik potong di dalamnya, semakin rendah batas maksimal mungkin di antara mereka. (Ini adalah efek umum dari kesamaan distribusi marginal pada kisaran yang mungkin untuk Pearson $r=1$ $r$ $r$ , tetapi dalam variabel dikotomis, efek ini paling tajam karena terlalu sedikit nilai yang harus diambil.) Jadi, korelasi phi dalam matriks mereka dapat dilihat sebagai tidak seimbang karena distribusi marjinal yang berbeda dalam variabel dikotomis; Anda tidak tahu apakah satu korelasi lebih besar dari yang lain "benar-benar" atau karena titik potong yang berbeda dalam dua pasang variabel ini. Jumlah faktor yang diekstraksi (mengikuti kriteria seperti "nilai eigen> 1" Kaiser) akan meningkat: beberapa "faktor" yang diekstraksi menjadi hasil dari ketidakmerataan, keragaman titik potong, - bukan faktor laten yang substantif. Ini adalah alasan praktis mengapa tidak menggunakan korelasi phi (setidaknya dalam bentuk mentah - non-skala).

Ada bukti dalam studi simulasi / binning bahwa analisis faktor berdasarkan korelasi tetrachoric memburuk jika ada banyak korelasi kuat (> 0,7) dalam matriks. Korelasi tetrakorik tidak ideal: jika titik potong dari variabel-variabel mendasar yang berkorelasi berada di sisi yang berlawanan (dan distribusi marjinal dalam dikotomis cenderung berlawanan) sementara hubungan yang mendasarinya kuat, koefisien tetrakorik terlalu tinggi memperkirakannya. Perhatikan juga bahwa matriks korelasi tetrakorik belum tentu semidefinit positif pada sampel yang tidak besar dan mungkin perlu koreksi ("penghalusan"). Namun, ini dianggap oleh banyak cara yang lebih baik daripada melakukan analisis faktor pada koefisien Pearson (phi) biasa.

Tetapi mengapa analisis faktor pada data biner sama sekali? Ada opsi lain, termasuk sifat laten / IRT (bentuk analisis faktor "logistik") dan analisis Korespondensi Berganda (jika Anda melihat variabel biner Anda sebagai kategori nominal).

Lihat juga:

Asumsi analisis faktor linier.
Pearson diskala ulang bisa menjadi (tetapi tidak terlalu meyakinkan) alternatif untuk tetrachotic untuk FA. $r$ $r$

ttnphns
sumber

Periksa juga stats.stackexchange.com/a/219814/3277

ttnphns