Bagaimana cara menghitung korelasi antara / di dalam kelompok variabel?

13

Saya memiliki matriks 1000 pengamatan dan masing-masing 50 variabel diukur pada skala 5 poin. Variabel-variabel ini disusun dalam kelompok, tetapi tidak ada jumlah variabel yang sama di setiap kelompok.

Saya ingin menghitung dua jenis korelasi:

  1. Korelasi dalam kelompok variabel (antar karakteristik): beberapa ukuran apakah variabel dalam kelompok variabel mengukur hal yang sama.
  2. Korelasi antara kelompok variabel: beberapa ukuran, dengan asumsi bahwa setiap kelompok mencerminkan satu sifat keseluruhan, tentang bagaimana masing-masing sifat (kelompok) terkait dengan setiap sifat lainnya.

Karakteristik ini sebelumnya telah diklasifikasikan ke dalam kelompok. Saya tertarik untuk menemukan korelasi antara kelompok - yaitu dengan asumsi bahwa karakteristik dalam kelompok mengukur sifat dasar yang sama (setelah menyelesaikan # 1 di atas - alpha Cronbach), apakah ciri-ciri itu terkait?

Adakah yang punya saran untuk mulai dari mana?

blep
sumber
1
Jika Anda terbiasa dengan R, ada paket vegandengan fungsi anosimatau lebih disukai, adonis(permutasi MANOVA).
Roman Luštrik
Saya telah memperbarui pertanyaan Anda untuk mencoba menggunakan terminologi standar (yaitu, variabel bukan karakteristik; kelompok variabel daripada "grup")
Jeromy Anglim

Jawaban:

16

Apa yang disarankan @rolando terlihat seperti awal yang baik, jika tidak seluruh respons (IMO). Biarkan saya melanjutkan dengan pendekatan korelasional, mengikuti kerangka Teori Uji Klasik (CTT). Di sini, seperti dicatat oleh @Jeromy, ukuran ringkasan untuk kelompok karakteristik Anda dapat dianggap sebagai skor total (atau jumlah) dari semua item (karakteristik, dalam kata-kata Anda) milik apa yang sekarang akan saya sebut sebagai skala. Di bawah CTT, ini memungkinkan kita untuk memformalisasi kecenderungan atau kewajiban "sifat" individu sebagai lokasi seseorang pada skala berkelanjutan yang mencerminkan konstruk yang mendasarinya (sifat laten), meskipun di sini ini hanyalah skala ordinal (tapi ini debat lain dalam literatur psikometrik) .

Apa yang Anda gambarkan berkaitan dengan apa yang dikenal sebagai konvergen (sejauh mana item-item yang tergolong dalam skala yang sama berkorelasi satu sama lain) dan diskriminan (item-item yang berasal dari skala yang berbeda tidak boleh berkorelasi dengan tingkat yang luas) validitas dalam psikometrik. Teknik klasik meliputi analisis multi-sifat multi-metode (MTMM) (Campbell & Fiske, 1959). Ilustrasi cara kerjanya ditunjukkan di bawah ini (tiga metode atau instrumen, tiga konstruksi atau sifat):

masukkan deskripsi gambar di sini

Dalam matriks MTMM ini, elemen-elemen diagonal mungkin adalah alfa Cronbach atau korelasi intraclass test-retest; ini adalah indikator keandalan setiap skala pengukuran. The validitas dari hipotesis konstruksi (shared) dinilai oleh korelasi skor skala ketika instrumen yang berbeda digunakan untuk menilai sifat yang sama; jika instrumen ini dikembangkan secara independen, korelasi tinggi ( ) akan mendukung gagasan bahwa sifat-sifat tersebut didefinisikan secara konsisten dan obyektif. Sel-sel yang tersisa dalam matriks MTMM ini merangkum hubungan antara sifat-sifat dalam metode , dan antara sifat-sifat melintasi metode>0.7, dan menunjukkan cara konstruk unik diukur dengan skala yang berbeda dan apa hubungan antara masing-masing sifat dalam skala tertentu. Dengan asumsi sifat independen, kita biasanya tidak mengharapkan mereka menjadi tinggi (ambang yang disarankan adalah ), tetapi uji hipotesis yang lebih formal (pada estimasi titik korelasi) dapat dilakukan. Kehalusannya adalah kita menggunakan apa yang disebut "korelasi sisa", yaitu kita menghitung korelasi antara item (atau sifat) dan skalanya (atau metode) setelah menghapus kontribusi item ini ke jumlah skor dari skala ini (koreksi untuk tumpang tindih).<.3

Bahkan jika metode ini awalnya dikembangkan untuk menilai validitas konvergen dan diskriminan dari sejumlah sifat yang dipelajari oleh instrumen pengukuran yang berbeda, ia dapat diterapkan untuk instrumen multi-skala tunggal. Ciri-ciri kemudian menjadi item, dan metode hanyalah skala yang berbeda. Generalisasi metode ini untuk instrumen tunggal juga dikenal sebagai penskalaan multitrait . Item yang berkorelasi seperti yang diharapkan (yaitu, dengan skala mereka sendiri daripada skala yang berbeda) dihitung sebagai penskalaan keberhasilan. Kami umumnya mengasumsikan, bahwa skala yang berbeda tidak berkorelasi, yaitu mereka menargetkan konstruksi hipotesis yang berbeda. Tetapi rata-rata korelasi dalam dan di antara skala menyediakan cara cepat untuk meringkas struktur internal instrumen Anda. Cara lain yang mudah untuk melakukannya adalah dengan menerapkan analisis kluster pada matriks korelasi berpasangan dan melihat bagaimana variabel Anda saling terkait.

Yang perlu diperhatikan, dalam kedua kasus, peringatan biasa yang bekerja dengan tindakan korelasi berlaku, yaitu Anda tidak dapat menjelaskan kesalahan pengukuran, Anda memerlukan sampel besar, instrumen atau tes yang dianggap "paralel" (tau-ekuivalensi, kesalahan tidak berkorelasi, varians kesalahan yang sama).

Bagian kedua yang dibahas oleh @rolando juga menarik: Jika tidak ada indikasi teoretis atau substantif bahwa pengelompokan item yang sudah ada masuk akal, maka Anda harus menemukan cara untuk menyoroti struktur data Anda dengan misalnya, analisis faktor eksplorasi . Tetapi bahkan jika Anda memercayai "karakteristik dalam suatu kelompok", Anda dapat memeriksa bahwa ini adalah asumsi yang valid. Sekarang, Anda mungkin menggunakan model analisis faktor konfirmatori untuk memeriksa bahwa pola pemuatan item (korelasi suatu item dengan skalanya sendiri) berperilaku seperti yang diharapkan.

Alih-alih metode analitik faktor tradisional, Anda juga dapat melihat pengelompokan item (Revelle, 1979) yang bergantung pada aturan pembagian Cronbach berbasis alpha untuk mengelompokkan item bersama-sama ke dalam skala homogen.

Kata terakhir: Jika Anda menggunakan R, ada dua paket yang sangat bagus yang akan memudahkan langkah-langkah yang disebutkan di atas:

  • psikologi , menyediakan Anda dengan semua yang Anda butuhkan untuk memulai dengan metode psikometri, termasuk analisis faktor ( fa, fa.parallel, principal), item pengelompokan ( ICLUSTdan metode terkait), alpha Cronbach ( alpha); ada yang bagus gambaran tersedia di situs web William Revelle, terutama Pengantar teori psikometri dengan aplikasi di R .
  • psy , juga termasuk plot scree (melalui set data + simulasi PCA) visualisasi ( scree.plot) dan MTMM ( mtmm).

Referensi

  1. Campbell, DT dan Fiske, DW (1959). Validasi konvergen dan diskriminan oleh matriks multitrait-multimethod. Buletin Psikologis , 56: 81–105.
  2. Hays, RD dan Fayers, P. (2005). Mengevaluasi skala multi-item. Dalam Menilai kualitas hidup dalam uji klinis , (Fayers, P. dan Hays, R., Eds.), Hlm. 41-53. Oxford.
  3. Revelle, W. (1979). Analisis Hierarchical Cluster dan Struktur Internal Tes. Penelitian Perilaku Multivariat , 14: 57-74.
chl
sumber
Ini, mungkin, respons paling menarik yang pernah saya baca di Bursa mana pun dan saya telah mempelajari ekonometrik selama 5 tahun.
d8aninja
Apakah matriks MTMM yang dimasukkan di sini seharusnya menjadi contoh realistis dari matriks korelasi? Jika demikian, saya akan mencatat bahwa itu sebenarnya bukan matriks semidefinit positif: misalnya, minor 4-by-4 untuk korelasi sifat 1,2 melintasi metode 1,2 memiliki determinan -0,0419179. (Karena ini adalah nilai negatif kecil, ini mungkin hanya menuju titik Anda kembali: 'kesalahan pengukuran'.)
Semiklasik
7

Cara saya membaca terminologi Anda, apa yang Anda inginkan adalah pertama-tama menilai konsistensi internal dalam setiap kelompok variabel, dan kemudian menilai korelasi antara skor skala yang merupakan rata-rata setiap kelompok variabel. Yang pertama dapat dilakukan dengan menggunakan alpha Cronbach, dan yang kedua menggunakan korelasi Pearson. Ini mengasumsikan Anda memiliki distribusi yang cukup normal dan hubungan yang cukup linier.

Metode yang lebih terlibat, dan tidak harus metode yang diperlukan, akan melakukan analisis faktor eksplorasi. Anda akan mencoba menentukan variabel mana yang harus dikelompokkan bersama dan kemudian lagi sampai sejauh mana faktor-faktor itu akan dikorelasikan. Jika Anda mencoba metode ini, pastikan Anda menggunakan rotasi miring untuk memungkinkan korelasi tersebut muncul. Apakah Anda menggunakan ekstraksi komponen utama atau ekstraksi poros utama akan bergantung, masing-masing, pada apakah variabel Anda objektif, pengukuran bebas kesalahan atau subyektif seperti item survei yang mengandung sejumlah kesalahan tertentu.

rolando2
sumber
Terimakasih atas tanggapan Anda. Saya telah berhasil menghitung alpha Cronbach, tetapi bagaimana cara menghitung koefisien korelasi Pearson dalam kasus ini? Saya bisa menghitungnya secara berpasangan untuk setiap karakteristik individu, tetapi saya ingin tahu bagaimana menghitung korelasi antara kelompok-kelompok karakteristik. Karakteristik dalam suatu kelompok akan memiliki skor yang sama untuk setiap pengamatan. Saya akan mengedit pertanyaan saya untuk membuatnya lebih jelas.
blep
5
  • Alat standar, setidaknya dalam psikologi, dalam situasi Anda akan menjadi analisis faktor eksplorasi dan konfirmasi untuk menilai konvergensi matriks korelasi antar-item dengan beberapa model yang diajukan tentang hubungan antara faktor dan item. Cara Anda mengutarakan pertanyaan Anda menunjukkan bahwa Anda mungkin tidak terbiasa dengan literatur ini. Sebagai contoh, berikut adalah catatan saya tentang skala konstruksi dan analisis faktor dan di sini adalah tutorial di R tentang bentuk analisis faktor Quick-R . Jadi, walaupun ada baiknya menjawab pertanyaan spesifik Anda, saya pikir tujuan Anda yang lebih luas akan lebih baik dilayani dengan memeriksa pendekatan analitik faktor untuk mengevaluasi skala multi-item, multi-faktor.

  • Strategi standar lainnya adalah menghitung skor total untuk setiap kelompok variabel (apa yang saya sebut "skala") dan menghubungkan skala.

  • Banyak alat analisis reliabilitas akan melaporkan korelasi antar item rata-rata.

  • Jika Anda membuat 50 dari 50 matriks korelasi antara item, Anda bisa menulis fungsi dalam R yang rata-rata himpunan bagian berdasarkan kombinasi kelompok variabel. Anda mungkin tidak mendapatkan apa yang Anda inginkan jika Anda memiliki campuran item positif dan negatif, karena korelasi negatif dapat membatalkan korelasi positif.

Jeromy Anglim
sumber
2

Saya akan menyarankan penggunaan sebagai pengganti gagasan korelasi, yang hanya didefinisikan untuk pasangan, gagasan saling informasi dan integrasi dalam model Gaussian.

G1

I1log(|C1|)

C1G1G1log(1ρ2)ρ

Untuk menghitung interaksi antara dua kelompok variabel, Anda dapat menggunakan informasi timbal balik, yang hanya lintas-entropi antara kelompok-kelompok:

MU12=I12I1I2

Saya menemukan referensi pada gagasan ini setelah google cepat yang mungkin bisa membantu.

Gael Varoquaux
sumber