Teknik reduksi dimensi untuk ukuran sampel yang sangat kecil

8

Saya memiliki 21 variabel tingkat sosial-ekonomi dan sikap makro (seperti persentase ibu berusia 24-54 yang tidak bekerja, persentase anak-anak berusia 3-5 tahun di sekolah penitipan anak dan sebagainya). Saya juga memiliki data tentang proporsi kakek-nenek yang memberikan pengasuhan anak intensif. Sebagian besar variabel sosial-ekonomi yang saya pilih sangat berkorelasi dengan penyediaan pengasuhan anak (misalnya, ada korelasi negatif antara proporsi ibu yang bekerja paruh waktu dan penyediaan pengasuhan anak kakek-nenek).

Idealnya, saya ingin membuat tipologi berbagai jenis negara. Harapan saya adalah menggunakan semacam teknik reduksi dimensi yang komponen atau faktornya masuk akal secara intuitif (misalnya sikap terhadap keluarga dan gender, struktur pasar tenaga kerja, kebijakan keluarga). Atau, sebagai alternatif, menilai mana dari 21 indikator tingkat makro yang paling menjelaskan variabilitas dalam penyediaan pengasuhan anak di seluruh negara.

Masalah utama saya adalah saya hanya memiliki 12 negara Eropa. Saya rasa PCA dan analisis faktor bukanlah teknik yang tepat untuk beberapa kasus. Apakah saya benar? Saya diberitahu untuk mencoba menggunakan analisis komparatif kualitatif atau analisis korespondensi ganda, meskipun menurut pemahaman saya teknik-teknik yang terakhir lebih sesuai untuk indikator tingkat makro biner (atau kategorikal) (sedangkan tambang adalah persentase atau variabel kontinu).

Giorgio
sumber
2
Karena Anda menginginkan tipologi, ini terdengar seperti masalah analisis kluster daripada pengurangan dimensi. Dengan data Anda yang terbatas, Anda bisa menggunakan itu dan beberapa plot dasar untuk menceritakan kisahnya - tetapi Anda hampir menyukai metode penelitian kualitatif daripada kuantitatif di sini.
Peter Ellis
Terima kasih. Saya berpikir tentang analisis kluster juga meskipun masalah memiliki banyak variabel dan beberapa kasus masih ada. Saya kira saya akan tetap berpegang pada plot dasar kemudian dan meyakinkan bos saya bahwa tidak ada yang lebih menarik untuk dilakukan (seperti yang selalu saya duga secara diam-diam).
Giorgio
1
Saya pikir @PeterEllis benar tentang hal apa yang ingin Anda lakukan. Namun, Anda dapat melakukan PCA dan FA pada set data kecil. Kedua metode ini bergantung pada korelasi dan korelasi valid, bahkan dengan 12 pengamatan. Namun, korelasi mungkin tidak diestimasi dengan sangat baik.
Peter Flom

Jawaban:

5

Seperti komentar / jawaban Peter Ellis menyarankan Anda berbicara tentang pengurangan dimensi dan bukan pengurangan data. Anda telah mengubah jumlah titik data hanya dengan ukuran ruang kovariat. Sekarang Peter Flom benar bahwa metode PCA dan FA dapat dicoba dengan ukuran sampel yang kecil tetapi bukan hanya korelasi yang kemungkinan diperkirakan buruk, tetapi juga bahwa Anda dapat tertipu untuk jatuh ke dimensi yang terlalu rendah karena fitur mungkin tampak lebih sangat berkorelasi daripada mereka ternyata dengan sampel yang lebih besar. Saya tidak akan merekomendasikan itu.

Michael R. Chernick
sumber
1
Terima kasih. Maaf, maksud saya memang pengurangan dimensi! Saya juga setuju bahwa PCA dan FA sebaiknya dihindari dengan hanya 12 kasus.
Giorgio
1
+1 untuk menunjukkan bahwa, dengan ukuran sampel yang sangat kecil, korelasi sampel biasanya cukup tinggi. Sebagai contoh ekstrem, jikan=3, Anda memiliki peluang yang sangat baik untuk mendapatkan korelasi yang hampir sempurna. Mengetik cor( rnorm(3), rnorm(3) )berulang kali Rakan mengungkapkan itu. Juga, saya perhatikan Anda meninjau hasil edit hari ini - terima kasih telah membantu!
Makro
@ Macro dan dengan n = 2 korelasi +1 atau -1 dijamin.
Michael R. Chernick
5

Saya akan pergi untuk analisis co-inersia, yang merupakan varian tak terucapkan dari analisis kanonik . Ini akan memberi Anda kombinasi linear dari 21 variabel yang memiliki co-inersia tertinggi dengan kombinasi linear data pengasuhan anak (atau dengan pengasuhan anak jika merupakan variabel kuantitatif tunggal). Trik bekerja dengan co-inersia daripada korelasi adalah bahwa Anda masih bisa melakukan perhitungan ketika ada lebih banyak variabel daripada pengamatan.

Sayangnya, CIA tidak tersebar luas. Ini dikembangkan untuk ekologi, di mana biasanya ada lebih banyak variabel daripada situs pengamatan. Anda dapat menemukan beberapa informasi teknis di Dray, Chessel and Thioulouse, Ecology 84 (11), 3078-89, 2003 .

Yang mengatakan, komentar / jawaban lain benar bahwa 12 adalah jumlah yang relatif kecil dan Anda harus hidup dengan itu ...

gui11aume
sumber