Saya mengajar kursus geografi ekonomi pengantar. Untuk membantu siswa saya mengembangkan pemahaman yang lebih baik tentang jenis negara yang ditemukan dalam ekonomi dunia kontemporer dan apresiasi teknik pengurangan data, saya ingin membangun sebuah tugas yang menciptakan tipologi berbagai jenis negara (misalnya, berpenghasilan tinggi nilai tambah, harapan umur panjang mfg, pengekspor sumber daya alam berpenghasilan tinggi, harapan hidup menengah ke atas, dengan Jerman menjadi elemen dari tipe pertama, dan Yaman contoh dari tipe kedua). Ini akan menggunakan data UNDP yang tersedia untuk umum (yang jika saya ingat dengan benar berisi data sosial ekonomi pada sedikit di bawah 200 negara; maaf tidak ada data regional yang tersedia).
Sebelum penugasan ini akan ada tugas lain yang meminta mereka (menggunakan data yang sama --- sebagian besar interval atau rasio ---) untuk memeriksa korelasi antara variabel yang sama ini.
Harapan saya adalah mereka pertama-tama akan mengembangkan intuisi untuk jenis hubungan antara variabel yang berbeda (misalnya, hubungan positif antara harapan hidup dan [berbagai indikator] kekayaan; hubungan positif antara kekayaan dan keragaman ekspor). Kemudian, ketika menggunakan teknik reduksi data, komponen atau faktor akan masuk akal secara intuitif (misalnya, faktor / komponen 1 menangkap pentingnya kekayaan; faktor / komponen 2 menangkap pentingnya pendidikan).
Mengingat bahwa ini adalah siswa tahun kedua hingga keempat, sering dengan paparan terbatas pada pemikiran analitis secara umum, teknik reduksi data apa yang akan Anda sarankan sebagai yang paling sesuai untuk tugas kedua? Ini adalah data populasi, jadi statistik inferensial (p-vlaues, dll.) Tidak terlalu diperlukan.
sumber
Catatan cepat yang ditambahkan: Manapun dari teknik di atas yang Anda gunakan, Anda ingin memeriksa distribusi variabel Anda terlebih dahulu karena banyak dari mereka akan "mengharuskan" Anda pertama kali mengubahnya menggunakan logaritma. Melakukan hal itu akan mengungkapkan beberapa hubungan yang jauh lebih baik daripada menggunakan variabel asli.
sumber
Anda dapat menggunakan dekomposisi CUR sebagai alternatif untuk PCA. Untuk dekomposisi CUR, Anda dapat merujuk ke [1] atau [2]. Dalam dekomposisi CUR, C adalah singkatan dari kolom yang dipilih, R adalah singkatan dari baris yang dipilih dan U adalah matriks penghubung. Izinkan saya menguraikan intuisi di balik dekomposisi CUR seperti yang diberikan dalam [1];
Yang menyenangkan tentang CUR adalah bahwa kolom dasar adalah kolom aktual (atau baris) dan lebih baik untuk ditafsirkan sebagai lawan dari PCA (yang menggunakan SVD trancated).
Algoritma yang diberikan dalam [1] mudah diimplementasikan dan Anda dapat bermain dengannya dengan mengubah ambang kesalahan dan mendapatkan jumlah basis yang berbeda.
[1] MW Mahoney dan P. Drineas, "dekomposisi matriks CUR untuk analisis data yang lebih baik.," Prosiding National Academy of Sciences Amerika Serikat, vol. 106, Januari 2009, hlm. 697-702.
[2] J. Sun, Y. Xie, H. Zhang, dan C. Faloutsos, "Kurang lebih: Dekomposisi matriks kompak untuk grafik sparse besar," Prosiding Konferensi Internasional SIAM Ketujuh tentang Penambangan Data, Citeseer, 2007, p . 366.
sumber
Bergantung pada tujuan Anda, klasifikasi pendaftar pada kelompok mungkin paling baik dicapai dengan beberapa metode pengelompokan. Untuk sejumlah kecil kasus pengelompokan hierarkis biasanya paling cocok, setidaknya dalam fase eksplorasi, sedangkan untuk solusi yang lebih halus Anda mungkin melihat beberapa proses berulang seperti K-means. Menurut perangkat lunak mana yang Anda gunakan, juga dimungkinkan untuk menggunakan proses, yang ada di SPSS tapi saya tidak tahu di mana lagi, disebut pengelompokan dua langkah, yang cepat, meskipun buram, dan tampaknya memberikan hasil yang baik.
Analisis Cluster menghasilkan solusi klasifikasi yang memaksimalkan varians antara kelompok sambil meminimalkan varians dalam kelompok tersebut. Ini juga kemungkinan akan menghasilkan hasil yang lebih mudah untuk ditafsirkan.
sumber
Saya menyarankan pengelompokan pada variabel dan pengamatan (secara terpisah) untuk menjelaskan dataset. Pengelompokan variabel (katakanlah, menggunakan Spearmean sebagai ukuran kesamaan seperti dalam fungsi paket R ) akan membantu orang melihat variabel mana yang "berjalan bersama."ρ2
Hmisc
varclus
sumber
Pilihan lain adalah menggunakan Peta Susun Sendiri . Adakah yang tahu perangkat lunak apa yang akan digunakan siswa? Saya tahu bahwa R, misalnya, memiliki beberapa implementasi SOM. SOM's mungkin gagal tes "komponen faktor Anda masuk akal intuitif". (Tidak selalu benar dengan PCA, baik ...)
sumber