Teknik reduksi data untuk mengidentifikasi jenis negara

11

Saya mengajar kursus geografi ekonomi pengantar. Untuk membantu siswa saya mengembangkan pemahaman yang lebih baik tentang jenis negara yang ditemukan dalam ekonomi dunia kontemporer dan apresiasi teknik pengurangan data, saya ingin membangun sebuah tugas yang menciptakan tipologi berbagai jenis negara (misalnya, berpenghasilan tinggi nilai tambah, harapan umur panjang mfg, pengekspor sumber daya alam berpenghasilan tinggi, harapan hidup menengah ke atas, dengan Jerman menjadi elemen dari tipe pertama, dan Yaman contoh dari tipe kedua). Ini akan menggunakan data UNDP yang tersedia untuk umum (yang jika saya ingat dengan benar berisi data sosial ekonomi pada sedikit di bawah 200 negara; maaf tidak ada data regional yang tersedia).

Sebelum penugasan ini akan ada tugas lain yang meminta mereka (menggunakan data yang sama --- sebagian besar interval atau rasio ---) untuk memeriksa korelasi antara variabel yang sama ini.

Harapan saya adalah mereka pertama-tama akan mengembangkan intuisi untuk jenis hubungan antara variabel yang berbeda (misalnya, hubungan positif antara harapan hidup dan [berbagai indikator] kekayaan; hubungan positif antara kekayaan dan keragaman ekspor). Kemudian, ketika menggunakan teknik reduksi data, komponen atau faktor akan masuk akal secara intuitif (misalnya, faktor / komponen 1 menangkap pentingnya kekayaan; faktor / komponen 2 menangkap pentingnya pendidikan).

Mengingat bahwa ini adalah siswa tahun kedua hingga keempat, sering dengan paparan terbatas pada pemikiran analitis secara umum, teknik reduksi data apa yang akan Anda sarankan sebagai yang paling sesuai untuk tugas kedua? Ini adalah data populasi, jadi statistik inferensial (p-vlaues, dll.) Tidak terlalu diperlukan.

rabidotter
sumber

Jawaban:

10

Sebagai metode eksplorasi, PCA adalah pilihan pertama yang baik untuk tugas seperti IMO ini. Itu juga baik bagi mereka untuk terpapar padanya; sepertinya banyak dari mereka tidak akan melihat komponen utama sebelumnya.

Dalam hal data, saya juga akan mengarahkan Anda ke Indikator Bank Dunia, yang sangat lengkap: http://data.worldbank.org/indicator .

JMS
sumber
5

Saya setuju dengan JMS, dan PCA sepertinya ide yang bagus setelah memeriksa korelasi awal dan sebar antara variabel untuk masing-masing daerah. Utas ini memiliki beberapa saran berguna untuk memperkenalkan PCA dalam istilah non-matematika.

Saya juga menyarankan menggunakan beberapa peta kecil untuk memvisualisasikan distribusi spasial dari masing-masing variabel (dan ada beberapa contoh yang baik dalam pertanyaan ini di situs gis.se). Saya pikir ini bekerja sangat baik jika Anda memiliki jumlah unit areal yang terbatas untuk dibandingkan dan Anda menggunakan skema warna yang baik (seperti contoh ini di blog Andrew Gelman).

Sayangnya sifat dari set data "negara dunia" yang saya curigai sering kali menghasilkan data yang jarang (yaitu banyak negara yang hilang), membuat visualisasi geografis menjadi sulit. Tetapi teknik visualisasi seperti itu harus berguna dalam situasi lain juga untuk kursus Anda.

Andy W
sumber
+1, referensi yang bagus. Membandingkan peta variabel dengan peta skor PCA bisa menarik juga.
JMS
Tautan ke pengantar PCA dalam istilah non-matematika berguna, karena membantu saya merasakan perbedaan halus antara PCA dan analisis faktor. Saran GIS / pemetaan juga cukup berguna, karena saya belum memikirkan memvisualisasikan distribusi spasial variabel. Untuk populasi siswa ini, ini akan membantu mereka memahami struktur yang mendasari ekonomi dunia dengan cara yang tidak akan dilakukan oleh semua bla bla bla saya.
rabidotter
1
Plot yang bagus sering mengalahkan bla bla bla :)
JMS
4

Catatan cepat yang ditambahkan: Manapun dari teknik di atas yang Anda gunakan, Anda ingin memeriksa distribusi variabel Anda terlebih dahulu karena banyak dari mereka akan "mengharuskan" Anda pertama kali mengubahnya menggunakan logaritma. Melakukan hal itu akan mengungkapkan beberapa hubungan yang jauh lebih baik daripada menggunakan variabel asli.

rolando2
sumber
3
+1 Biasanya balasan seperti ini hanya boleh diposting sebagai komentar, tetapi saran ini sangat penting di sini manfaat dari setiap penekanan yang mungkin. Hasil PCA khususnya kemungkinan akan menjadi tidak informatif sampai variabel diekspresikan dengan tepat.
Whuber
2

Anda dapat menggunakan dekomposisi CUR sebagai alternatif untuk PCA. Untuk dekomposisi CUR, Anda dapat merujuk ke [1] atau [2]. Dalam dekomposisi CUR, C adalah singkatan dari kolom yang dipilih, R adalah singkatan dari baris yang dipilih dan U adalah matriks penghubung. Izinkan saya menguraikan intuisi di balik dekomposisi CUR seperti yang diberikan dalam [1];

Meskipun SVD terpotong banyak digunakan, vektor dan sendiri mungkin tidak memiliki arti dalam hal bidang dari mana data diambil. Misalnya, vektor eigenv iuivi

[(1/2)age − (1/ √2)height + (1/2)income]

menjadi salah satu "faktor" atau "fitur" tidak berkorelasi signifikan dari dataset fitur orang, tidak terlalu informatif atau bermakna.

Yang menyenangkan tentang CUR adalah bahwa kolom dasar adalah kolom aktual (atau baris) dan lebih baik untuk ditafsirkan sebagai lawan dari PCA (yang menggunakan SVD trancated).

Algoritma yang diberikan dalam [1] mudah diimplementasikan dan Anda dapat bermain dengannya dengan mengubah ambang kesalahan dan mendapatkan jumlah basis yang berbeda.

[1] MW Mahoney dan P. Drineas, "dekomposisi matriks CUR untuk analisis data yang lebih baik.," Prosiding National Academy of Sciences Amerika Serikat, vol. 106, Januari 2009, hlm. 697-702.

[2] J. Sun, Y. Xie, H. Zhang, dan C. Faloutsos, "Kurang lebih: Dekomposisi matriks kompak untuk grafik sparse besar," Prosiding Konferensi Internasional SIAM Ketujuh tentang Penambangan Data, Citeseer, 2007, p . 366.

petrichor
sumber
2

Bergantung pada tujuan Anda, klasifikasi pendaftar pada kelompok mungkin paling baik dicapai dengan beberapa metode pengelompokan. Untuk sejumlah kecil kasus pengelompokan hierarkis biasanya paling cocok, setidaknya dalam fase eksplorasi, sedangkan untuk solusi yang lebih halus Anda mungkin melihat beberapa proses berulang seperti K-means. Menurut perangkat lunak mana yang Anda gunakan, juga dimungkinkan untuk menggunakan proses, yang ada di SPSS tapi saya tidak tahu di mana lagi, disebut pengelompokan dua langkah, yang cepat, meskipun buram, dan tampaknya memberikan hasil yang baik.

Analisis Cluster menghasilkan solusi klasifikasi yang memaksimalkan varians antara kelompok sambil meminimalkan varians dalam kelompok tersebut. Ini juga kemungkinan akan menghasilkan hasil yang lebih mudah untuk ditafsirkan.

Tomas Boncompte
sumber
2

Saya menyarankan pengelompokan pada variabel dan pengamatan (secara terpisah) untuk menjelaskan dataset. Pengelompokan variabel (katakanlah, menggunakan Spearmean sebagai ukuran kesamaan seperti dalam fungsi paket R ) akan membantu orang melihat variabel mana yang "berjalan bersama."ρ2Hmiscvarclus

Frank Harrell
sumber
1

Pilihan lain adalah menggunakan Peta Susun Sendiri . Adakah yang tahu perangkat lunak apa yang akan digunakan siswa? Saya tahu bahwa R, misalnya, memiliki beberapa implementasi SOM. SOM's mungkin gagal tes "komponen faktor Anda masuk akal intuitif". (Tidak selalu benar dengan PCA, baik ...)

Wayne
sumber
Maaf atas keterlambatan dalam merespons. Siswa akan menggunakan Minitab 16, yang memiliki beberapa teknik reduksi data yang lebih tradisional yang disebutkan di atas. Saya akan melihat peta pengorganisasian diri, tapi saya ragu apakah itu akan sesuai untuk jenis siswa yang saya dapatkan di program sarjana tahun kedua.
rabidotter