Bagaimana saya bisa mengelompokkan data numerik menjadi “kurung” alami? (mis. penghasilan)

14

Berikut ini menjelaskan apa yang saya coba capai, tetapi mungkin pernyataan masalah alternatif dapat menggambarkan tujuan saya:

aku ingin

  1. bagilah angka-angka berikut ke dalam kelompok-kelompok di mana varians angka-angka dalam setiap kelompok tidak terlalu besar, dan perbedaan antara rata-rata kelompok tidak terlalu kecil

  2. bandingkan distribusi yang diperoleh pada akhirnya dengan yang "sempurna" dan lihat bagaimana "berbeda" dari menjadi sempurna.


Penjelasan awam tentang tujuan

Saya mencoba menghitung distribusi pendapatan , dan menentukan "kurung pendapatan" di setiap populasi. Pengelompokan pendapatan seharusnya menyesuaikan diri berdasarkan data input.

Tujuan saya adalah untuk akhirnya mengukur atau menghitung perbedaan antara tanda kurung pendapatan. Saya berasumsi akan ada banyak tanda kurung, dan ingin melihat seberapa jauh "terpisah" setiap tingkat.

Berikut ini adalah contoh dari pendapatan per jam untuk kumpulan sampel dari populasi 20, dan total pendapatan 3587:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900 

Bagaimana saya bisa menggunakan konsep matematika untuk mengelompokkan, mengurutkan, dan menganalisis data yang bertindak seperti distribusi pendapatan pada populasi tertentu?

Pada akhir perhitungan, saya ingin menentukan distribusi pendapatan berjenjang, di mana distribusi yang sempurna akan terlihat (seperti) seperti ini

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

atau ini:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269 

Pertanyaan

Bagaimana saya harus menganalisis kelompok populasi, dan mengukur kesenjangan dengan cara yang akan memberi tahu saya berapa banyak yang dibutuhkan untuk membuatnya lebih seperti dua set model terakhir yang tercantum di atas?

goodguys_activate
sumber
Terima kasih @viden atas saran untuk memposting di sini, bukan Programmers.SE
goodguys_activate
Catatan: Saya menerima umpan balik ini ketika mengajukan pertanyaan ini: It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.
goodguys_activate
Sepertinya saya telah menemukan sesuatu yang sangat mirip dengan yang saya butuhkan ... disebut data binning: msdn.microsoft.com/en-us/magazine/dn342876.aspx
goodguys_activate
Ya, silakan migrasikan pertanyaan (dan sertakan penjelasan Anda yang lebih baik dari komentar jika memungkinkan).
goodguys_activate
Cari celah dalam distribusi pendapatan, jika Anda beruntung, Anda dapat menemukan (agak buatan) puncak yang kemudian dapat Anda gunakan sebagai tanda kurung. Ini mungkin bekerja relatif baik untuk pendapatan yang lebih rendah.
Marc Claesen

Jawaban:

18

Analisis cluster dengan variabel tunggal masuk akal setiap kali ada dimensi di mana nilai-nilai dapat diatur. Ini bisa berupa skala pengukuran , waktu atau ruang .

Mengingat data yang dipesan pada beberapa skala pengukuran , mungkin ada minat dalam mencari jeda relatif dalam distribusi frekuensi (antimode, dalam satu terminologi).

Catatan kehati-hatian: Namun, pemutusan mendefinisikan nampan yang, atau yang mungkin tampak, sewenang-wenang dijauhi secara luas dalam beberapa bidang ilmu statistik, dan ada preferensi yang tersebar luas dan nyata untuk bining dengan interval yang sama, dan sangat sering untuk menghindari binning sama sekali bila memungkinkan . Ini sebagian adalah masalah selera, sebagian dari konvensi: praktik-praktik telah bergeser karena menjadi lebih mudah untuk menyimpan kumpulan data secara keseluruhan.

Serangkaian waktu dapat dibagi menjadi mantra, zaman, periode, apa pun, idealnya dengan perbedaan yang relatif kecil di dalam subseries dan perbedaan yang relatif besar antara subseries. Masalah yang sama muncul untuk ruang setiap kali dimensi spasial tunggal (horizontal atau vertikal) harus dibagi. Dalam ilmu geologi dan ilmu lainnya, ini sering dipelajari di bawah judul zonasi.

Perhatikan bahwa pengelompokan formal apa pun harus selalu disertai dengan penggambaran data yang tepat (misalnya, menggunakan titik atau kuantil atau plot garis), yang memang dapat memperjelas apakah pemutusan itu jelas (sehingga pengelompokan formal hanya bersifat dekoratif) atau bahwa istirahat yang meyakinkan tidak ada (sehingga pengelompokan formal mungkin tidak ada gunanya).

Pertimbangkan contoh mainan nilai-nilai yang diurutkan berdasarkan besarnya:

    14 15 16 23 24 25 56 57 58 

dimana terbukti bahwa pengelompokan tiga kelompok

    14 15 16 | 23 24 25 | 56 57 58 

knk1k1=2n1(n1k1)k2n1n

Masalahnya dapat dibuat tepat (Fisher 1958; Hartigan 1975) dengan menempatkan spidol untuk meminimalkan, untuk sejumlah kelompok tertentu,

sum over groups of variability around group centres.

Sejumlah penyimpangan kuadrat dari kelompok berarti akan muncul dalam pikiran sebagai kemungkinan yang paling jelas. Jumlah penyimpangan absolut dari median kelompok, dan langkah-langkah lain, mungkin terhibur.

Hartigan (1975) menunjukkan bagaimana pendekatan pemrograman dinamis membuat perhitungan seperti itu mudah dan disajikan kode Fortran. Implementasi Stata (Cox 2007) group1dharus diinstal dari SSC.

Cox, NJ 2007. GROUP1D: Modul stata untuk pengelompokan atau pengelompokan dalam satu dimensi. http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher, WD 1958. Tentang pengelompokan untuk homogenitas maksimum. Jurnal, Asosiasi Statistik Amerika 53: 789-98.

Hartigan, JA 1975. Algoritma pengelompokan. New York: John Wiley. Bab.6

Catatan tambahan Pendekatan ini tampaknya cocok dengan bagian pertama dari pertanyaan spesifik. Saya telah mengajukannya secara umum karena saya pikir formulasi tersebut memiliki beberapa kepentingan umum (dan karena mudah bagi saya untuk mendaur ulang bagian dari dokumentasi Cox 2007). Tetapi jika tujuan spesifiknya adalah membandingkan distribusi pendapatan dengan distribusi seragam referensi, saya tidak melihat bahwa binning memiliki peran sama sekali. Itu adalah masalah standar dalam ekonomi di mana kurva Lorenz dan langkah-langkah ketidaksetaraan adalah titik awal. Intinya, Anda bisa membandingkan quantile ke quantile atau persen poin ke persen poin.

Nick Cox
sumber
1

Lihatlah Jenks Natural Break:

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

Saya pikir itu yang Anda butuhkan, dan ada implementasi dalam banyak bahasa.

ftfarias
sumber
5
Meskipun mungkin tidak segera terbukti, ini justru saran Nick Cox bahwa "sejumlah penyimpangan kuadrat dari kelompok berarti akan muncul dalam pikiran sebagai kemungkinan yang paling jelas." Dia menjadi lebih umum daripada itu sebagian (saya curiga) karena untuk pendapatan ini akan menjadi solusi yang buruk: orang biasanya lebih baik melakukan perhitungan dalam hal pendapatan log.
whuber