Berikut ini menjelaskan apa yang saya coba capai, tetapi mungkin pernyataan masalah alternatif dapat menggambarkan tujuan saya:
aku ingin
bagilah angka-angka berikut ke dalam kelompok-kelompok di mana varians angka-angka dalam setiap kelompok tidak terlalu besar, dan perbedaan antara rata-rata kelompok tidak terlalu kecil
bandingkan distribusi yang diperoleh pada akhirnya dengan yang "sempurna" dan lihat bagaimana "berbeda" dari menjadi sempurna.
Penjelasan awam tentang tujuan
Saya mencoba menghitung distribusi pendapatan , dan menentukan "kurung pendapatan" di setiap populasi. Pengelompokan pendapatan seharusnya menyesuaikan diri berdasarkan data input.
Tujuan saya adalah untuk akhirnya mengukur atau menghitung perbedaan antara tanda kurung pendapatan. Saya berasumsi akan ada banyak tanda kurung, dan ingin melihat seberapa jauh "terpisah" setiap tingkat.
Berikut ini adalah contoh dari pendapatan per jam untuk kumpulan sampel dari populasi 20, dan total pendapatan 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Bagaimana saya bisa menggunakan konsep matematika untuk mengelompokkan, mengurutkan, dan menganalisis data yang bertindak seperti distribusi pendapatan pada populasi tertentu?
Pada akhir perhitungan, saya ingin menentukan distribusi pendapatan berjenjang, di mana distribusi yang sempurna akan terlihat (seperti) seperti ini
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
atau ini:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Pertanyaan
Bagaimana saya harus menganalisis kelompok populasi, dan mengukur kesenjangan dengan cara yang akan memberi tahu saya berapa banyak yang dibutuhkan untuk membuatnya lebih seperti dua set model terakhir yang tercantum di atas?
sumber
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.
Jawaban:
Analisis cluster dengan variabel tunggal masuk akal setiap kali ada dimensi di mana nilai-nilai dapat diatur. Ini bisa berupa skala pengukuran , waktu atau ruang .
Mengingat data yang dipesan pada beberapa skala pengukuran , mungkin ada minat dalam mencari jeda relatif dalam distribusi frekuensi (antimode, dalam satu terminologi).
Catatan kehati-hatian: Namun, pemutusan mendefinisikan nampan yang, atau yang mungkin tampak, sewenang-wenang dijauhi secara luas dalam beberapa bidang ilmu statistik, dan ada preferensi yang tersebar luas dan nyata untuk bining dengan interval yang sama, dan sangat sering untuk menghindari binning sama sekali bila memungkinkan . Ini sebagian adalah masalah selera, sebagian dari konvensi: praktik-praktik telah bergeser karena menjadi lebih mudah untuk menyimpan kumpulan data secara keseluruhan.
Serangkaian waktu dapat dibagi menjadi mantra, zaman, periode, apa pun, idealnya dengan perbedaan yang relatif kecil di dalam subseries dan perbedaan yang relatif besar antara subseries. Masalah yang sama muncul untuk ruang setiap kali dimensi spasial tunggal (horizontal atau vertikal) harus dibagi. Dalam ilmu geologi dan ilmu lainnya, ini sering dipelajari di bawah judul zonasi.
Perhatikan bahwa pengelompokan formal apa pun harus selalu disertai dengan penggambaran data yang tepat (misalnya, menggunakan titik atau kuantil atau plot garis), yang memang dapat memperjelas apakah pemutusan itu jelas (sehingga pengelompokan formal hanya bersifat dekoratif) atau bahwa istirahat yang meyakinkan tidak ada (sehingga pengelompokan formal mungkin tidak ada gunanya).
Pertimbangkan contoh mainan nilai-nilai yang diurutkan berdasarkan besarnya:
dimana terbukti bahwa pengelompokan tiga kelompok
Masalahnya dapat dibuat tepat (Fisher 1958; Hartigan 1975) dengan menempatkan spidol untuk meminimalkan, untuk sejumlah kelompok tertentu,
Sejumlah penyimpangan kuadrat dari kelompok berarti akan muncul dalam pikiran sebagai kemungkinan yang paling jelas. Jumlah penyimpangan absolut dari median kelompok, dan langkah-langkah lain, mungkin terhibur.
Hartigan (1975) menunjukkan bagaimana pendekatan pemrograman dinamis membuat perhitungan seperti itu mudah dan disajikan kode Fortran. Implementasi Stata (Cox 2007)
group1d
harus diinstal dari SSC.Cox, NJ 2007. GROUP1D: Modul stata untuk pengelompokan atau pengelompokan dalam satu dimensi. http://ideas.repec.org/c/boc/bocode/s456844.html
Fisher, WD 1958. Tentang pengelompokan untuk homogenitas maksimum. Jurnal, Asosiasi Statistik Amerika 53: 789-98.
Hartigan, JA 1975. Algoritma pengelompokan. New York: John Wiley. Bab.6
Catatan tambahan Pendekatan ini tampaknya cocok dengan bagian pertama dari pertanyaan spesifik. Saya telah mengajukannya secara umum karena saya pikir formulasi tersebut memiliki beberapa kepentingan umum (dan karena mudah bagi saya untuk mendaur ulang bagian dari dokumentasi Cox 2007). Tetapi jika tujuan spesifiknya adalah membandingkan distribusi pendapatan dengan distribusi seragam referensi, saya tidak melihat bahwa binning memiliki peran sama sekali. Itu adalah masalah standar dalam ekonomi di mana kurva Lorenz dan langkah-langkah ketidaksetaraan adalah titik awal. Intinya, Anda bisa membandingkan quantile ke quantile atau persen poin ke persen poin.
sumber
Lihatlah Jenks Natural Break:
https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization
Saya pikir itu yang Anda butuhkan, dan ada implementasi dalam banyak bahasa.
sumber