Saya tertarik menemukan metode seoptimal mungkin untuk menentukan berapa banyak nampan yang harus saya gunakan dalam histogram. Data saya harus berkisar antara 30 hingga 350 objek paling banyak, dan khususnya saya mencoba menerapkan ambang (seperti metode Otsu) di mana objek "baik", yang saya harus memiliki lebih sedikit dan harus lebih tersebar, dipisahkan dari " objek buruk, yang seharusnya lebih padat nilainya. Nilai konkret akan memiliki skor 1-10 untuk setiap objek. Saya memiliki 5-10 objek dengan skor 6-10, dan 20-25 objek dengan skor 1-4. Saya ingin menemukan pola binning histogram yang umumnya memungkinkan sesuatu seperti metode Otsu untuk membatasi objek dengan skor rendah. Namun, dalam implementasi Otsu yang saya lihat, ukuran bin adalah 256, dan seringkali saya memiliki lebih sedikit poin data 256, yang bagi saya menunjukkan bahwa 256 bukan nomor bin yang baik. Dengan sedikit data, pendekatan apa yang harus saya ambil untuk menghitung jumlah sampah yang akan digunakan?
sumber
Jawaban:
Aturan Freedman-Diaconis sangat kuat dan bekerja dengan baik dalam praktiknya. Lebar bin diatur ke . Jadi jumlah bin adalah , di mana adalah jumlah pengamatan, maks adalah nilai maksimum dan min adalah nilai minimum.h=2×IQR×n−1/3 (max−min)/h n
Di basis R, Anda dapat menggunakan:
Untuk pustaka plot lain tanpa opsi ini (mis.,
ggplot2
), Anda dapat menghitung binwidth sebagai:sumber
IQR
?num_bins <- diff(range(x)) / (2 * IQR(x) / length(x)^(1/3))
nclass.FD
tidak ada sembilan tahun yang lalu.Jika Anda menggunakan terlalu sedikit tempat sampah, histogram tidak benar-benar menggambarkan data dengan sangat baik. Jika Anda memiliki terlalu banyak tempat sampah, Anda mendapatkan tampilan sisir yang rusak, yang juga tidak memberikan kesan distribusi.
Salah satu solusinya adalah membuat grafik yang menunjukkan setiap nilai. Entah plot titik, atau distribusi frekuensi kumulatif, yang tidak memerlukan tempat sampah.
Jika Anda ingin membuat distribusi frekuensi dengan nampan dengan spasi yang sama, Anda harus memutuskan berapa banyak nampan (atau lebar masing-masing). Keputusan jelas tergantung pada jumlah nilai. Jika Anda memiliki banyak nilai, grafik Anda akan terlihat lebih baik dan lebih informatif jika Anda memiliki banyak tempat sampah. Halaman wikipedia ini mencantumkan beberapa metode untuk menentukan lebar bin dari jumlah pengamatan. Metode paling sederhana adalah mengatur jumlah bin sama dengan akar kuadrat dari jumlah nilai yang Anda binning.
Halaman ini dari Hideaki Shimazaki menjelaskan metode alternatif. Ini sedikit lebih rumit untuk dihitung, tetapi tampaknya melakukan pekerjaan dengan baik. Bagian atas halaman adalah aplikasi Java. Gulir melewati itu untuk melihat teori dan penjelasan, lalu terus menggulir untuk menemukan tautan ke makalah yang menjelaskan metode tersebut.
sumber
Mungkin makalah " Variasi pada histogram " oleh Denby dan Mallows akan menarik:
Mereka juga menyebutkan bahwa kode dalam R tersedia berdasarkan permintaan.
sumber
Saya tidak yakin ini dianggap sebagai praktik yang sangat baik, tetapi saya cenderung menghasilkan lebih dari satu histogram dengan lebar nampan yang berbeda dan memilih histogram mana histgram yang akan digunakan berdasarkan histgram mana yang cocok dengan interpretasi yang saya coba komunikasikan dengan baik. Sementara ini memperkenalkan beberapa objektivitas ke dalam pilihan histogram, saya membenarkannya karena saya memiliki lebih banyak waktu untuk memahami data daripada orang yang saya beri histogram sehingga saya perlu memberi mereka pesan yang sangat ringkas.
Saya juga penggemar berat menyajikan histogram dengan jumlah poin yang sama di setiap bin daripada lebar bin yang sama. Saya biasanya menemukan ini mewakili data yang jauh lebih baik daripada lebar bin konstan meskipun mereka sulit untuk diproduksi.
sumber
Apakah Anda melihat metode Shimazaki-Shinomoto ?
Meskipun nampaknya mahal secara komputasi, ini mungkin memberi Anda hasil yang baik. Layak untuk dicoba jika waktu komputasi bukan masalah Anda. Ada beberapa implementasi metode ini di java, MATLAB, dll, di tautan berikut, yang berjalan cukup cepat: antarmuka web
sumber
Jika saya perlu menentukan jumlah tempat sampah secara terprogram saya biasanya memulai dengan histogram yang memiliki lebih banyak tempat sampah daripada yang dibutuhkan. Setelah histogram diisi, saya kemudian menggabungkan nampan sampai saya memiliki cukup entri per bin untuk metode yang saya gunakan, misalnya jika saya ingin memodelkan Poisson-ketidakpastian dalam percobaan penghitungan dengan ketidakpastian dari distribusi normal sampai saya memiliki lebih dari sekitar 10 entri.
sumber
Silakan lihat jawaban ini sebagai pelengkap dari jawaban Mr. Rob Hyndman .
Untuk membuat plot histogram dengan interval yang sama persis atau 'binwidth' menggunakan aturan Freedman-Diaconis baik dengan
ggplot2
paket R dasar atau , kita dapat menggunakan salah satu nilaihist()
fungsi yaitubreaks
. Misalkan kita ingin membuat histogramqsec
darimtcars
data menggunakan aturan Freedman-Diaconis. Dalam R dasar kita gunakanSementara itu, dalam
ggplot2
paket kami gunakanAtau, sebagai alternatif
Semuanya menghasilkan plot histogram dengan interval dan jumlah tempat sampah yang sama persis seperti yang dimaksudkan.
sumber
Saya memiliki 600 pengamatan untuk Au g / t. Ukuran bin 1 memberi saya ini:
Pilihan otomatis (tanpa rentang bin) memberikan ini:
Data terlihat O'K pada grafik pertama dan kedua, seolah-olah tidak ada masalah dengan integritas data. Hanya ukuran bin 0,1 (g / t) yang menjawab pertanyaan: pengukuran keduanya tidak akurat dan tidak tepat
Penilaian saya: 1. Tidak ada teknik pengukuran di Bumi untuk menunjukkan nilai sebenarnya dari fenomena alam. Semua pengukuran adalah perkiraan, beberapa mendekati nilai sebenarnya. Itu tergantung pada desain pengambilan sampel, kalibrasi, kualifikasi manusia, dll. 2. Inilah sebabnya mengapa distribusi lebih condong daripada simetris. 3. Namun demikian, bentuk distribusi harus menyerupai bagian "seperti lonceng, setidaknya sekitar. Satu bel pada satu waktu (kecuali ada beberapa lingkungan geologis). 4. Distribusi frekuensi dengan manipulasi ukuran bin dapat membantu mengungkap pola seberapa akurat dan akurat pengukuran yang telah dilakukan. Sehingga orang perlu mengambil percobaan ukuran bin daripada aturan memotong batu.
sumber