Pertanyaan ini menjelaskan perbedaan mendasar antara histogram yang seragam dan yang tidak seragam. Dan pertanyaan ini membahas aturan praktis untuk memilih jumlah tempat sampah dari histogram seragam yang mengoptimalkan (dalam arti tertentu) sejauh mana histogram mewakili distribusi dari mana sampel data diambil.
Sepertinya saya tidak dapat menemukan diskusi "optimalitas" yang sama tentang histogram seragam dan tidak seragam. Saya memiliki distribusi nonparametrik yang terkelompok dengan outlier yang jauh sehingga histogram yang tidak seragam secara intuitif lebih masuk akal. Tetapi saya ingin melihat analisis yang lebih tepat dari dua pertanyaan berikut:
- Kapan histogram uniform-bin lebih baik daripada bin non-uniform?
- Berapa jumlah tempat sampah yang baik untuk histogram yang tidak seragam?
Untuk histogram yang tidak seragam, saya dianggap sebagai kasus paling sederhana di mana kami mengambil sampel dari distribusi yang tidak diketahui, memesan nilai dihasilkan , dan memisahkannya ke dalam bin sehingga setiap bin memiliki dari semua ini sampel (dengan asumsi bahwa untuk beberapa bilangan bulat besar ). Rentang ini dibentuk dengan mengambil titik tengah antara dari nilai-nilai di bin i dan \ min dari nilai-nilai di bin i + 1 . Di sini dan di sini ada tautan yang menggambarkan jenis histogram yang tidak seragam ini.n k kmin i + 1
sumber
Jawaban:
Ini membutuhkan semacam identifikasi dari apa yang kami upayakan untuk optimalkan; banyak orang mencoba untuk mengoptimalkan rata-rata kesalahan kuadrat rata-rata terintegrasi, tetapi dalam banyak kasus saya pikir itu agak melenceng dari melakukan histogram; sering (di mataku) 'oversmooths'; untuk alat eksplorasi seperti histogram, saya bisa mentolerir lebih banyak kekasaran, karena kekasaran itu sendiri memberi saya rasa sejauh mana saya harus "menghaluskan" dengan mata; Saya cenderung setidaknya menggandakan jumlah sampah yang biasa dari aturan seperti itu, terkadang jauh lebih banyak. Saya cenderung setuju dengan Andrew Gelman tentang ini; memang jika minat saya benar-benar mendapatkan AIMSE yang baik, saya mungkin tidak seharusnya mempertimbangkan histogram.
Jadi kita perlu kriteria.
Mari saya mulai dengan membahas beberapa opsi histogram area yang tidak sama:
Ada beberapa pendekatan yang melakukan lebih banyak penghalusan (lebih sedikit, tempat sampah yang lebih luas) di daerah dengan kepadatan lebih rendah dan memiliki tempat sampah yang lebih sempit di mana kerapatan lebih tinggi - seperti histogram "sama luas" atau "jumlah sama". Pertanyaan Anda yang diedit tampaknya mempertimbangkan kemungkinan jumlah yang sama.
The
histogram
fungsi dalam Rlattice
paket dapat menghasilkan kira-kira sama-area bar:Celupkan ke kanan bin paling kiri bahkan lebih jelas jika Anda mengambil akar keempat; dengan tempat sampah dengan lebar yang sama Anda tidak dapat melihatnya kecuali jika Anda menggunakan 15 hingga 20 kali lebih banyak tempat sampah, dan kemudian ekor kanan terlihat mengerikan.
Ada histogram dengan jumlah yang sama di sini , dengan kode-R, yang menggunakan sampel-kuantil untuk menemukan jeda.
Misalnya, pada data yang sama seperti di atas, inilah 6 nampan dengan (semoga) masing-masing 8 pengamatan:
Pertanyaan CV ini menunjuk pada sebuah makalah oleh Denby dan Mallows versi yang dapat diunduh dari sini yang menggambarkan kompromi antara tempat sampah dengan lebar yang sama dan tempat yang sama luasnya.
Ini juga membahas pertanyaan-pertanyaan yang Anda miliki sampai batas tertentu.
Anda mungkin dapat mempertimbangkan masalah tersebut sebagai salah satu dari mengidentifikasi jeda dalam proses Poisson yang konstan-satu. Itu akan menyebabkan pekerjaan seperti ini . Ada juga kemungkinan terkait melihat algoritma tipe clustering / klasifikasi pada (katakanlah) jumlah Poisson, beberapa algoritma yang akan menghasilkan sejumlah sampah. Clustering telah digunakan pada histogram 2D ( gambar , efeknya) untuk mengidentifikasi daerah yang relatif homogen.
-
Jika kami memiliki histogram jumlah yang sama, dan beberapa kriteria untuk dioptimalkan, kami kemudian dapat mencoba rentang jumlah per bin dan mengevaluasi kriteria dengan beberapa cara. Makalah Wand yang disebutkan di sini [ kertas , atau kertas kerja pdf ] dan beberapa rujukannya (misalnya untuk kertas Sheather dkk misalnya) menguraikan perkiraan "colokkan" lebar bin berdasarkan ide perataan kernel untuk mengoptimalkan AIMSE; secara garis besar pendekatan semacam itu harus dapat beradaptasi dengan situasi ini, meskipun saya tidak ingat melihatnya dilakukan.
sumber