Ada banyak aturan untuk memilih lebar nampan optimal dalam histogram 1D (lihat misalnya )
Saya mencari aturan yang menerapkan pemilihan lebar bin sama optimal pada histogram dua dimensi .
Apakah ada aturan seperti itu? Mungkin salah satu aturan terkenal untuk histogram 1D dapat dengan mudah diadaptasi, jika demikian, dapatkah Anda memberikan sedikit detail tentang cara melakukannya?
optimization
histogram
Gabriel
sumber
sumber
Jawaban:
Saran saya umumnya adalah bahwa itu bahkan lebih penting daripada dalam 1-D untuk memuluskan jika memungkinkan yaitu melakukan sesuatu seperti estimasi kepadatan kernel (atau beberapa metode lain, seperti estimasi log-spline), yang cenderung jauh lebih efisien daripada menggunakan histogram. Seperti yang ditunjukkan oleh whuber, sangat mungkin untuk dibodohi oleh penampilan histogram, terutama dengan beberapa nampan dan ukuran sampel kecil hingga sedang.
Jika Anda mencoba untuk mengoptimalkan mean squared error kuadrat (MISE), katakanlah, ada aturan yang berlaku di dimensi yang lebih tinggi (jumlah tempat sampah tergantung pada jumlah pengamatan, varians, dimensi, dan "bentuk"), untuk estimasi kepadatan kernel dan histogram.
[Memang banyak masalah untuk satu juga masalah untuk yang lain, sehingga beberapa informasi dalam hal ini artikel wikipedia akan relevan.]
Ketergantungan pada bentuk ini tampaknya menyiratkan bahwa untuk memilih secara optimal, Anda sudah perlu tahu apa yang Anda rencanakan. Namun, jika Anda siap untuk membuat beberapa asumsi yang masuk akal, Anda dapat menggunakannya (jadi misalnya, beberapa orang mungkin mengatakan "kira-kira Gaussian"), atau sebagai alternatif, Anda dapat menggunakan beberapa bentuk penduga "plug-in" yang sesuai. fungsional.
Wand, 1997 mencakup kasus 1-D. Jika Anda bisa mendapatkan artikel itu, lihat apa yang ada juga relevan dengan situasi di dimensi yang lebih tinggi (sejauh jenis analisis yang dilakukan). (Itu ada dalam bentuk kertas kerja di internet jika Anda tidak memiliki akses ke jurnal.)[ 1 ]
Analisis dalam dimensi yang lebih tinggi agak lebih rumit (dalam cara yang hampir sama ia melanjutkan dari 1-D ke r-dimensi untuk estimasi kepadatan kernel), tetapi ada istilah dalam dimensi yang datang ke dalam kekuatan n.
Sec 3.4 Eqn 3.61 (p83) dari Scott, 1992 memberikan binwidth optimal asimptotik:[ 2 ]
di mana adalah istilah kekasaran (bukan satu-satunya yang mungkin), dan saya percaya adalah turunan dari sehubungan dengan istilah dalam .R(f)=∫Rdf(x)2dx fi f ith x
Jadi untuk 2D yang menyarankan binwidth yang menyusut sebagai .n−1/4
Dalam kasus variabel normal independen, aturan perkiraannya adalah , di mana adalah binwidth dalam dimensi , tanda menunjukkan nilai optimal asimptotik, dan adalah simpangan baku populasi dalam dimensi .h∗k≈3.5σkn−1/(2+d) hk k ∗ σk k
Untuk bivariat normal dengan korelasi , binwidth adalahρ
Ketika distribusinya miring, atau berekor berat, atau multimodal, umumnya hasil binwidth yang jauh lebih kecil; akibatnya hasil yang normal akan sering berada di batas atas pada bindwith.
Tentu saja, sangat mungkin Anda tidak tertarik pada rata-rata kesalahan kuadrat terintegrasi, tetapi dalam beberapa kriteria lainnya.
[1]: Wand, MP (1997),
"Pilihan data berdasarkan lebar histogram bin",
American Statistician 51 , 59-64
[2]: Scott, DW (1992),
Estimasi Kepadatan Multivariat: Teori, Praktik, dan Visualisasi ,
John Wiley & Sons, Inc., Hoboken, NJ, USA.
sumber
Mengingat Anda memiliki nomor terprogramN data (mis. Anda memiliki jumlah bacaan yang sama pada kedua dimensi) Anda dapat langsung menggunakan:
Untuk menemukan jumlah sampah yang umumM di setiap dimensi.
Di sisi lain, Anda mungkin ingin mencoba sesuatu yang lebih kuat seperti aturan Freedman-Diaconis yang pada dasarnya menentukan bandwidthh sama dengan:
di mana IQR adalah rentang interkuartil data Andax . Anda kemudian menghitung jumlah sampahM sepanjang setiap dimensi sama dengan:
Anda melakukan ini di kedua dimensi data Andax ; ini memberi Anda dua, jumlah bin yang mungkin berbeda, yang "harus" digunakan di setiap dimensi. Anda secara naif mengambil yang lebih besar sehingga Anda tidak "kehilangan" informasi.
Namun, pilihan keempat adalah mencoba memperlakukan sampel Anda sebagai dua dimensi, menghitung norma untuk masing-masing titik sampel dan kemudian melakukan aturan Freedman-Diaconis pada norma sampel. yaitu.:
OK, berikut ini beberapa kode dan plot untuk prosedur yang saya jelaskan:
Seperti orang lain telah mencatat smoothing hampir pasti lebih cocok untuk kasus ini (mis. Mendapatkan KDE). Saya harap berpikir ini memberi Anda ide tentang apa yang saya jelaskan dalam komentar saya mengenai generalisasi langsung (dengan semua masalah yang mungkin terjadi) dari aturan sampel 1-D ke aturan sampel 2-D. Khususnya, sebagian besar prosedur mengasumsikan beberapa tingkat "normalitas" dalam sampel. Jika Anda memiliki sampel yang jelas tidak terdistribusi normal (mis. Itu leptokurtotik) prosedur ini (bahkan dalam 1-D) akan gagal cukup parah.
sumber