Misalkan Anda memiliki kumpulan data dari distribusi kontinu dengan kepadatan didukung pada yang tidak dikenal, tetapi cukup besar sehingga kepadatan kernel (misalnya) estimasi, , cukup akurat. Untuk aplikasi tertentu saya perlu mengubah data yang diamati ke sejumlah kategori terbatas untuk menghasilkan set data baru dengan fungsi massa tersirat .
Contoh sederhana adalah ketika dan ketika . Dalam hal ini fungsi massa yang diinduksi adalah
Dua "parameter penyetelan" di sini adalah jumlah grup, , dan vektor panjang dari ambang batas . Nyatakan fungsi massa terinduksi oleh .
Saya ingin prosedur yang menjawab, misalnya, "Apa pilihan terbaik dari sehingga meningkatkan jumlah grup menjadi (dan memilih optimal di sana) akan menghasilkan peningkatan yang dapat diabaikan?" . Saya merasa seperti mungkin statistik uji dapat dibuat (mungkin dengan perbedaan divergensi KL atau yang serupa) yang distribusinya dapat diturunkan. Adakah ide atau literatur yang relevan?
Sunting: Saya telah meratakan secara temporal pengukuran variabel kontinu dan saya menggunakan rantai Markov tidak homogen untuk memodelkan ketergantungan temporal. Terus terang, rantai markov negara diskrit jauh lebih mudah untuk ditangani dan itu adalah motivasi saya. Data yang diamati adalah persentase. Saat ini saya menggunakan diskritisasi ad hoc yang terlihat sangat bagus bagi saya tetapi saya pikir ini adalah masalah yang menarik di mana solusi formal (dan umum) dimungkinkan.
Sunting 2: Sebenarnya meminimalkan divergensi KL akan sama dengan tidak mendiskreditkan data sama sekali, sehingga gagasan itu benar-benar keluar. Saya telah mengedit tubuhnya sesuai dengan itu.
Jawaban:
Saya akan membagikan solusi yang saya temukan untuk masalah ini beberapa waktu lalu - ini bukan tes statistik formal tetapi mungkin memberikan heuristik yang berguna.
Pertimbangkan kasus umum di mana Anda memiliki pengamatan terus menerus ; tanpa kehilangan sifat umum misalkan ruang sampel dari setiap pengamatan adalah interval . Skema kategorisasi akan tergantung pada sejumlah kategori, , dan ambang batas lokasi yang membagi kategori, . [ 0 , 1 ] m 0 < λ 1 < λ 2 < ⋯ < λ m - 1 < 1Y1,Y2,...,Yn [0,1] m 0<λ1<λ2<⋯<λm−1<1
versi yang dikategorikan dari oleh , di mana . Memikirkan diskritisasi data sebagai partisi dari data asli ke dalam kelas, varian dapat dianggap sebagai kombinasi variasi di dalam dan di antara grup, untuk nilai tetap :Yi Zi(m,λ) λ={λ1,λ2,⋯,λm−1} Yi m,λ
Kategorisasi yang diberikan berhasil menghasilkan kelompok-kelompok homogen jika ada relatif sedikit di dalam varians kelompok, dikuantifikasi oleh . , kami mencari pengelompokan pelit yang menganugerahkan sebagian besar variasi dalam ke . khususnya, kami ingin memilih sehingga dengan menambahkan level tambahan, kami tidak menambahkan secara signifikan ke dalam homogenitas grup. Dengan pemikiran ini, kami mendefinisikan optimal untuk nilai tetap dari menjadiE(var(Yi|Zi(m,λ)) Yi var(E(Yi|Zi(m,λ)) m λ m
Diagnosis kasar untuk menentukan pilihan mana yang memadai adalah dengan melihat dropoff di sebagai fungsi - lintasan ini monoton tidak meningkat dan setelah menurun tajam, maka Anda dapat melihat bahwa Anda mendapatkan presisi yang relatif kurang dengan memasukkan lebih banyak kategori. Heuristik ini mirip dalam semangat, bagaimana " Scree Plot " kadang-kadang digunakan untuk melihat berapa banyak komponen utama yang menjelaskan "cukup" variasi.m E(var(Yi|Zi(m,λ⋆m))) m
sumber