Apa metode terbaik untuk menyesuaikan 'mode' data sampel dari distribusi kontinu?
Karena mode ini secara teknis tidak terdefinisi (kanan?) Untuk distribusi kontinu, saya benar-benar bertanya 'bagaimana Anda menemukan nilai yang paling umum'?
Jika Anda menganggap distribusi induk adalah gaussian, Anda dapat meng-bin data dan menemukan mengatakan mode adalah lokasi bin dengan jumlah terbesar. Namun, bagaimana Anda menentukan ukuran nampan? Apakah ada implementasi yang kuat? (Yaitu, kuat untuk outlier). Saya menggunakan python
/ scipy
/ numpy
, tapi saya mungkin bisa menerjemahkan R
tanpa kesulitan terlalu banyak.
distributions
fitting
mode
keflavich
sumber
sumber
Jawaban:
Dalam R, menerapkan metode yang tidak didasarkan pada pemodelan parametrik dari distribusi yang mendasarinya dan menggunakan estimator kernel default dari kepadatan hingga 10.000 variabel terdistribusi gamma:
mengembalikan 0,199 yang merupakan nilai x diperkirakan memiliki kepadatan tertinggi (estimasi kepadatan disimpan sebagai "z $ y").
sumber
Misalkan Anda membuat histogram, dari ukuran nampan b, dan nampan terbesar memiliki k entri, dari total sampel ukuran n. Maka rata-rata PDF di dalam nampan itu dapat diperkirakan sebagai b * k / n.
Masalahnya adalah bahwa nampan lain, yang memiliki anggota total lebih sedikit, bisa memiliki kepadatan tempat yang tinggi. Anda hanya dapat mengetahui hal ini jika Anda memiliki asumsi yang masuk akal tentang laju perubahan PDF. Jika Anda melakukannya, maka Anda dapat memperkirakan probabilitas bahwa bin terbesar kedua sebenarnya berisi mode.
Masalah yang mendasarinya adalah ini. Sebuah sampel memberikan pengetahuan yang baik tentang CDF, oleh teorema Kolmogorov-Smirnov, dan estimasi yang baik untuk median dan kuantil lainnya. Tetapi mengetahui perkiraan suatu fungsi di L1 tidak memberikan perkiraan pengetahuan tentang turunannya. Jadi tidak ada sampel yang memberikan pengetahuan yang baik tentang PDF, tanpa asumsi tambahan.
sumber
Berikut adalah beberapa sketsa solusi umum yang juga berfungsi untuk distribusi dimensi tinggi:
Latih f-GAN dengan reverse KL divergence, tanpa memberikan input acak apa pun ke generator (mis. Paksa itu menjadi deterministik).
Latih f-GAN dengan divergensi KL terbalik, pindahkan distribusi input ke generator menuju fungsi delta Dirac saat pelatihan berlangsung, dan tambahkan penalti gradien ke fungsi kehilangan generator.
Melatih model generatif (dapat dibedakan) yang dapat dengan traktat mengevaluasi perkiraan pdf pada titik mana pun (saya percaya bahwa misalnya VAE, model berbasis aliran, atau model autoregresif akan dilakukan). Kemudian gunakan beberapa jenis optimasi (beberapa rasa gradien naik dapat digunakan jika inferensi model dapat dibedakan) untuk menemukan maksimum perkiraan itu.
sumber