Pertama-tama saya ingin meminta maaf untuk judul yang tidak jelas, saya tidak bisa benar-benar merumuskan yang lebih baik sekarang, silakan berubah, atau saran saya untuk mengubah, judul untuk membuatnya lebih sesuai dengan inti pertanyaan .
Sekarang tentang pertanyaan itu sendiri, saya telah mengerjakan sebuah perangkat lunak di mana saya telah menemukan ide untuk menggunakan distribusi empiris untuk pengambilan sampel, namun sekarang setelah diterapkan saya tidak yakin bagaimana menafsirkannya semua. Izinkan saya untuk menggambarkan apa yang telah saya lakukan, dan mengapa:
Saya memiliki banyak perhitungan untuk satu set objek, menghasilkan skor akhir. Namun skor seperti itu sangat ad-hoc. Jadi untuk membuat masuk akal dari skor objek tertentu, apa yang saya lakukan adalah melakukan sejumlah besar (N = 1000) perhitungan skor dengan nilai tiruan / dihasilkan secara acak, menghasilkan 1000 skor tiruan. Memperkirakan "distribusi skor" empiris untuk objek tertentu kemudian dicapai oleh nilai-nilai skor 1000 mock ini.
Saya telah menerapkan ini di Jawa (karena perangkat lunak lainnya juga ditulis dalam lingkungan Java) menggunakan perpustakaan Apache Commons Math , khususnya EmpiricalDistImpl
kelas . Menurut dokumentasi, kelas ini menggunakan:
apa yang berarti Metode Kernel Variabel dengan pemulusan Gaussian: Mencerna file input
- Pass file sekali untuk menghitung min dan maks.
- Bagilah kisaran dari min-max ke dalam binCount "bins."
- Lewati file data lagi, hitung jumlah nampan dan statistik univariat (rata-rata, std dev.) Untuk masing-masing nampan
- Bagilah interval (0,1) ke dalam sub-kanal yang terkait dengan nampan, dengan panjang sub-kotak nampan yang sebanding dengan hitungannya.
Sekarang pertanyaan saya adalah, apakah masuk akal untuk mengambil sampel dari distribusi ini untuk menghitung semacam nilai yang diharapkan? Dengan kata lain, seberapa besar saya bisa percaya / mengandalkan distribusi ini? Bisakah saya misalnya menarik kesimpulan tentang pentingnya mengamati skor dengan memeriksa distribusinya?
Saya menyadari bahwa ini mungkin cara yang tidak ortodoks dalam melihat masalah seperti ini tetapi saya pikir akan menarik untuk lebih memahami konsep distribusi empiris, dan bagaimana mereka dapat / tidak dapat digunakan dalam analisis.
sumber
Jawaban:
Distribusi empiris digunakan sepanjang waktu untuk inferensi sehingga Anda pasti berada di jalur yang benar! Salah satu penggunaan paling umum dari distribusi empiris adalah untuk bootstrap. Bahkan, Anda bahkan tidak perlu menggunakan salah satu mesin yang telah Anda jelaskan di atas. Singkatnya, Anda membuat banyak pengundian (dengan penggantian) dari sampel asli dengan cara yang seragam dan hasilnya dapat digunakan untuk menghitung interval kepercayaan pada jumlah statistik yang dihitung sebelumnya. Selanjutnya, sampel-sampel ini telah mengembangkan sifat-sifat konvergensi teoretis dengan baik. Lihatlah artikel wikipedia tentang topik di sini .
sumber