Bagaimana cara menggunakan / menginterpretasikan distribusi empiris?

8

Pertama-tama saya ingin meminta maaf untuk judul yang tidak jelas, saya tidak bisa benar-benar merumuskan yang lebih baik sekarang, silakan berubah, atau saran saya untuk mengubah, judul untuk membuatnya lebih sesuai dengan inti pertanyaan .

Sekarang tentang pertanyaan itu sendiri, saya telah mengerjakan sebuah perangkat lunak di mana saya telah menemukan ide untuk menggunakan distribusi empiris untuk pengambilan sampel, namun sekarang setelah diterapkan saya tidak yakin bagaimana menafsirkannya semua. Izinkan saya untuk menggambarkan apa yang telah saya lakukan, dan mengapa:

Saya memiliki banyak perhitungan untuk satu set objek, menghasilkan skor akhir. Namun skor seperti itu sangat ad-hoc. Jadi untuk membuat masuk akal dari skor objek tertentu, apa yang saya lakukan adalah melakukan sejumlah besar (N = 1000) perhitungan skor dengan nilai tiruan / dihasilkan secara acak, menghasilkan 1000 skor tiruan. Memperkirakan "distribusi skor" empiris untuk objek tertentu kemudian dicapai oleh nilai-nilai skor 1000 mock ini.

Saya telah menerapkan ini di Jawa (karena perangkat lunak lainnya juga ditulis dalam lingkungan Java) menggunakan perpustakaan Apache Commons Math , khususnya EmpiricalDistImplkelas . Menurut dokumentasi, kelas ini menggunakan:

apa yang berarti Metode Kernel Variabel dengan pemulusan Gaussian: Mencerna file input

  1. Pass file sekali untuk menghitung min dan maks.
  2. Bagilah kisaran dari min-max ke dalam binCount "bins."
  3. Lewati file data lagi, hitung jumlah nampan dan statistik univariat (rata-rata, std dev.) Untuk masing-masing nampan
  4. Bagilah interval (0,1) ke dalam sub-kanal yang terkait dengan nampan, dengan panjang sub-kotak nampan yang sebanding dengan hitungannya.

Sekarang pertanyaan saya adalah, apakah masuk akal untuk mengambil sampel dari distribusi ini untuk menghitung semacam nilai yang diharapkan? Dengan kata lain, seberapa besar saya bisa percaya / mengandalkan distribusi ini? Bisakah saya misalnya menarik kesimpulan tentang pentingnya mengamati skorS dengan memeriksa distribusinya?

Saya menyadari bahwa ini mungkin cara yang tidak ortodoks dalam melihat masalah seperti ini tetapi saya pikir akan menarik untuk lebih memahami konsep distribusi empiris, dan bagaimana mereka dapat / tidak dapat digunakan dalam analisis.

posdef
sumber
Jika saya mengerti Anda dengan benar, distribusi akhir Anda pada dasarnya sama baiknya dengan "nilai tiruan / yang dihasilkan secara acak" untuk objek. Jadi - apakah Anda pikir Anda telah mencicipi distribusi "objek" Anda dengan baik?
AVB
@ AVB: tidak begitu banyak distribusi objek tetapi distribusi skor untuk satu objek tertentu. Saya kira tujuan saya adalah untuk: A) Pastikan perhitungan skor baik dan tidak bias terhadap sifat-sifat berbeda dari objek yang bersangkutan; dan B) Untuk dapat mengatakan sesuatu tentang pentingnya skor yang dihitung dari data eksperimen nyata
posdef
Anda mungkin mempertimbangkan untuk mengambil lebih banyak sampel dari objek Anda.
John Salvatier
@ John: Maksud Anda meningkatkan angka dari 1000 menjadi, katakanlah 10 ribu? Saya juga memikirkan hal itu, saya tidak yakin seberapa baik hasilnya, mengingat waktu perhitungannya. Ada ide tentang itu?
posdef
Saya tidak tahu cara mudah untuk menghitung perbedaannya. Mungkin instruktif untuk melihat sekelompok histogram atau Kernel Densities (dengan mata Anda) dengan jumlah titik yang berbeda.
John Salvatier

Jawaban:

5

Distribusi empiris digunakan sepanjang waktu untuk inferensi sehingga Anda pasti berada di jalur yang benar! Salah satu penggunaan paling umum dari distribusi empiris adalah untuk bootstrap. Bahkan, Anda bahkan tidak perlu menggunakan salah satu mesin yang telah Anda jelaskan di atas. Singkatnya, Anda membuat banyak pengundian (dengan penggantian) dari sampel asli dengan cara yang seragam dan hasilnya dapat digunakan untuk menghitung interval kepercayaan pada jumlah statistik yang dihitung sebelumnya. Selanjutnya, sampel-sampel ini telah mengembangkan sifat-sifat konvergensi teoretis dengan baik. Lihatlah artikel wikipedia tentang topik di sini .

Gary
sumber
Terima kasih atas jawaban Anda, Gary. Saya kenal dengan metode bootstrap, namun saya tidak yakin bagaimana (baca: di mana dalam analisis) Anda menyarankan saya menerapkan bootstrap. Sampel asli mana yang sedang kita bicarakan?
posdef
Sampel asli merujuk ke N=1000sampel yang Anda gunakan untuk membangun distribusi empiris Anda. Anda menyebutkan menggunakan distribusi ini untuk menghitung statistik; katakanlah untuk kesederhanaan mean. Cara menggunakan bootstrap adalah menghitung mean dengan inisialN poin, sebut saja μ^N. Sekarang kita ambilM sampel bootstrap dan hitung M estimasi untuk rata-rata, {μ^i}i=1M. Anda kemudian dapat memesan set ini dan statistik pesanan akan memberi Anda interval kepercayaanμ^N
Gary
Terima kasih lagi untuk penjelasannya. Namun saya tidak yakin apakah ini berguna, ketika saya mencoba memperkirakanP(x>xobs) dimana xF^1000(x). Jika maksud Anda, saya bisa pergi dari perkiraanμ^Nuntuk perhitungan probabilitas, maka saya pasti tertarik ..
posdef
Saya kira saya agak bingung dengan apa yang Anda cari jadi saya akan melakukan yang terbaik untuk menggunakan contoh yang Anda ajukan. Untuk nilai tetap, katakanlahy, kami ingin memperkirakan F(y). Lalu kita ambilN=1000 sampel dan dapatkan nilai q^. Sekarang ambilM tiruan dari sampel asli dan Anda mengulangi hasil penghitungan yang sama M nilai dari q^, memberikan CI pada q^. Poin kuncinya adalah bahwa sampel asli dapat memberi Anda statistik dan bootstrap memberikan CI. Mungkin pertanyaan sebenarnya adalah apa yang ingin Anda lakukan dengan distribusi empiris.
Gary