Saya telah normal-didistribusikan proses dari mana saya mendapatkan sampel kecil ( n biasanya 10-30) bahwa saya ingin gunakan untuk memperkirakan varians. Tetapi seringkali sampelnya sangat berdekatan sehingga kita tidak dapat mengukur titik individual di dekat pusat.
Saya memiliki pemahaman yang samar-samar ini bahwa kita harus dapat membangun penduga yang efisien menggunakan sampel yang dipesan: Misalnya, jika saya tahu sampel berisi 20 poin, dan bahwa 10 berkerumun di dekat pusat terlalu ketat untuk mengukur secara individual, tetapi saya memiliki pengukuran terpisah dari 5 pada kedua ekor, apakah ada pendekatan standar / formula untuk memperkirakan varians proses yang membuat penggunaan sampel yang optimal?
(Perhatikan bahwa saya tidak berpikir saya hanya dapat menimbang rata-rata pusat. Sebagai contoh, adalah mungkin untuk 7 sampel untuk mengelompok dengan ketat sementara tiga lainnya condong secara asimetris ke satu sisi tetapi cukup dekat kita tidak dapat mengatakannya tanpa pengambilan sampel tunggal yang lebih membosankan. .)
Jika jawabannya rumit, tip apa pun yang harus saya teliti akan dihargai. Misalnya, apakah ini masalah statistik pesanan? Apakah mungkin ada jawaban formula, atau ini masalah komputasi?
Detail yang diperbarui: Aplikasi ini menganalisis target pemotretan. Sampel yang mendasari tunggal adalah titik dampak ( x, y ) dari satu tembakan pada target. Proses yang mendasarinya memiliki distribusi normal bivariat simetris tetapi tidak ada korelasi antara sumbu, sehingga kami dapat memperlakukan sampel { x } dan { y } sebagai independen yang diambil dari distribusi normal yang sama. (Kami juga bisa mengatakan proses yang mendasari adalah Rayleigh-didistribusikan, tetapi kami tidak dapat mengukur sampel varian Rayleigh karena kami tidak dapat memastikan koordinat dari pusat "benar" dari proses, yang untuk n kecil dapat secara signifikan jauh dari pusat sampel ( , ).)
Kami diberi target dan jumlah tembakan ke dalamnya. Masalahnya adalah bahwa untuk n >> 3 senjata yang tepat biasanya akan menembak "lubang compang-camping" dikelilingi oleh tembakan yang berbeda. Kita dapat mengamati x - dan y - lebar lubang, tetapi kita tidak tahu di mana di lubang mana bidikan yang tidak berbeda terkena.
Berikut adalah beberapa contoh target yang lebih bermasalah:
(Memang, di dunia yang ideal kami akan mengubah / mengganti target setelah setiap tembakan dan kemudian mengumpulkan sampel untuk dianalisis. Ada sejumlah alasan yang sering tidak praktis, meskipun hal itu dilakukan jika memungkinkan .)
Catatan lebih lanjut berikut klarifikasi WHuber dalam komentar: Tembakan menghasilkan lubang target yang seragam dan diameternya diketahui. Ketika sebuah tembakan berada di luar "grup bergerigi" apa pun, kami mengetahui radius proyektil dan karenanya kami dapat mengukur pusat tepat . Dalam setiap "kelompok yang compang-camping" kita dapat melihat sejumlah "bola" periferal dan menandai lagi tepat pusat bidikan luar berdasarkan radius proyektil yang diketahui. Ini adalah sisa tembakan "disensor tengah" yang hanya kita ketahui terkena dampak di suatu tempat di bagian dalam "kelompok compang-camping" (yang biasanya - dan jika perlu mari kita asumsikan - satu per target).
Untuk memfasilitasi solusi, saya percaya akan lebih mudah untuk mengurangi ini ke satu set sampel satu dimensi dari normal, dengan interval pusat lebar w > d , di mana d adalah diameter proyektil, yang berisi sampel c < n "disensor".
sumber
Jawaban:
Itu masalah yang menarik. Pertama, saya tidak akan membuat asumsi distribusi normal. Tampaknya yang Anda cari sebenarnya adalah perkiraan penyebaran yang Anda terapkan secara adil pada banyak penembak atau senjata berbeda atau amunisi atau apa pun.
Saya akan mencoba untuk membalikkan ini. Anda tidak tahu persis ke mana semua peluru pergi kecuali jika Anda melihat 10 lubang terpisah (dengan asumsi 10 tembakan). Tapi Anda tahu di mana mereka tidak pergi. Ini dapat digunakan untuk membatasi distribusi dengan asumsi statistik Bayesian jika Anda ingin memulai dengan distribusi.
Gagasan yang mungkin terbaik di sini adalah berhenti berusaha melakukannya secara matematis dan lakukan sesuatu yang masuk akal seperti ini. Ambil target dan jalankan rutin pemrosesan gambar untuk menandai area pemotretan yang mungkin tidak terhubung. Ukur mean dan momen kedua dari ini dan gunakan ini adalah estimator. Jika Anda ingin melangkah lebih jauh dan mencoba membuat Gaussianize, Anda dapat menjalankan percobaan monte carlo sederhana untuk mendapatkan faktor kalibrasi.
sumber
Dari sudut pandang lain, orang dapat melihatnya dalam terang bidang Statistik Spasial, yang telah menciptakan bermacam-macam metrik, banyak di antaranya telah ditempatkan di kotak peralatan (lihat, misalnya, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).
Wikipedia (tautan: http://en.m.wikipedia.org/wiki/Spatial_description_statistics ) sebenarnya memiliki halaman pengantar yang baik membahas konsep-konsep seperti ukuran kecenderungan pusat spasial dan dispersi spasial. Mengutip Wikipedia pada yang terakhir:
"Untuk sebagian besar aplikasi, dispersi spasial harus dikuantifikasi dengan cara yang tidak sama dengan rotasi dan refleksi. Beberapa ukuran sederhana dispersi spasial untuk set poin dapat didefinisikan menggunakan matriks kovarians dari koordinat titik-titik. , dan nilai eigen terbesar dari matriks kovarians dapat digunakan sebagai ukuran dispersi spasial. Ukuran dispersi spasial yang tidak didasarkan pada matriks kovarians adalah jarak rata-rata antara tetangga terdekat. [1] "
Konsep terkait meliputi ukuran homogenitas spasial, fungsi Ripley's K dan L, dan mungkin yang paling relevan untuk analisis cluster peluru, tes Cuzick-Edwards untuk pengelompokan sub-populasi dalam populasi yang terkelompok. Tes terakhir didasarkan pada perbandingan (menggunakan analisis "tetangga terdekat" untuk mentabulasi statistik) ke populasi kontrol, yang dalam konteks saat ini dapat didasarkan pada target yang diamati sebenarnya diklasifikasikan sebagai tidak menampilkan pengelompokan, atau per simulasi teoritis, dari katakanlah distribusi Rayleigh.
sumber