Memperkirakan varians dari sampel normal pusat-disensor

11

Saya telah normal-didistribusikan proses dari mana saya mendapatkan sampel kecil ( n biasanya 10-30) bahwa saya ingin gunakan untuk memperkirakan varians. Tetapi seringkali sampelnya sangat berdekatan sehingga kita tidak dapat mengukur titik individual di dekat pusat.

Saya memiliki pemahaman yang samar-samar ini bahwa kita harus dapat membangun penduga yang efisien menggunakan sampel yang dipesan: Misalnya, jika saya tahu sampel berisi 20 poin, dan bahwa 10 berkerumun di dekat pusat terlalu ketat untuk mengukur secara individual, tetapi saya memiliki pengukuran terpisah dari 5 pada kedua ekor, apakah ada pendekatan standar / formula untuk memperkirakan varians proses yang membuat penggunaan sampel yang optimal?

(Perhatikan bahwa saya tidak berpikir saya hanya dapat menimbang rata-rata pusat. Sebagai contoh, adalah mungkin untuk 7 sampel untuk mengelompok dengan ketat sementara tiga lainnya condong secara asimetris ke satu sisi tetapi cukup dekat kita tidak dapat mengatakannya tanpa pengambilan sampel tunggal yang lebih membosankan. .)

Jika jawabannya rumit, tip apa pun yang harus saya teliti akan dihargai. Misalnya, apakah ini masalah statistik pesanan? Apakah mungkin ada jawaban formula, atau ini masalah komputasi?

Detail yang diperbarui: Aplikasi ini menganalisis target pemotretan. Sampel yang mendasari tunggal adalah titik dampak ( x, y ) dari satu tembakan pada target. Proses yang mendasarinya memiliki distribusi normal bivariat simetris tetapi tidak ada korelasi antara sumbu, sehingga kami dapat memperlakukan sampel { x } dan { y } sebagai independen yang diambil dari distribusi normal yang sama. (Kami juga bisa mengatakan proses yang mendasari adalah Rayleigh-didistribusikan, tetapi kami tidak dapat mengukur sampel varian Rayleigh karena kami tidak dapat memastikan koordinat dari pusat "benar" dari proses, yang untuk n kecil dapat secara signifikan jauh dari pusat sampel ( , ).)x¯y¯

Kami diberi target dan jumlah tembakan ke dalamnya. Masalahnya adalah bahwa untuk n >> 3 senjata yang tepat biasanya akan menembak "lubang compang-camping" dikelilingi oleh tembakan yang berbeda. Kita dapat mengamati x - dan y - lebar lubang, tetapi kita tidak tahu di mana di lubang mana bidikan yang tidak berbeda terkena.

Berikut adalah beberapa contoh target yang lebih bermasalah:

[Sampel target dengan n = 10]

Target sampel dengan n = 100

(Memang, di dunia yang ideal kami akan mengubah / mengganti target setelah setiap tembakan dan kemudian mengumpulkan sampel untuk dianalisis. Ada sejumlah alasan yang sering tidak praktis, meskipun hal itu dilakukan jika memungkinkan .)

Catatan lebih lanjut berikut klarifikasi WHuber dalam komentar: Tembakan menghasilkan lubang target yang seragam dan diameternya diketahui. Ketika sebuah tembakan berada di luar "grup bergerigi" apa pun, kami mengetahui radius proyektil dan karenanya kami dapat mengukur pusat tepat . Dalam setiap "kelompok yang compang-camping" kita dapat melihat sejumlah "bola" periferal dan menandai lagi tepat pusat bidikan luar berdasarkan radius proyektil yang diketahui. Ini adalah sisa tembakan "disensor tengah" yang hanya kita ketahui terkena dampak di suatu tempat di bagian dalam "kelompok compang-camping" (yang biasanya - dan jika perlu mari kita asumsikan - satu per target).xi

Untuk memfasilitasi solusi, saya percaya akan lebih mudah untuk mengurangi ini ke satu set sampel satu dimensi dari normal, dengan interval pusat lebar w > d , di mana d adalah diameter proyektil, yang berisi sampel c < n "disensor".

footwet
sumber
(1) Apakah distribusi Normal asumsi atau apakah Anda memiliki bukti yang baik untuk mendukungnya? (2) Apakah masalah Anda tidak dapat secara akurat menghitung data di dekat pusat? (Itu akan berbeda dari arti biasa "menyensor," yaitu bahwa Anda dapat menghitung data tersebut tetapi Anda hanya tahu bahwa nilainya berada dalam interval tertentu.)
whuber
@whuber: Ya, kami memiliki bukti fundamental dan empiris yang prosesnya didistribusikan secara normal. Dan ya kita tahu persis jumlah poin dalam kelompok total, dan kami dapat mengamati interval (s) di mana terlalu banyak sampel berbohong untuk menentukan nilai-nilai individu.
feetwet
Terima kasih, itu sangat membantu. Sifat ketidakpastian masih belum jelas, dan model yang baik untuk itu dapat memotivasi solusi yang baik. Bisakah Anda memberikan ilustrasi atau contoh atau setidaknya menggambarkan proses pengukuran dengan sedikit lebih detail?
whuber
@whuber: Diperbarui. Jika itu akan membantu saya juga akan bekerja memposting tautan ke beberapa sampel nyata.
feetwet
Masalah yang sangat menarik! Saya pikir perlu pemikiran kreatif untuk mendapatkan solusi yang baik. Apakah adil untuk mengatakan Anda mempertimbangkan pusat dari setiap pemotretan, sebagai sampel pertama dari distribusi Normal bivariat ; Anda ingin memperkirakan ; tetapi yang dapat Anda amati - dengan beberapa ketidaktepatan - adalah (di mana adalah jari-jari umum yang diketahui dari setiap proyektil dan adalah bola jari-jari sekitar )? xi,(μ,σ2)σiB(xi,r)rB(x,r)rx
whuber

Jawaban:

2

Itu masalah yang menarik. Pertama, saya tidak akan membuat asumsi distribusi normal. Tampaknya yang Anda cari sebenarnya adalah perkiraan penyebaran yang Anda terapkan secara adil pada banyak penembak atau senjata berbeda atau amunisi atau apa pun.

Saya akan mencoba untuk membalikkan ini. Anda tidak tahu persis ke mana semua peluru pergi kecuali jika Anda melihat 10 lubang terpisah (dengan asumsi 10 tembakan). Tapi Anda tahu di mana mereka tidak pergi. Ini dapat digunakan untuk membatasi distribusi dengan asumsi statistik Bayesian jika Anda ingin memulai dengan distribusi.

Gagasan yang mungkin terbaik di sini adalah berhenti berusaha melakukannya secara matematis dan lakukan sesuatu yang masuk akal seperti ini. Ambil target dan jalankan rutin pemrosesan gambar untuk menandai area pemotretan yang mungkin tidak terhubung. Ukur mean dan momen kedua dari ini dan gunakan ini adalah estimator. Jika Anda ingin melangkah lebih jauh dan mencoba membuat Gaussianize, Anda dapat menjalankan percobaan monte carlo sederhana untuk mendapatkan faktor kalibrasi.

Dave31415
sumber
Biarkan saya jelaskan sedikit lagi. Katakanlah Anda memiliki 10 tembakan dan ada 6 lubang yang jelas di mana Anda tahu ke mana peluru itu pergi. Pertama, ambil titik-titik ini dan gunakan untuk membatasi lebar Gaussian. Mengikuti rutinitas yang biasa, ini membatasi sigma dari sigma Gaussian (untuk beberapa distribusi diketahui. Cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf
Dave31415
Sekarang, setelah Anda melakukannya, Anda ingin mempertimbangkan 4 peluru yang tidak membuat lubang baru. Karena peluru bersifat independen, kemungkinan baru ini (pada sigma Gaussian) dapat dengan mudah dikalikan. Jadi pada dasarnya untuk masing-masing dari 4 peluru, Anda ingin mengalikan dengan probabilitas bahwa mereka tidak membuat lubang baru.
Dave31415
Cara sederhana untuk melakukan ini dengan monte carlo adalah dengan menggambar satu set sigma dari distribusi terbatas Anda dan menggunakan sigma ini, hitung peluang untuk tidak membuat lubang baru. Jadi, gambarkan banyak bidikan simulasi dari ini dan hitung fraksi apa yang tidak membuat lubang baru. Ini kemudian dapat digunakan untuk memperbarui kemungkinan. Kemudian pindah ke yang berikutnya dan lakukan hal yang sama. Sekarang Anda memiliki kemungkinan akhir Anda.
Dave31415
Komentar terakhir. Dari sudut pandang praktis, estimasi sigma seharusnya tidak terlalu terpengaruh sejauh mana tepatnya peluru yang tidak terlihat selama Anda mengasumsikan mereka melewati lubang sebelumnya. Sebagian besar akan dibatasi oleh yang Anda dapat melihat yang menentukan tepi. Itu karena peluang peluru menembus lubang dua kali yang jauh dari pusat sangat rendah. Jadi, bahkan monte carlo mentah akan membuat Anda sangat dekat dengan penaksir optimal.
Dave31415
Jika kita tidak menyatakan distribusi normal (atau lainnya) maka tampaknya tidak mungkin kita dapat mengatakan apa pun selain untuk menempatkan batas atas atau bawah pada apa yang terjadi di wilayah yang disensor. Dalam kasus 1-dimensi di mana kita memiliki n tembakan yang disensor, batas bawah pada varian adalah dengan menganggap mereka semua mengenai titik interior yang sama yang paling dekat dengan rata-rata, dan (dengan asumsi rata-rata berpusat di interior) batas atas adalah untuk menganggap titik-titik yang disensor terdistribusi secara merata di bagian dalam interior. Tetapi jika kita menganggap proses yang mendasarinya normal, sepertinya kita harus dapat melakukan sesuatu yang lebih baik.
feetwet
0

Dari sudut pandang lain, orang dapat melihatnya dalam terang bidang Statistik Spasial, yang telah menciptakan bermacam-macam metrik, banyak di antaranya telah ditempatkan di kotak peralatan (lihat, misalnya, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

Wikipedia (tautan: http://en.m.wikipedia.org/wiki/Spatial_description_statistics ) sebenarnya memiliki halaman pengantar yang baik membahas konsep-konsep seperti ukuran kecenderungan pusat spasial dan dispersi spasial. Mengutip Wikipedia pada yang terakhir:

"Untuk sebagian besar aplikasi, dispersi spasial harus dikuantifikasi dengan cara yang tidak sama dengan rotasi dan refleksi. Beberapa ukuran sederhana dispersi spasial untuk set poin dapat didefinisikan menggunakan matriks kovarians dari koordinat titik-titik. , dan nilai eigen terbesar dari matriks kovarians dapat digunakan sebagai ukuran dispersi spasial. Ukuran dispersi spasial yang tidak didasarkan pada matriks kovarians adalah jarak rata-rata antara tetangga terdekat. [1] "

Konsep terkait meliputi ukuran homogenitas spasial, fungsi Ripley's K dan L, dan mungkin yang paling relevan untuk analisis cluster peluru, tes Cuzick-Edwards untuk pengelompokan sub-populasi dalam populasi yang terkelompok. Tes terakhir didasarkan pada perbandingan (menggunakan analisis "tetangga terdekat" untuk mentabulasi statistik) ke populasi kontrol, yang dalam konteks saat ini dapat didasarkan pada target yang diamati sebenarnya diklasifikasikan sebagai tidak menampilkan pengelompokan, atau per simulasi teoritis, dari katakanlah distribusi Rayleigh.

AJKOER
sumber