Saya memiliki dua 2 jam data GPS dengan tingkat pengambilan sampel 1 Hz (7200 pengukuran). Data diberikan dalam bentuk , di mana adalah ketidakpastian pengukuran.
Ketika saya mengambil rata-rata dari semua pengukuran (misalnya nilai Z rata-rata dari dua jam itu), apa standar deviasinya? Tentu saja saya dapat menghitung standar deviasi dari nilai Z, tapi kemudian saya mengabaikan fakta bahwa ada ketidakpastian pengukuran yang diketahui ...
Sunting: Data semua dari stasiun yang sama, dan semua koordinat diukur ulang setiap detik. Karena rasi bintang satelit dll, setiap pengukuran memiliki ketidakpastian yang berbeda. Tujuan analisis saya adalah untuk menemukan perpindahan akibat peristiwa eksternal, (yaitu gempa bumi). Saya ingin mengambil rata-rata untuk 7200 pengukuran (2 jam) sebelum gempa bumi dan rata-rata lain untuk 2 jam setelah gempa bumi, dan kemudian menghitung perbedaan yang dihasilkan (tinggi misalnya). Untuk menentukan standar deviasi dari perbedaan ini, saya perlu mengetahui standar deviasi dari dua cara.
sumber
Jawaban:
Saya menduga bahwa tanggapan sebelumnya untuk pertanyaan ini mungkin agak melenceng. Sepertinya saya bahwa apa yang pembuatnya benar-benar bertanya di sini dapat diulang sebagai, "diberikan serangkaian pengukuran vektor: dengan i = 1 , 2 , 3 , . . . , 7200 , dan kovarian pengukuran : C i = ( X 2 σ , i 0 0 0 Y
Secara umum, ketika menanggapi pertanyaan stackexchange.com, saya biasanya tidak merasa berguna untuk mengemas ulang derivasi panjang yang telah disajikan sebelumnya di banyak buku teks - jika Anda ingin benar-benar memahami materi, dan memahami mengapa jawabannya terlihat seperti cara mereka lakukan, maka Anda benar-benar harus pergi dan membaca penjelasan yang telah diterbitkan oleh penulis buku teks. Dengan mengingat hal itu, saya akan langsung melompat untuk menyatakan kembali jawaban yang telah diberikan orang lain. Dari Frederick James, pengaturan , rata-rata tertimbang adalah: → q m e a n = ( N Σ i = 1 CN=7200 dan kovarians dari rata-rata tertimbang adalah:Cmean=( N ∑ i=1C - 1 i )-1 Jawaban ini sepenuhnya umum, dan akan valid apa pun bentukCi, bahkan untuk matriks kovariansi pengukuran non-diagonal.
sumber
Ini harus dengan mudah diselesaikan menggunakan inferensi bayesian. Anda tahu properti pengukuran poin individu sehubungan dengan nilai sebenarnya dan ingin menyimpulkan mean populasi dan SD yang menghasilkan nilai sebenarnya. Ini adalah model hierarkis.
Mengulangi masalah (Dasar-dasar Bayes)
Perhatikan bahwa sementara statistik ortodoks memberi Anda rata-rata tunggal, dalam kerangka bayesian Anda mendapatkan distribusi nilai yang kredibel dari rata-rata. Misalnya pengamatan (1, 2, 3) dengan SD (2, 2, 3) bisa dihasilkan oleh Estimasi Kemungkinan Maksimum 2 tetapi juga dengan rata-rata 2,1 atau 1,8, meskipun sedikit lebih kecil kemungkinannya (mengingat data) daripada MLE. Jadi selain SD, kami juga menyimpulkan rerata .
Perbedaan konseptual lain adalah bahwa Anda harus mendefinisikan keadaan pengetahuan Anda sebelum melakukan pengamatan. Kami menyebutnya prior . Anda mungkin tahu sebelumnya bahwa area tertentu dipindai dan dalam kisaran ketinggian tertentu. Ketiadaan sama sekali pengetahuan akan memiliki derajat seragam (-90, 90) seperti pada X dan Y sebelumnya dan mungkin seragam (0, 10.000) meter pada ketinggian (di atas laut, di bawah titik tertinggi di bumi). Anda harus menentukan distribusi prior untuk semua parameter yang ingin Anda perkirakan, yaitu mendapatkan distribusi posterior untuk. Ini berlaku untuk deviasi standar juga.
Jadi, ulangi masalah Anda, saya berasumsi bahwa Anda ingin menyimpulkan nilai yang dapat dipercaya untuk tiga cara (X.mean, Y.mean, X.mean) dan tiga standar deviasi (X.sd, Y.sd, X.sd) yang dapat memiliki menghasilkan data Anda.
Model
Menggunakan sintaks BUGS standar (menggunakan WinBUGS, OpenBUGS, JAGS, stan atau paket lain untuk menjalankan ini), model Anda akan terlihat seperti ini:
Secara alami, Anda memonitor parameter .mean dan .sd dan menggunakan posisinya untuk inferensi.
Simulasi
Saya mensimulasikan beberapa data seperti ini:
Kemudian jalankan model menggunakan JAGS untuk 2000 iterasi setelah membakar 500 iterasi. Inilah hasil untuk X.sd.
Kisaran biru menunjukkan 95% Kepadatan Posterior Tertinggi atau interval Kredibel (di mana Anda yakin parameternya setelah mengamati data. Perhatikan bahwa interval kepercayaan ortodoks tidak memberi Anda ini).
Garis vertikal merah adalah perkiraan MLE dari data mentah. Biasanya, parameter yang paling mungkin dalam estimasi Bayesian juga merupakan parameter (kemungkinan maksimum) yang paling mungkin dalam statistik ortodoks. Tetapi Anda tidak perlu terlalu peduli dengan bagian atas posterior. Nilai tengah atau median lebih baik jika Anda ingin merebusnya menjadi satu nomor.
Perhatikan bahwa MLE / top bukan pada 5 karena data dihasilkan secara acak, bukan karena statistik yang salah.
Batasan
Ini adalah model sederhana yang memiliki beberapa kekurangan saat ini.
Saya harus menyebutkan bahwa ada banyak literatur tentang model spasial Bayesian yang saya tidak ketahui.
sumber
Saya pertama kali memperkenalkan beberapa notasi dan mengatur masalah menggunakan pendekatan sederhana yang Anda sebutkan. Kemudian melangkah lebih jauh. saya akan gunakanz untuk merujuk ke vektor Z yang Anda berikan.
Pertimbangkan model berikut, yang tidak memiliki kesalahan pengukuran penyebutan eksplisit:Z¯= ∑ni = 1μZ+ ϵsayan dimana Z¯ adalah estimasi nilai rata - rata z , dan μZ adalah nilai rata-rata sebenarnya dari Z. Di sini, ϵ adalah vektor kesalahan dalam data Anda, dan Anda berharap jika sampel Anda besar Z¯ akan bertemu μZ . Jika Anda hanya mengambil yang diamatiZ nilai dan rata-rata, Anda dapatkan Z¯ dan jika Anda menghitung standar deviasi sampel yang Anda dapatkan σ^ , perkiraan standar deviasi populasi sebenarnya σ . Bagaimana jika Anda ingin memanfaatkan beberapa pengetahuan tentang kesalahan pengukuran?
Pertama, perhatikan bahwa kita dapat merumuskan kembali model awal sebagai:z = 1 β+ ϵ dimana 1 adalah vektor yang, dan β akan berakhir menjadi Z¯ . Sekarang ini benar-benar terlihat seperti regresi, tetapi kita pada dasarnya masih mendapatkan perkiraanμZ . Jika kami melakukan regresi seperti ini, kami juga akan mendapatkan perkiraan untuk kesalahan standarϵ , yang hampir seperti yang kita inginkan - ini tidak lain adalah kesalahan standar z (tapi kami masih ingin menjelaskan kesalahan pengukuran).
Kami dapat menambah model awal kami untuk mendapatkan model efek campuran.z = 1 β+ Q u + ϵ dimana kamu adalah vektor efek acak, dan Q adalah regressor berkaitan z untuk kamu . Seperti halnya efek acak, Anda perlu membuat asumsi tentang distribusikamu . Benarkah ituZσ adalah distribusi kesalahan pengukuran untuk z ? Jika ya, ini dapat digunakan untuk menyediakan distribusi efek acak. Biasanya, perangkat lunak untuk melakukan pemodelan efek campuran dasar akan menganggap efek acak memiliki distribusi normal (dengan rata-rata 0 ...) dan memperkirakan varians untuk Anda. Mungkin Anda bisa mencoba ini untuk menguji konsepnya. Jika Anda ingin menggunakan informasi Anda sebelumnya tentang distribusi kesalahan pengukuran, model efek campuran Bayesian dapat digunakan. Anda dapat menggunakan R2OpenBUGS.
Setelah memperkirakan model ini, kesalahan standar yang Anda dapatkan untuk residualϵ adalah kesalahan standar yang Anda minati. Secara intuitif, komponen efek acak dari model menyerap beberapa variasi yang dapat Anda jelaskan karena Anda tahu ada kesalahan pengukuran. Ini memungkinkan Anda untuk mendapatkan taksiran variasi yang lebih relevanϵ
Lihat makalah ini untuk diskusi lebih lanjut tentang pendekatan efek acak ini untuk menjelaskan kesalahan pengukuran. Situasi Anda mirip dengan yang penulis perkenalkanD dan kesalahan pengukuran versi rusak W . Contoh di Bagian 4 dapat menawarkan beberapa wawasan tentang situasi Anda.
Seperti yang disebutkan oleh whuber, Anda mungkin ingin memperhitungkan autokorelasi dalam data Anda. Menggunakan efek acak tidak akan menyelesaikan masalah itu.
sumber