Standar deviasi beberapa pengukuran dengan ketidakpastian

13

Saya memiliki dua 2 jam data GPS dengan tingkat pengambilan sampel 1 Hz (7200 pengukuran). Data diberikan dalam bentuk , di mana adalah ketidakpastian pengukuran.(X,Xσ,Y,Yσ,Z,Zσ)Nσ

Ketika saya mengambil rata-rata dari semua pengukuran (misalnya nilai Z rata-rata dari dua jam itu), apa standar deviasinya? Tentu saja saya dapat menghitung standar deviasi dari nilai Z, tapi kemudian saya mengabaikan fakta bahwa ada ketidakpastian pengukuran yang diketahui ...

Sunting: Data semua dari stasiun yang sama, dan semua koordinat diukur ulang setiap detik. Karena rasi bintang satelit dll, setiap pengukuran memiliki ketidakpastian yang berbeda. Tujuan analisis saya adalah untuk menemukan perpindahan akibat peristiwa eksternal, (yaitu gempa bumi). Saya ingin mengambil rata-rata untuk 7200 pengukuran (2 jam) sebelum gempa bumi dan rata-rata lain untuk 2 jam setelah gempa bumi, dan kemudian menghitung perbedaan yang dihasilkan (tinggi misalnya). Untuk menentukan standar deviasi dari perbedaan ini, saya perlu mengetahui standar deviasi dari dua cara.

masinis
sumber
3
Pertanyaan bagus. Yang lebih penting lagi, data akan berkorelasi positif kuat dari waktu ke waktu: yang akan memiliki efek yang lebih mendalam pada jawaban daripada variasi dalam ketidakpastian pengukuran.
whuber
Mengambil komentar Whuber dan jawaban Deathkill14, Anda belum memberi kami informasi yang cukup untuk menjawab dengan benar. Penting untuk mengetahui bagaimana kesalahan dalam mengukur "bekerja." Misalnya, jika kesalahan pengukuran positif pada 3 detik, itu lebih / kurang cenderung menjadi positif pada 4 detik --- yaitu apakah ada korelasi serial? Kedua, jika kesalahan dalam X adalah positif pada 3 detik, lebih besar kemungkinan kesalahan di Y dan / atau Z menjadi positif pada 3 detik? 2 detik? Pada 4 detik? XX,Y,ZXXYZ
Bill
Yang terkait dengan pertanyaan yang sedikit berbeda adalah: seberapa sistematis kesalahan pengukuran? Misalkan saya mengatakan "Ya, diukur sedikit tinggi di halaman depan saya. X adalah hampir selalu diukur sedikit tinggi di halaman depan saya." Apakah itu pernyataan gila? Apakah kesalahan pengukuran berfungsi sedemikian rupa sehingga tempat tertentu mungkin terlalu sering terlalu tinggi sedangkan tempat tertentu lainnya mungkin terlalu sering terlalu rendah, dll. "Atau apakah semua kesalahan sementara?XX
Bill
@ Bill: Pasti ada korelasi serial. Kesalahan pengukuran cukup konstan selama dua jam. Namun, mereka umumnya lebih besar dari standar devaluasi yang dihitung dari data, yang membawa saya ke pertanyaan ini.
traindriver
Pertanyaan Anda masih belum secara jelas menguraikan adanya korelasi serial. Sayangnya, Anda memiliki tiga jawaban yang disusun dengan hati-hati dan tidak terlalu berguna bagi Anda seperti sebelumnya.
Glen_b -Reinstate Monica

Jawaban:

7

Saya menduga bahwa tanggapan sebelumnya untuk pertanyaan ini mungkin agak melenceng. Sepertinya saya bahwa apa yang pembuatnya benar-benar bertanya di sini dapat diulang sebagai, "diberikan serangkaian pengukuran vektor: dengan i = 1 , 2 , 3 , . . . , 7200 , dan kovarian pengukuran : C i = ( X 2 σ , i 0 0 0 Y

θsaya=(XsayaYsayaZsaya)
i=1,2,3,...,7200bagaimana saya menghitung dengan benar rata-rata tertimbang kovarians untuk rangkaian pengukuran vektor ini, dan setelah itu, bagaimana saya menghitung deviasi standarnya dengan benar? "Jawaban untuk pertanyaan ini dapat berupa ditemukan di banyak buku teks yang mengkhususkan diri dalam statistik untuk ilmu fisika.Salah satu contoh yang saya sukai khususnya adalah Frederick James,"Metode Statistik dalam Fisika Eksperimental"
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
, Edisi ke-2, World Scientific, 2006, Bagian 11.5.2, "Menggabungkan perkiraan independen", hal. 323-324. Teks tingkat pengantar yang sangat bagus, tetapi lebih banyak lagi, yang menjelaskan perhitungan rata-rata tertimbang varians untuk nilai skalar (yang bertentangan dengan jumlah vektor penuh seperti yang disajikan di atas) adalah Philip R. Bevington dan D. Keith Robinson, "Pengurangan Data dan Analisis Kesalahan untuk Ilmu Fisika " , edisi ke-3, McGraw-Hill, 2003, Bagian 4.1.x," Menimbang Data - Ketidakpastian Non-Seragam ". Karena pertanyaan poster kebetulan telah mendiagonalisasimatriks kovarians dalam kasus ini (yaitu, semua elemen off-diagonal adalah nol), masalahnya sebenarnya dapat dipisah menjadi tiga individu (yaitu, X, Y, Z) masalah skalar tertimbang rata-rata, sehingga analisis Bevington dan Robinson berlaku sama baiknya disini juga.

Secara umum, ketika menanggapi pertanyaan stackexchange.com, saya biasanya tidak merasa berguna untuk mengemas ulang derivasi panjang yang telah disajikan sebelumnya di banyak buku teks - jika Anda ingin benar-benar memahami materi, dan memahami mengapa jawabannya terlihat seperti cara mereka lakukan, maka Anda benar-benar harus pergi dan membaca penjelasan yang telah diterbitkan oleh penulis buku teks. Dengan mengingat hal itu, saya akan langsung melompat untuk menyatakan kembali jawaban yang telah diberikan orang lain. Dari Frederick James, pengaturan , rata-rata tertimbang adalah: q m e a n = ( N Σ i = 1 CN=7200dan kovarians dari rata-rata tertimbang adalah:Cmean=( N i=1C - 1 i )-1 Jawaban ini sepenuhnya umum, dan akan valid apa pun bentukCi, bahkan untuk matriks kovariansi pengukuran non-diagonal.

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
Ci

XiYiZi dan variansnya adalahX2σ,mean=1

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
atau ekuivalen,Xσ,mean=
Xσ,mean2=1i=1N1Xσ,i2
dan juga untukYmean,Yσ,mesebuahndanZmean,Zσ,mean. Entri wikipedia singkat yang juga tiba pada jawaban yang sama untuk case bernilai skalar tersedia disini.
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,meanZmean,Zσ,mean
stachyra
sumber
Mungkin saya agak tidak jelas, jadi saya telah menambahkan beberapa info lagi. Saya tidak berpikir bahwa saya perlu mempertimbangkan pengukuran saya.
traindriver
1
Ya Anda lakukan. Pertimbangkan kasus ekstrem, sama seperti eksperimen pemikiran: misalkan Anda hanya memiliki 2 pengukuran GPS, bukannya 7200. Misalkan lebih jauh bahwa salah satu pengukuran GPS memiliki ketidakpastian +/- 5 kaki, sementara yang lain memiliki ketidakpastian + / - 5 mil. Angka ketidakpastian secara literal memberi tahu Anda seberapa besar potensi pengukuran yang tidak akurat. Itu berarti nilai +/- 5 mil kemungkinan akan turun beberapa mil, setidaknya. Apakah Anda benar-benar ingin memasukkan angka ini dalam rata-rata Anda, dengan cara apa pun yang berarti? Rata-rata tertimbang memungkinkan Anda mendiskontokan nilai yang seharusnya tidak terlalu dipercaya.
stachyra
1
BTW, jawaban saya memiliki satu hal lagi untuk itu: dalam posting asli Anda, Anda menyebutkan bahwa alasan Anda tidak ingin hanya menggunakan standar deviasi sampel, dihitung langsung dari nilai Z, adalah bahwa dalam hal ini, Anda akan, dalam kata-kata Anda sendiri, "mengabaikan fakta bahwa ada ketidakpastian pengukuran yang diketahui". Jawaban saya (well, sungguh, jawaban buku teks yang tidak jelas, yang saya bagikan dengan Anda) menggunakan ketidakpastian pengukuran yang diketahui, persis seperti yang Anda minta. Hanya saja ia menggunakan informasi di lebih banyak tempat (hasil rata-rata serta standar deviasi) daripada yang Anda harapkan.
stachyra
Anda meyakinkan saya.
traindriver
6

Ini harus dengan mudah diselesaikan menggunakan inferensi bayesian. Anda tahu properti pengukuran poin individu sehubungan dengan nilai sebenarnya dan ingin menyimpulkan mean populasi dan SD yang menghasilkan nilai sebenarnya. Ini adalah model hierarkis.

Mengulangi masalah (Dasar-dasar Bayes)

Perhatikan bahwa sementara statistik ortodoks memberi Anda rata-rata tunggal, dalam kerangka bayesian Anda mendapatkan distribusi nilai yang kredibel dari rata-rata. Misalnya pengamatan (1, 2, 3) dengan SD (2, 2, 3) bisa dihasilkan oleh Estimasi Kemungkinan Maksimum 2 tetapi juga dengan rata-rata 2,1 atau 1,8, meskipun sedikit lebih kecil kemungkinannya (mengingat data) daripada MLE. Jadi selain SD, kami juga menyimpulkan rerata .

Perbedaan konseptual lain adalah bahwa Anda harus mendefinisikan keadaan pengetahuan Anda sebelum melakukan pengamatan. Kami menyebutnya prior . Anda mungkin tahu sebelumnya bahwa area tertentu dipindai dan dalam kisaran ketinggian tertentu. Ketiadaan sama sekali pengetahuan akan memiliki derajat seragam (-90, 90) seperti pada X dan Y sebelumnya dan mungkin seragam (0, 10.000) meter pada ketinggian (di atas laut, di bawah titik tertinggi di bumi). Anda harus menentukan distribusi prior untuk semua parameter yang ingin Anda perkirakan, yaitu mendapatkan distribusi posterior untuk. Ini berlaku untuk deviasi standar juga.

Jadi, ulangi masalah Anda, saya berasumsi bahwa Anda ingin menyimpulkan nilai yang dapat dipercaya untuk tiga cara (X.mean, Y.mean, X.mean) dan tiga standar deviasi (X.sd, Y.sd, X.sd) yang dapat memiliki menghasilkan data Anda.

Model

Menggunakan sintaks BUGS standar (menggunakan WinBUGS, OpenBUGS, JAGS, stan atau paket lain untuk menjalankan ini), model Anda akan terlihat seperti ini:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

Secara alami, Anda memonitor parameter .mean dan .sd dan menggunakan posisinya untuk inferensi.

Simulasi

Saya mensimulasikan beberapa data seperti ini:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

Kemudian jalankan model menggunakan JAGS untuk 2000 iterasi setelah membakar 500 iterasi. Inilah hasil untuk X.sd.

posterior untuk X.sd

Kisaran biru menunjukkan 95% Kepadatan Posterior Tertinggi atau interval Kredibel (di mana Anda yakin parameternya setelah mengamati data. Perhatikan bahwa interval kepercayaan ortodoks tidak memberi Anda ini).

Garis vertikal merah adalah perkiraan MLE dari data mentah. Biasanya, parameter yang paling mungkin dalam estimasi Bayesian juga merupakan parameter (kemungkinan maksimum) yang paling mungkin dalam statistik ortodoks. Tetapi Anda tidak perlu terlalu peduli dengan bagian atas posterior. Nilai tengah atau median lebih baik jika Anda ingin merebusnya menjadi satu nomor.

Perhatikan bahwa MLE / top bukan pada 5 karena data dihasilkan secara acak, bukan karena statistik yang salah.

Batasan

Ini adalah model sederhana yang memiliki beberapa kekurangan saat ini.

  1. Itu tidak menangani identitas -90 dan 90 derajat. Ini dapat dilakukan, bagaimanapun, dengan membuat beberapa variabel perantara yang menggeser nilai ekstrim dari estimasi parameter ke dalam rentang (-90, 90).
  2. X, Y dan Z saat ini dimodelkan sebagai independen meskipun mereka mungkin berkorelasi dan ini harus diperhitungkan untuk mendapatkan hasil maksimal dari data. Itu tergantung pada apakah perangkat pengukuran bergerak (korelasi serial dan distribusi gabungan X, Y dan Z akan memberi Anda banyak informasi) atau berdiri diam (independensi baik-baik saja). Saya dapat memperluas jawaban untuk mendekati ini, jika diminta.

Saya harus menyebutkan bahwa ada banyak literatur tentang model spasial Bayesian yang saya tidak ketahui.

Jonas Lindeløv
sumber
Terima kasih atas jawaban ini. Ini adalah data dari stasiun tetap, tetapi apakah ini menyiratkan bahwa data tersebut independen?
traindriver
@traindriver Anda perlu memberikan info lebih lanjut tentang masalah inferensi yang Anda hadapi agar kami dapat membantu Anda. Anda dapat memperluas pertanyaan Anda dengan bagian "pembaruan" yang menetapkan setidaknya (1) apakah ini kuantitas yang sama yang diukur berulang kali? Yaitu koordinat yang sama. Atau area dipindai atau ... (2) mengapa Anda ingin menyimpulkan mean dan sd? Jika ini adalah area, mungkin Anda ingin menggunakan SD sebagai perkiraan kekasaran atau sesuatu seperti itu.
Jonas Lindeløv
Saya telah menambahkan beberapa info lagi di posting asli.
traindriver
3

Saya pertama kali memperkenalkan beberapa notasi dan mengatur masalah menggunakan pendekatan sederhana yang Anda sebutkan. Kemudian melangkah lebih jauh. saya akan gunakanz untuk merujuk ke vektor Z yang Anda berikan.

Pertimbangkan model berikut, yang tidak memiliki kesalahan pengukuran penyebutan eksplisit: Z¯=saya=1nμZ+ϵsayandimana Z¯ adalah estimasi nilai rata - rata z, dan μZ adalah nilai rata-rata sebenarnya dari Z. Di sini, ϵ adalah vektor kesalahan dalam data Anda, dan Anda berharap jika sampel Anda besar Z¯ akan bertemu μZ. Jika Anda hanya mengambil yang diamatiZ nilai dan rata-rata, Anda dapatkan Z¯ dan jika Anda menghitung standar deviasi sampel yang Anda dapatkan σ^, perkiraan standar deviasi populasi sebenarnya σ. Bagaimana jika Anda ingin memanfaatkan beberapa pengetahuan tentang kesalahan pengukuran?

Pertama, perhatikan bahwa kita dapat merumuskan kembali model awal sebagai: z=1β+ϵdimana 1 adalah vektor yang, dan β akan berakhir menjadi Z¯. Sekarang ini benar-benar terlihat seperti regresi, tetapi kita pada dasarnya masih mendapatkan perkiraanμZ. Jika kami melakukan regresi seperti ini, kami juga akan mendapatkan perkiraan untuk kesalahan standarϵ, yang hampir seperti yang kita inginkan - ini tidak lain adalah kesalahan standar z (tapi kami masih ingin menjelaskan kesalahan pengukuran).

Kami dapat menambah model awal kami untuk mendapatkan model efek campuran. z=1β+Qkamu+ϵdimana kamu adalah vektor efek acak, dan Q adalah regressor berkaitan z untuk kamu. Seperti halnya efek acak, Anda perlu membuat asumsi tentang distribusikamu. Benarkah ituZσ adalah distribusi kesalahan pengukuran untuk z? Jika ya, ini dapat digunakan untuk menyediakan distribusi efek acak. Biasanya, perangkat lunak untuk melakukan pemodelan efek campuran dasar akan menganggap efek acak memiliki distribusi normal (dengan rata-rata 0 ...) dan memperkirakan varians untuk Anda. Mungkin Anda bisa mencoba ini untuk menguji konsepnya. Jika Anda ingin menggunakan informasi Anda sebelumnya tentang distribusi kesalahan pengukuran, model efek campuran Bayesian dapat digunakan. Anda dapat menggunakan R2OpenBUGS.

Setelah memperkirakan model ini, kesalahan standar yang Anda dapatkan untuk residual ϵadalah kesalahan standar yang Anda minati. Secara intuitif, komponen efek acak dari model menyerap beberapa variasi yang dapat Anda jelaskan karena Anda tahu ada kesalahan pengukuran. Ini memungkinkan Anda untuk mendapatkan taksiran variasi yang lebih relevanϵ

Lihat makalah ini untuk diskusi lebih lanjut tentang pendekatan efek acak ini untuk menjelaskan kesalahan pengukuran. Situasi Anda mirip dengan yang penulis perkenalkanD dan kesalahan pengukuran versi rusak W. Contoh di Bagian 4 dapat menawarkan beberapa wawasan tentang situasi Anda.

Seperti yang disebutkan oleh whuber, Anda mungkin ingin memperhitungkan autokorelasi dalam data Anda. Menggunakan efek acak tidak akan menyelesaikan masalah itu.

Kematian14
sumber