Varian "Rata-rata"

10

Saya perlu mendapatkan semacam "rata-rata" di antara daftar varian, tetapi mengalami masalah dengan solusi yang masuk akal. Ada diskusi menarik tentang perbedaan di antara tiga cara Pythagoras (aritmatika, geometris, dan harmonik) di utas ini ; Namun, saya masih tidak merasa ada di antara mereka yang akan menjadi kandidat yang baik. Ada saran?

PS Some context - Varians ini adalah varian sampel dari nsubyek, masing-masing melalui desain eksperimen yang sama dengan ukuran sampel yang kira-kira samak . Dengan kata lain, ada varians sampel , , ..., , sesuai dengan subjek tersebut. Analisis meta telah dilakukan di tingkat populasi. Alasan saya perlu mendapatkan beberapa jenis sampel "rata-rata" atau "diringkas" adalah karena saya ingin menggunakannya untuk menghitung indeks seperti ICC setelah analisis meta.nσ12σ22σn2n

PPS Agar diskusi lebih konkret, izinkan saya menjelaskan masalah ini dengan contoh berikut dalam R:

library(metafor)
dat <- get(data(dat.konstantopoulos2011))
dat$district <- as.factor(dat$district)
dat$school <- as.factor(dat$school)

Dalam dataset ada perbedaan yang terkait dengan skor kinerja masing-masing sekolah:

str(dat)
Classes ‘escalc’ and 'data.frame':  56 obs. of  6 variables:
 $ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ school  : Factor w/ 11 levels "1","2","3","4",..: 1 2 3 4 1 2 3 4 1 2 ...
 $ year    : int  1976 1976 1976 1976 1989 1989 1989 1989 1994 1994 ...
 $ yi      : atomic  -0.18 -0.22 0.23 -0.3 0.13 -0.26 0.19 0.32 0.45 0.38 ...
 $ vi      : num  0.118 0.118 0.144 0.144 0.014 0.014 0.015 0.024 0.023 0.043 ...

Misalkan kita melakukan analisis meta dengan model hierarkis atau efek-campuran:

yij=a+αi+βj+ϵij

mana dan adalah efek acak untuk th sekolah dan th kabupaten, masing-masing, dan adalah kesalahan pengukuran dengan distribusi Gaussian dikenal . Model ini dapat dianalisis seperti di bawah ini:αiβjijϵijN(0,vij)

(fm <- rma.mv(yi, vi, random = list(~1 | district, ~1 | school), data=dat)) 

render estimasi varians berikut untuk dua komponen varians:

Multivariate Meta-Analysis Model (k = 56; method: REML)
Variance Components: 

            estim    sqrt  nlvls  fixed    factor
sigma^2.1  0.0814  0.2853     11     no  district
sigma^2.2  0.0010  0.0308     11     no    school

Dua varian dalam hasil, sigma ^ 2.1 dan sigma ^ 2.2, sesuai dengan dua variabel efek-acak (distrik dan sekolah).

Saya ingin menghitung ICC untuk distrik, dan itulah sebabnya saya ingin mendapatkan varians yang dirangkum di tempat pertama untuk varian individual tersebut, , dari istilah pengukuran . Karena total varians adalahvijϵij

Var(yij)=Var(αi+βj+ϵij)=σ12+σ22+vij

Pendekatan asli saya (dan sederhana) adalah hanya menggunakan rata-rata aritmatika:

σ12σ12+σ22+mean(vij)

tapi saya tidak yakin jika aritmatika berarti, mean(vij), sesuai dalam konteks ini.

bluepole
sumber
4
Konteks adalah segalanya di sini. Apakah varian teoretis ini (momen distribusi), atau varian sampel? Jika mereka varians sampel, apa hubungan antara sampel? Apakah mereka berasal dari populasi yang sama? Jika ya, apakah Anda sudah memiliki ukuran masing-masing sampel? Jika sampel tidak berasal dari populasi yang sama, bagaimana Anda membenarkan rata-rata atas varians?
Alecos Papadopoulos
2
Pemodelan hierarki adalah jawaban yang sangat fleksibel. Posting blog ini di delapan sekolah adalah awal yang baik. andrewgelman.com/2014/01/21/... Gelman et al., Bayesian Data Analysis adalah tempat yang tepat untuk mendapatkan informasi lebih lanjut.
Sycorax berkata Reinstate Monica
2
Kemungkinan duplikat dari Cara 'menjumlahkan' standar deviasi?
Firebug
1
Apakah ini masalah XY? Apakah Anda ingin tahu cara membuat variasi rata-rata ... Atau Anda ingin tahu cara menghitung ICC untuk meta-analisis?
Mark White
1
Dalam hal ini apakah stats.stackexchange.com/questions/187197/… memposting bantuan?
mdewey

Jawaban:

7

Memperluas komentar yang Anda dapatkan, jawaban untuk pertanyaan dalam judul Anda sudah diberikan di Cara 'menjumlahkan' standar deviasi? utas, dan baca sebagai berikut: untuk mendapatkan simpangan baku rata-rata, pertama ambil rata-rata varians dan kemudian ambil akar kuadratnya.

Pada nilai nominal, pendekatan ini valid, tetapi mengabaikan sifat hierarkis data Anda. Contoh serupa dibahas dalam Bab 5 dari Analisis Data Bayesian oleh Andrew Gelman et al (lihat juga di sini ), yang menunjukkan bahwa sebenarnya lebih bijaksana untuk menggunakan model hierarkis yang mengandalkan perkiraan yang dikumpulkan. Dalam kasus Anda, Anda punyan×k pengamatan, untuk n subyek dalam kperawatan dan saya kira dapat diasumsikan bahwa ada semacam kesamaan antara hasil yang diperoleh oleh setiap subjek dan antara setiap perawatan. Ini sudah menyarankan model hierarkis dengan efek tingkat atas yang dilintasi untuk perawatan dan untuk subjek. Dengan menggunakan model seperti itu, Anda akan memperhitungkan kedua sumber variasi.

Perhatikan bahwa formulasi modern ICC sebenarnya mendefinisikannya dalam hal model efek-campuran dari jenis seperti yang dijelaskan di atas, jadi menggunakan model tersebut memecahkan banyak masalah untuk Anda dan sering kali merupakan pendekatan yang direkomendasikan untuk meta-analisis (tetapi perhatikan bahwa ICC dapat menyesatkan ).


Mengenai hasil edit Anda, jika model Anda adalah

ysayaj=Sebuah+αsaya+βj+ϵsayaj

kemudian αsayaN(μα,σα2), βjN(μβ,σβ2) dan ϵsayajN(0,σϵ2), jadi ICC Anda

sayaCCα=σα2σα2+σβ2+σϵ2

Rerata kesalahan tidak masuk ke persamaan pada titik mana pun. Apa yang datang ke persamaan adalah varian dari masing-masing efek acakα,β dan "kebisingan" global ϵ. Idenya adalah untuk memperkirakan bagian varian yang diambil olehα, yaitu berapa banyak dari total varians yang diperhitungkan. Ini adalah bagaimana ICC didefinisikan oleh penciptanya Ronald A. Fisher (1966) dalam Metode Statistik untuk Pekerja Penelitian :

(...) korelasi intraclass akan menjadi hanya sebagian kecil dari total varians karena penyebab yang memiliki kesamaan pengamatan di kelas yang sama.

Jadi pembilang dalam rumus ICC adalah varians dari efek bunga dan penyebutnya adalah total varians. Perhatikan bahwa mean varians tidak ada hubungannya dengan total varians (jumlah varians), jadi kecuali saya salah paham sesuatu, saya tidak dapat melihat mengapa mean adalah minat Anda di sini.

Tim
sumber
Saya sangat menghargai jawaban dan semua komentar di atas! Saya baru saja menambahkan catatan tambahan di posting asli untuk lebih memperjelas masalah ini. Saya harus mengakui bahwa saya tidak begitu akrab dengan pendekatan Bayesian. Jika masalah tersebut dapat dikarakterisasi dengan lebih baik di bawah paradigma Bayesian, mohon uraikan sedikit lebih banyak dengan contoh dataset yang baru saja saya sajikan dalam postscript. Terima kasih!
bluepole
@ bluepole Anda tidak perlu model Bayesian. Model efek campuran tradisional akan bekerja dengan baik. Model Bayesian umumnya lebih fleksibel untuk masalah seperti itu.
Tim
Jadi, untuk dataset contoh yang ditambahkan dalam posting asli saya, apakah Anda berpikir bahwa rata-rata aritmatika masuk akal dalam konteksnya?
bluepole
Satu hal yang salah saji dalam adendum Anda adalah itu ϵsayaj mengikuti N(0,σsayaj2)tidak N(0,σϵ2)dimana σsayaj2dikenal. Jadi, saya tidak melihat bagaimana Andaσϵ2diperkirakan. Dan pertanyaan awal saya tetap ada.
bluepole
Dalam uraian saya, saya hanya menyebutkan satu model dengan asumsi ϵsayajN(0,σsayaj2)dimana σsayaj2dikenal. Bisakah Anda menguraikan sedikit lebih banyak tentang caranyasayaσsayaj2/sayajσsayaj2terkait dengan rumus ICC? Terima kasih!
bluepole