Bagaimana seharusnya seseorang menafsirkan perbandingan rata-rata dari ukuran sampel yang berbeda?

49

Ambil contoh peringkat buku di situs web. Buku A dinilai oleh 10.000 orang dengan peringkat rata - rata 4,25 dan varians . Demikian pula Buku B dinilai oleh 100 orang dan memiliki peringkat 4,5 dengan σ = 0,25 .σ=0.5σ=0.25

Sekarang karena ukuran sampel besar Buku A 'rata-rata stabil' menjadi 4,25. Sekarang untuk 100 orang, mungkin jika lebih banyak orang membaca Buku B peringkat rata-rata bisa turun menjadi 4 atau 4,25.

  • bagaimana seharusnya seseorang menafsirkan perbandingan cara dari sampel yang berbeda dan apa kesimpulan terbaik yang bisa / harus diambil?

Misalnya - dapatkah kita benar-benar mengatakan Buku B lebih baik daripada Buku A.

PhD
sumber
Apakah Anda secara khusus tertarik pada konteks peringkat?
Jeromy Anglim
@JeromyAnglim - Hmmm ... mungkin. Tidak yakin. Itu contoh paling umum. Apa yang ada dalam pikiranmu?
PhD
2
Lihat jawaban saya mengenai sistem peringkat Bayesian di bawah ini. Konteks peringkat yang diterapkan biasanya memiliki ratusan atau ribuan objek yang dinilai, dan tujuannya sering untuk membentuk estimasi terbaik dari peringkat untuk objek tersebut mengingat informasi yang tersedia. Ini sangat berbeda dengan perbandingan dua kelompok sederhana seperti yang mungkin Anda temukan katakan dalam percobaan medis dengan dua kelompok.
Jeromy Anglim

Jawaban:

57

Nn

Untuk memperjelas poin saya tentang kekuatan, berikut ini adalah simulasi yang sangat sederhana yang ditulis untuk R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

N=100n1=50n2=50n1=75n2=25n1=90n2=10. Catat lebih lanjut bahwa proses menghasilkan perbedaan rata-rata / data yang distandarisasi adalah sama dalam semua kasus. Namun, sedangkan tes itu 'signifikan' 70% dari waktu untuk sampel 50-50, kekuatan adalah 56% dengan 75-25 dan hanya 33% ketika ukuran kelompok adalah 90-10.

Saya memikirkan hal ini dengan analogi. Jika Anda ingin mengetahui luas dari sebuah persegi panjang, dan batasnya tetap, maka area tersebut akan dimaksimalkan jika panjang dan lebarnya sama (yaitu, jika persegi panjang itu adalah persegi ). Di sisi lain, karena panjang dan lebar berbeda (karena persegi panjang menjadi memanjang), area tersebut menyusut.

gung - Reinstate Monica
sumber
kekuatan dimaksimalkan ?? Saya tidak yakin saya mengerti. Bisakah Anda memberikan contoh jika memungkinkan?
PhD
5
Alasan uji t dapat menangani ukuran sampel yang tidak sama adalah karena memperhitungkan kesalahan standar estimasi rata-rata untuk setiap kelompok. Itu adalah standar deviasi dari distribusi grup dibagi dengan akar kuadrat dari ukuran sampel grup. Goup dengan ukuran sampel yang jauh lebih besar akan memiliki kesalahan standar yang lebih kecil jika standar deviasi populasi sama atau hampir sama.
Michael Chernick
@ung - Saya tidak yakin saya benar-benar tahu 'bahasa' simulasi mana yang ditulis. Saya menebak 'R'? dan saya masih mencoba menguraikannya :)
PhD
2
Kode untuk R. Saya telah berkomentar untuk membuatnya lebih mudah untuk diikuti. Anda bisa menyalin & menempelkannya ke R dan menjalankannya sendiri, jika Anda punya R; yang set.seed()fungsi akan memastikan Anda mendapatkan output yang identik. Beri tahu saya jika masih terlalu sulit untuk diikuti.
gung - Pasang kembali Monica
8
N=n1+n2n1×n2n1n2
10

Selain jawaban yang disebutkan oleh @gung yang merujuk Anda ke uji-t, sepertinya Anda mungkin tertarik dengan sistem peringkat Bayesian (misalnya, inilah diskusi ). Situs web dapat menggunakan sistem seperti itu untuk memberi peringkat item pesanan yang bervariasi dalam jumlah suara yang diterima. Pada dasarnya, sistem tersebut bekerja dengan menetapkan peringkat yang merupakan gabungan dari nilai rata-rata semua item ditambah rata-rata sampel peringkat untuk objek tertentu. Ketika jumlah peringkat meningkat, bobot yang ditetapkan untuk rata-rata untuk objek meningkat dan bobot yang ditetapkan untuk peringkat rata-rata dari semua item berkurang. Mungkin periksa rata-rata bayesian .

Tentu saja segala sesuatunya dapat menjadi jauh lebih kompleks karena Anda berurusan dengan berbagai masalah seperti penipuan pemberian suara, perubahan seiring waktu, dll.

Jeromy Anglim
sumber
Manis. Tidak pernah mendengar hal tersebut. Saya pasti akan memeriksanya. Mungkin itulah yang saya cari, setelah semua :)
PhD