Kesalahan standar untuk rata-rata sampel variabel acak binomial

44

Misalkan saya menjalankan percobaan yang dapat memiliki 2 hasil, dan saya berasumsi bahwa distribusi "benar" yang mendasari dari 2 hasil adalah distribusi binomial dengan parameter dan : .npBinomial(n,p)

Saya dapat menghitung kesalahan standar, , dari bentuk varian dari : mana . Jadi, . Untuk kesalahan standar yang saya dapatkan: , tapi saya pernah melihat bahwa . Apa kesalahan yang telah aku perbuat?SEX=σXnBinomial(n,p)

σX2=npq
q=1pσX=npqSEX=pqSEX=pqn
jujur
sumber
Artikel ini sangat membantu untuk memahami kesalahan standar dari mean influentialpoints.com/Training/...
Sanghyun Lee
Dari googling saya, tampak bahwa subjek yang terkait erat mendapatkan interval kepercayaan untuk distribusi binomial agak bernuansa dan rumit. Secara khusus, sepertinya interval kepercayaan yang diperoleh dari rumus ini, yang akan menjadi "Interval Wald" (lihat en.wikipedia.org/wiki/Binomial_proportion_confidence_interval ), agak berperilaku buruk dan harus dihindari. Lihat jstor.org/stable/2676784?seq=1#metadata_info_tab_contents untuk info lebih lanjut.
aquirdturtle

Jawaban:

58

Sepertinya Anda menggunakan dua kali dalam dua cara yang berbeda - baik sebagai ukuran sampel dan sebagai jumlah uji coba bernoulli yang terdiri dari variabel acak Binomial; untuk menghilangkan ambiguitas, saya akan menggunakan untuk merujuk pada yang terakhir.nk

Jika Anda memiliki sampel independen dari distribusi , varians dari mean sampelnya adalahnBinomial(k,p)

var(1ni=1nXi)=1n2i=1nvar(Xi)=nvar(Xi)n2=var(Xi)n=kpqn

di mana dan adalah rata-rata yang sama. Ini mengikuti sejakq=1pX¯

(1) , untuk variabel acak apa pun, , dan konstanta apa pun .var(cX)=c2var(X)Xc

(2) varians dari jumlah variabel acak independen sama dengan jumlah varians .

Kesalahan standar adalah akar kuadrat dari varians: . Karena itu,X¯kpqn

  • Ketika , Anda mendapatkan rumus yang Anda tunjukkan:k=npq

  • Ketika , dan variabel Binomial hanyalah uji coba bernoulli , Anda mendapatkan rumus yang Anda lihat di tempat lain:k=1pqn

Makro
sumber
3
Ketika adalah variabel acak bernoulli , maka . Ketika memiliki variabel acak binomial berdasarkan pada percobaan dengan probabilitas keberhasilan , makav a r ( X ) = p q X n p v a r ( X ) = n p qXvar(X)=pqXnpvar(X)=npq
Makro
2
Terima kasih! Anda mengangkat kebingungan saya. Maaf itu sangat dasar, saya masih belajar :-)
Frank
6
Jadi, apakah jelas bagi Frank bahwa kita menggunakan fakta bahwa untuk konstanta c Var (cX) = c Var (x)? Karena estimasi sampel proporsinya adalah X / n kita memiliki Var (X / n) = Var (X) / n = npq / n = pq / n dan SEx adalah akar kuadrat dari itu. Saya pikir itu lebih jelas untuk semua orang jika kita menguraikan semua langkah. 2 2222
Michael Chernick
1
@MichaelChernick, saya sudah menjelaskan detail yang Anda sebutkan. Berdasarkan uraian masalah, saya menduga bahwa Frank mengetahui fakta-fakta ini, tetapi Anda benar bahwa akan lebih mendidik bagi pembaca di masa depan untuk memasukkan rinciannya.
Makro
2
Sol Lago - Dalam hal ini k = 1. Jika Anda membalik koin 50 kali dan menghitung jumlah keberhasilan dan kemudian mengulangi percobaan 50 kali, maka k = n = 50.
Balik
9

Sangat mudah untuk membuat dua distribusi binomial bingung:

  • distribusi jumlah keberhasilan
  • distribusi proporsi keberhasilan

npq adalah jumlah keberhasilan, sedangkan npq / n = pq adalah rasio keberhasilan. Ini menghasilkan formula kesalahan standar yang berbeda.

Vlad
sumber
6

Kita dapat melihat ini dengan cara berikut:

Misalkan kita sedang melakukan percobaan di mana kita perlu melemparkan koin yang tidak bias kali. Hasil keseluruhan dari percobaan adalah yang merupakan penjumlahan dari lemparan individu (katakanlah, kepala 1 dan ekor 0). Jadi, untuk percobaan ini, , di mana adalah hasil dari lemparan individu.Y Y = n i = 1 X i X inYY=i=1nXiXi

Di sini, hasil dari setiap lemparan, , mengikuti distribusi Bernoulli dan hasil keseluruhan mengikuti distribusi binomial. YXiY

Eksperimen lengkap dapat dianggap sebagai sampel tunggal. Jadi, jika kita mengulangi eksperimen, kita bisa mendapatkan nilai , yang akan membentuk sampel lain. Semua nilai mungkin merupakan populasi lengkap.YYY

Kembali ke lemparan koin tunggal, yang mengikuti distribusi Bernoulli, varians diberikan oleh , di mana adalah probabilitas head (sukses) dan .ppqpq=1p

Sekarang, jika kita melihat Varians , . Tetapi, untuk semua eksperimen Bernoulli individual, . Karena ada lemparan atau percobaan Bernoulli dalam percobaan, . Ini menyiratkan bahwa memiliki varian .YV(Y)=V(Xi)=V(Xi)V(Xi)=pqnV(Y)=V(Xi)=npqYnpq

Sekarang, proporsi sampel diberikan oleh , yang memberikan 'proporsi keberhasilan atau kepala'. Di sini, adalah konstan karena kami berencana untuk mengambil tidak ada lemparan koin yang sama untuk semua percobaan dalam populasi.p^=Ynn

Jadi, .V(Yn)=(1n2)V(Y)=(1n2)(npq)=pq/n

Jadi, kesalahan standar untuk (statistik sampel) adalahp^pq/n

Tarashankar
sumber
Anda dapat menggunakan pengaturan huruf Lateks dengan menempatkan dolar di sekitar matematika Anda, misalnya $x$memberi . x
Silverfish,
Perhatikan bahwa langkah benar-benar layak mendapatkan pembenaran! V(Xi)=V(Xi)
Silverfish,
Ada kesalahan ketik pada deduksi terakhir, V (Y / n) = (1 / n ^ 2) * V (Y) = (1 / n ^ 2) * npq = pq / n harus merupakan deduksi yang benar.
Tarashankar
Permintaan maaf, saya perkenalkan saat melakukan penyusunan huruf. Semoga disortir sekarang.
Silverfish
1
Itu benar jika tidak berkorelasi - untuk membenarkan ini, kami menggunakan fakta bahwa uji coba dianggap independen. Xi
Silverfish,
2

Saya pikir ada juga beberapa kebingungan dalam posting awal antara kesalahan standar dan standar deviasi. Deviasi standar adalah sqrt dari varian distribusi; standard error adalah standar deviasi dari estimasi rata-rata sampel dari distribusi itu, yaitu penyebaran cara yang akan Anda amati jika Anda melakukan sampel itu berkali-kali. Yang pertama adalah properti intrinsik dari distribusi; yang terakhir adalah ukuran kualitas estimasi properti Anda (rata-rata) dari distribusi. Ketika Anda melakukan percobaan uji coba N Bernouilli untuk memperkirakan probabilitas keberhasilan yang tidak diketahui, ketidakpastian estimasi Anda p = k / N setelah melihat k kesuksesan adalah kesalahan standar dari estimasi proporsi, sqrt (pq / N) di mana q = 1 p Distribusi yang benar dicirikan oleh parameter P, probabilitas keberhasilan yang sebenarnya.

Stan
sumber