Metode umum untuk menurunkan kesalahan standar

11

Sepertinya saya tidak dapat menemukan metode umum untuk memperoleh kesalahan standar di mana saja. Saya telah mencari di google, situs web ini dan bahkan di buku teks tetapi yang bisa saya temukan adalah rumus untuk kesalahan standar untuk rata-rata, varians, proporsi, rasio risiko, dll ... dan bukan bagaimana rumus-rumus ini sampai.

Jika ada orang yang bisa menjelaskannya secara sederhana atau bahkan menghubungkan saya dengan sumber yang bagus yang menjelaskannya, saya akan berterima kasih.

Daniel Gardiner
sumber
2
Saya memberikan model sederhana secara umum dan menerapkannya, dengan semua detail dikerjakan, dalam posting di stats.stackexchange.com/a/18609/919 . Ini dan banyak pos lainnya tentang kesalahan standar (hampir seribu sampai saat ini) dapat ditemukan dengan mencari situs kami untuk "kesalahan standar"
whuber

Jawaban:

22

Apa yang ingin Anda temukan adalah standar deviasi dari distribusi sampling mean. Yaitu, dalam bahasa Inggris yang sederhana, distribusi sampling adalah ketika Anda memilih item dari populasi Anda, menambahkannya bersama-sama, dan membagi jumlahnya dengan . Kami kemudian menemukan varians dari kuantitas ini dan mendapatkan simpangan baku dengan mengambil akar kuadrat dari variansnya.nn

Jadi, biarkan item yang Anda pilih diwakili oleh variabel acak , masing-masingnya terdistribusi secara identik dengan varians . Mereka disampel secara independen, jadi varians dari penjumlahan hanyalah penjumlahan dari varians. Xi,1inσ2

Var(i=1nXi)=i=1nVar(Xi)=i=1nσ2=nσ2

Selanjutnya kita bagi dengan . Kita tahu secara umum bahwa , jadi menempatkan kita milikinVar(kY)=k2Var(Y)k=1/n

Var(i=1nXin)=1n2Var(i=1nXi)=1n2nσ2=σ2n

Terakhir, ambil akar kuadrat untuk mendapatkan standar deviasi . Ketika deviasi standar populasi tidak tersedia standar deviasi sampel digunakan sebagai perkiraan, memberikan .σnssn

Semua hal di atas benar terlepas dari distribusi , tetapi menimbulkan pertanyaan tentang apa yang sebenarnya ingin Anda lakukan dengan kesalahan standar? Biasanya Anda mungkin ingin membuat interval kepercayaan, dan penting untuk menentukan probabilitas untuk membuat interval kepercayaan yang mengandung nilai rata-rata.Xi

Jika Anda normal, ini mudah, karena kemudian distribusi sampel juga terdistribusi normal. Anda dapat mengatakan 68% sampel dari mean akan berada dalam 1 kesalahan standar dari mean sebenarnya, 95% akan berada dalam 2 kesalahan standar, dll.Xi

Jika Anda memiliki sampel yang cukup besar (atau sampel yang lebih kecil dan tidak terlalu abnormal) maka Anda dapat menggunakan teorema limit pusat dan mengatakan bahwa distribusi sampling kira - kira terdistribusi secara normal, dan pernyataan probabilitas Anda juga merupakan perkiraan.Xi

Sebuah kasus di titik adalah memperkirakan proporsi , di mana Anda menggambar item masing-masing dari distribusi Bernouilli. dari setiap distribusi adalah dan karenanya kesalahan standar adalah (proporsi diperkirakan menggunakan data). Untuk kemudian langsung mengatakan bahwa sekitar beberapa% sampel berada dalam begitu banyak standar deviasi rata-rata, Anda perlu memahami kapan distribusi sampling mendekati normal. Pengambilan sampel berulang dari distribusi Bernouilli sama dengan pengambilan sampel dari distribusi Binomial, dan satu aturan umum adalah untuk memperkirakan hanya ketika dan adalahpnXip(1p)p(1p)/npnpn(1p)5. (Lihat wikipedia untuk diskusi yang lebih mendalam tentang perkiraan binomial dengan normal. Lihat di sini untuk contoh kerja kesalahan standar dengan proporsi.)

Jika, di sisi lain, distribusi sampel Anda tidak dapat didekati dengan distribusi normal, maka kesalahan standar jauh lebih berguna. Misalnya, dengan distribusi asimetris yang sangat miring, Anda tidak dapat mengatakan bahwa% sampel yang sama akan menjadi standar deviasi di kedua sisi rata-rata, dan Anda mungkin ingin menemukan cara berbeda untuk mengaitkan probabilitas dengan sampel.±1

TooTone
sumber
Terima kasih, pendekatan ini masuk akal dan saya bisa melihat bagaimana itu berlaku untuk rata-rata tetapi saya tidak bisa melihat bagaimana meluaskannya ke statistik lain. Misalnya, bagaimana saya menemukan kesalahan standar suatu rate? atau rasio suku bunga?
Daniel Gardiner
Saya telah memperbarui posting saya. Poin kuncinya adalah bahwa jumlah seperti mean, varians, dll - dan karenanya stderr - dapat ditemukan untuk distribusi apa pun . Tetapi untuk membuat pernyataan probabilitas Anda perlu tahu sesuatu tentang distribusi, baik itu normal, binomial atau apa pun. Jadi stderr selalu dapat ditemukan, tetapi seberapa bermanfaat itu tergantung pada situasinya.
TooTone
jika n diperbaiki, dan hanya mewakili sebagian kecil dari seluruh populasi Anda mengapa Anda menulis ? dan bukanvar(Xi)=σ2s2
Oleg
1
@Oleg adalah variabel acak dan memiliki varian, bahkan jika Anda tidak tahu apa itu. Tidak tepat untuk menuliskan varians ( ) = , karena adalah estimasi varians, yang hampir pasti bukan varians populasi. Lebih mudah untuk menggunakan varians, meskipun mereka biasanya tidak diketahui, untuk mendapatkan varians dari jumlah sampel, atau rata-rata sampel, karena Anda menggunakan aturan probabilitas langsung. Anda hanya menggunakan linearitas, yaitu varians dari jumlah = jumlah varians. Setelah Anda mendapatkan varians, Anda "ingat" Anda tidak tahu varians ( ) sehingga Anda menggunakanXiXis2s2Xis2
TooTone
4

Kesalahan standar adalah standar deviasi statistik (di bawah hipotesis nol, jika Anda menguji). Metode umum untuk menemukan kesalahan standar adalah pertama menemukan fungsi distribusi atau momen menghasilkan statistik Anda, menemukan momen pusat kedua, dan mengambil akar kuadrat.

Misalnya, jika Anda mengambil sampel dari distribusi normal dengan mean dan varians , mean sampel terdistribusi normal dengan mean dan varians . Ini dapat diturunkan dari tiga properti:μσ2X¯=1ni=1nXiμσ2/n

  1. Jumlah variabel acak independen adalah normal,
  2. E[i=1naiXi]=i=1naiE[Xi] ,
  3. Jika dan independen, .X1X2Var(a1X1+a2X2)=a12Var(X1)+a22Var(X2)

Dengan demikian kesalahan standar mean sampel, yang merupakan akar kuadrat dari variansnya, adalah .σ/n

Ada beberapa jalan pintas, seperti Anda tidak perlu menemukan distribusi statistik, tetapi saya pikir secara konseptual berguna untuk memiliki distribusi di belakang pikiran Anda jika Anda mengetahuinya.

P Schnell
sumber