Sepertinya saya tidak dapat menemukan metode umum untuk memperoleh kesalahan standar di mana saja. Saya telah mencari di google, situs web ini dan bahkan di buku teks tetapi yang bisa saya temukan adalah rumus untuk kesalahan standar untuk rata-rata, varians, proporsi, rasio risiko, dll ... dan bukan bagaimana rumus-rumus ini sampai.
Jika ada orang yang bisa menjelaskannya secara sederhana atau bahkan menghubungkan saya dengan sumber yang bagus yang menjelaskannya, saya akan berterima kasih.
standard-error
Daniel Gardiner
sumber
sumber
Jawaban:
Apa yang ingin Anda temukan adalah standar deviasi dari distribusi sampling mean. Yaitu, dalam bahasa Inggris yang sederhana, distribusi sampling adalah ketika Anda memilih item dari populasi Anda, menambahkannya bersama-sama, dan membagi jumlahnya dengan . Kami kemudian menemukan varians dari kuantitas ini dan mendapatkan simpangan baku dengan mengambil akar kuadrat dari variansnya.n n
Jadi, biarkan item yang Anda pilih diwakili oleh variabel acak , masing-masingnya terdistribusi secara identik dengan varians . Mereka disampel secara independen, jadi varians dari penjumlahan hanyalah penjumlahan dari varians.Xi,1≤i≤n σ2
Selanjutnya kita bagi dengan . Kita tahu secara umum bahwa , jadi menempatkan kita milikin Var(kY)=k2Var(Y) k=1/n
Terakhir, ambil akar kuadrat untuk mendapatkan standar deviasi . Ketika deviasi standar populasi tidak tersedia standar deviasi sampel digunakan sebagai perkiraan, memberikan .σn−−√ s sn−−√
Semua hal di atas benar terlepas dari distribusi , tetapi menimbulkan pertanyaan tentang apa yang sebenarnya ingin Anda lakukan dengan kesalahan standar? Biasanya Anda mungkin ingin membuat interval kepercayaan, dan penting untuk menentukan probabilitas untuk membuat interval kepercayaan yang mengandung nilai rata-rata.Xi
Jika Anda normal, ini mudah, karena kemudian distribusi sampel juga terdistribusi normal. Anda dapat mengatakan 68% sampel dari mean akan berada dalam 1 kesalahan standar dari mean sebenarnya, 95% akan berada dalam 2 kesalahan standar, dll.Xi
Jika Anda memiliki sampel yang cukup besar (atau sampel yang lebih kecil dan tidak terlalu abnormal) maka Anda dapat menggunakan teorema limit pusat dan mengatakan bahwa distribusi sampling kira - kira terdistribusi secara normal, dan pernyataan probabilitas Anda juga merupakan perkiraan.Xi
Sebuah kasus di titik adalah memperkirakan proporsi , di mana Anda menggambar item masing-masing dari distribusi Bernouilli. dari setiap distribusi adalah dan karenanya kesalahan standar adalah (proporsi diperkirakan menggunakan data). Untuk kemudian langsung mengatakan bahwa sekitar beberapa% sampel berada dalam begitu banyak standar deviasi rata-rata, Anda perlu memahami kapan distribusi sampling mendekati normal. Pengambilan sampel berulang dari distribusi Bernouilli sama dengan pengambilan sampel dari distribusi Binomial, dan satu aturan umum adalah untuk memperkirakan hanya ketika dan adalahp n Xi p(1−p) p(1−p)/n−−−−−−−−−√ p np n(1−p) ≥5 . (Lihat wikipedia untuk diskusi yang lebih mendalam tentang perkiraan binomial dengan normal. Lihat di sini untuk contoh kerja kesalahan standar dengan proporsi.)
Jika, di sisi lain, distribusi sampel Anda tidak dapat didekati dengan distribusi normal, maka kesalahan standar jauh lebih berguna. Misalnya, dengan distribusi asimetris yang sangat miring, Anda tidak dapat mengatakan bahwa% sampel yang sama akan menjadi standar deviasi di kedua sisi rata-rata, dan Anda mungkin ingin menemukan cara berbeda untuk mengaitkan probabilitas dengan sampel.±1
sumber
Kesalahan standar adalah standar deviasi statistik (di bawah hipotesis nol, jika Anda menguji). Metode umum untuk menemukan kesalahan standar adalah pertama menemukan fungsi distribusi atau momen menghasilkan statistik Anda, menemukan momen pusat kedua, dan mengambil akar kuadrat.
Misalnya, jika Anda mengambil sampel dari distribusi normal dengan mean dan varians , mean sampel terdistribusi normal dengan mean dan varians . Ini dapat diturunkan dari tiga properti:μ σ2 X¯=1n∑ni=1Xi μ σ2/n
Dengan demikian kesalahan standar mean sampel, yang merupakan akar kuadrat dari variansnya, adalah .σ/n−−√
Ada beberapa jalan pintas, seperti Anda tidak perlu menemukan distribusi statistik, tetapi saya pikir secara konseptual berguna untuk memiliki distribusi di belakang pikiran Anda jika Anda mengetahuinya.
sumber