Saya mencoba memahami ide di balik distribusi-t. Berikut langkah-langkah yang saya pahami sejauh ini:
- Kami menggunakan sampel elemen N untuk memperkirakan rata-rata populasi. Secara lebih rinci, kami menggunakan mean sampel sebagai estimasi rata-rata populasi.
- Kami ingin tahu seberapa dekat estimasi kami dengan nilai sebenarnya. Atau, lebih khusus kita ingin tahu seberapa besar seharusnya interval di sekitar mean sampel sehingga kita dapat mengatakan bahwa mean populasi berada dalam interval ini dengan probabilitas tertentu.
- Untuk menjawab pertanyaan ini, kami mengasumsikan bahwa nilai-nilai dalam populasi didistribusikan menurut distribusi normal dengan rata-rata yang diketahui dan standar deviasi.
- Memiliki parameter distribusi nilai-nilai dalam populasi kita dapat menghitung distribusi mean sampel sebagai fungsi dari distribusi populasi dan ukuran sampel.
- Kita dapat menunjukkan bahwa distribusi rata-rata sampel juga merupakan distribusi normal dengan rata-rata yang sama dengan distribusi populasi dan deviasi standar yang diberikan oleh rumus berikut , di mana adalah ukuran sampel .
- Memiliki distribusi sampel rata-rata, kita dapat dengan mudah menghitung probabilitas bahwa rata-rata sampel dipisahkan dari rata-rata nyata dengan X. Atau, dengan kata lain, kita dapat menghitung probabilitas bahwa rata-rata populasi berada dalam interval tertentu di sekitar rata-rata sampel .
- Itu hampir apa yang kita butuhkan. Satu-satunya masalah adalah bahwa dalam pengaturan kehidupan nyata kita sering tidak tahu standar deviasi dari distribusi populasi (dan ini adalah parameter yang menentukan bagaimana rata-rata sampel kami didistribusikan di sekitar rata-rata populasi).
- Apa yang bisa kita lakukan adalah mengganti deviasi standar populasi dengan sampel deviasi standar. Dengan kata lain kami mengganti parameter yang tepat dan tidak dikenal dengan perkiraan perkiraan kami untuk itu.
Jadi, inilah posisi saya sejauh ini. Dengan mengganti populasi STD dengan sampel STD, kami membuat estimasi distribusi sampel menjadi lebih buruk. Dan untuk "mengkompensasi" nilai "salah" ini dari parameter distribusi, kami mengubah bentuk distribusi (kami mengatakan itu bukan distribusi normal lagi, itu adalah distribusi t). Tetapi apa sebenarnya yang didistribusikan menurut distribusi-t? Ketika kita mengetahui populasi STD, kita tahu bagaimana mean sampel didistribusikan di sekitar mean populasi. Sekarang kita tidak tahu populasi STD, tetapi itu tidak mengubah distribusi mean sampel di sekitar mean populasi!
X_n
), kita berbicara tentang "mean standar". Kita dapat mengatakan bahwa distribusi rata-rata terstandarisasi adalah normal dengan rata-rata nol dan STD sama dengan 1. Tidak, kami mendefinisikan variabel lain dengan mengganti populasi STD dengan sampel STD dan mengatakan bahwa variabel baru ini didistribusikan sesuai dengan t-distribusi. BAIK. Hal terakhir yang saya tidak mengerti adalah mengapa kita tidak mengganti mean populasi dengan mean sampel. Jika kita tidak tahu sigma kita mungkin juga tidak tahu mu.