Apakah distribusi pengambilan sampel untuk sampel kecil dari populasi normal normal atau terdistribusi? [Tutup]

8

Jika saya tahu bahwa populasi terdistribusi secara normal, dan kemudian mengambil sampel kecil dari populasi ini, apakah lebih tepat untuk mengklaim bahwa distribusi samplingnya normal atau malah mengikuti distribusi t ?

Saya mengerti bahwa sampel kecil cenderung didistribusikan, tetapi apakah ini hanya berlaku ketika distribusi populasi yang mendasarinya tidak diketahui?

Terima kasih!

stattheory
sumber
Saya pikir (tapi saya tidak yakin itu) tag t-distribusi wiki mungkin sudah menjawab ini ...
Nick Stauner
7
Distribusi sampling dari statistik apa?
Glen_b -Reinstate Monica
stattheory - jika Anda ingin pertanyaan Anda dibuka kembali (yang akan memungkinkan jawaban tambahan), Anda harus mengedit pertanyaan Anda untuk membuatnya lebih jelas, misalnya dengan mengatasi masalah yang muncul dalam komentar.
Glen_b -Reinstate Monica

Jawaban:

9

1) satu set pengamatan acak dari populasi dengan distribusi Fadalah sampel dari distribusi itu. Jadi, bahkan nilai tunggal yang diambil sampel dari populasi normal terdistribusi secara normal. (Yah, berbicara sedikit lebih ketat, variabel acak yang mewakili undian tunggal adalah hal yang biasanya didistribusikan.)

2) Jika pengamatan independen diambil dari distribusi normal, berarti sampel normal. (Jika mereka tergantung, itu penting apa struktur ketergantungan itu.)

3) Berikut adalah sesuatu yang akan didistribusikan-t, jika datanya diambil dari populasi normal: t-statistik. (Kami mendapatkan sesuatu selain dari normal karena ada pembilang dan penyebut)

Saya mengerti bahwa sampel kecil cenderung didistribusikan

Ini adalah pemahaman yang salah. Atas dasar apa pengertian ini?

[Ini sepertinya kesalahpahaman yang umum sehingga saya hanya bisa berasumsi itu ada di buku populer atau yang pernah populer di suatu tempat. Jika Anda menemukan buku seperti itu, poskan detail di pertanyaan Anda atau di komentar, karena saya ingin tahu dari mana asalnya.]

Glen_b -Reinstate Monica
sumber
@petrelharp dapatkah Anda menunjuk ke tempat yang mengatakan bahwa sampel kecil didistribusikan-t? Saya pasti melewatkannya pada pemindaian cepat.
Glen_b -Reinstate Monica
Mungkin tidak umum, diagram alir pada halaman itu, hit google teratas, memiliki "ukuran sampel kurang dari 30" yang mengarah ke "gunakan skor t", yang saya yakini dimaksudkan sebagai "gunakan distribusi t". Tetapi, selain salah, halaman itu tidak benar-benar mengatakan apa artinya.
petrelharp
Itu menyiratkan bahwa t-statistik yang dihitung pada sampel kecil akan memiliki t-distribusi, bukan bahwa sampel itu sendiri akan memiliki t-distribusi.
Glen_b -Reinstate Monica
Bukan seperti yang saya bayangkan siswa menafsirkannya ... tapi itu sudah cukup salah dengan cara lain.
petrelharp
6

Jika Anda bermaksud mengambil nilai dari populasi yang terdistribusi normal, nilai itu memiliki fungsi kepadatan probabilitas yang sama dengan populasi. Jadi undian sajaxi dari suatu populasi XN(μ,σ2) akan diambil dari distribusi populasi yang sama N(μ,σ2)

Jadi itu berarti sampel kecil masih didistribusikan Normal, kan? Ya, tentu saja, bahwa jika setiap undian berasal dari distribusi Normal, itu sendiri akan memiliki distribusi Normal (sebelum kita benar-benar mengambil undian, setidaknya).

Sepertinya Anda bertanya tentang x¯, karena kita berbicara tentang sampel, distribusi t, dan sejenisnya. x¯ bukan masih Normal untuk sampel kecil, meskipun karena setiap pengamatan ximemiliki distribusi normal. Mengapa? Karena itu hanya jumlah variabel acak normal lainnya!

Glen_b membuat tangkapan yang bagus di tempat saya bergabung x¯ dan t-statistik. Penting untuk dicatat bahwa sementarax¯ masih Normal untuk ukuran sampel apa pun (jika populasi sampelnya adalah Normal), tstatistik yang dibangun dari sampel Normal bukan Normal untuk ukuran sampel kecil. Mengapa?

Kami punya dua kasus berbeda di sini. Ada kemungkinan bahwa distribusi sudah diketahui, dalam hal ini kita tahu nilai sebenarnya dariσ2. Mungkin juga ituσ2 tidak diketahui, dalam hal ini kita harus memperkirakannya.

1: Kami tahu σ2. Ini berarti kita dapat menggunakan az statistik dihitung langsung dari parameter populasi σ2.

Jika kita yakin tentang nilai sebenarnya dari σ2, maka kita dapat melakukan mis pengujian hipotesis pada x¯ menggunakan distribusi N(μ,σ2n). Secara khusus, kita dapat membakukannya, mengubahnya menjadi nilaiZ, untuk distribusi yang mana N(0,1) Dan jika kita tahu nilainya σ2, maka kita cukup menggunakan distribusi Normal Normal untuk perhitungan kita. Normal, tidak peduli seberapa besar atau kecil sampel kami!

2: Kami tidak tahu σ2, dan kami memperkirakannya dengan s2.

Jika kita tidak tahu σ2, maka kita perlu mengganti nilai yang dihitung dari penduga dengan nilai populasi sebenarnya. Biasanya, itu akan terjadis2, varians sampel. Tetapi varians sampel memiliki distribusinya sendiri juga! Jadi kita sebenarnya tidak yakin tentang nilainya. Dan jika ukuran sampel kami kecil, maka 'varians dari sampel varians' cukup signifikan untuk mempengaruhi carax¯didistribusikan. Jadi ketika kita melakukan standarisasix¯, itu tidak terdistribusi secara normal lagi, meskipun semuanya xi yang masuk ke penghitungan itu didistribusikan Normal.

Untuk informasi lebih lanjut, baca tentang definisi distribusi-t , dan distribusi varian sampel .

Mat
sumber
Ini adalah jawaban yang sangat bagus yang menjelaskan banyak hal tentang sampel kecil versus besar.
Subhash C. Davar
Matt, jika data independen normal, x¯ adalah (terbukti) normal, sampai ken=1 dan n=2, apakah varians diketahui oleh kami atau tidak. Apakah ada dasar untuk pernyataan Anda?
Glen_b -Reinstate Monica
Memang, ada beberapa bukti bahwa distribusi jumlah dua rv normal independen adalah normal di sini ; bahwa rata-rata juga harus normal kemudian langsung.
Glen_b -Reinstate Monica
Ups! Saya membuat kesalahan, bersatux¯dan statistik t. Tangkapan yang bagus - Anda sangat benar.
Matt
Saya pikir saya sudah memperbaikinya. tx¯hm
Matt