Bagaimana melakukan uji-t Student yang hanya memiliki ukuran sampel, rata-rata sampel dan rata-rata populasi yang diketahui?

28

Mahasiswa -test membutuhkan deviasi standar sampel . Namun, bagaimana saya menghitung ketika hanya ukuran sampel dan rata-rata sampel yang diketahui?s stss

Misalnya, jika ukuran sampel dan rata-rata sampel 112 , maka saya akan mencoba membuat daftar 49 sampel identik dengan nilai masing-masing 112 . Diharapkan, standar deviasi sampel adalah 0 . Ini akan menciptakan masalah bagi-oleh-nol dalam uji t .49112491120t

DATA TAMBAHAN:
Penghasilan rata-rata pekerja Pabrik ACME Utara adalah . Dilaporkan bahwa sampel acak dari 49 pekerja di ACME South Factory memiliki pendapatan tahunan $ 112 . Apakah perbedaan ini signifikan secara statistik?$20049$112

Apakah saya benar mengatakan bahwa rata-rata populasi adalah ?$200

Kit
sumber
Masalah apa yang sedang ingin kamu selesaikan? Ini akan membantu kami membantu Anda jika Anda memberi tahu kami lebih banyak.
pmgjones
Yakin. Saya menambahkan masalah sampel.
Kit

Jawaban:

32

Ini mungkin mengejutkan banyak orang, tetapi untuk memecahkan masalah ini Anda tidak perlu untuk estimasi s . Bahkan, Anda tidak perlu tahu apa - apa tentang penyebaran data (walaupun tentu saja itu akan membantu) Misalnya, Wall, Boen, dan Tweedie dalam artikel 2001 menjelaskan bagaimana menemukan interval kepercayaan yang terbatas untuk rata-rata setiap distribusi unimodal berdasarkan pada undian tunggal .

Dalam kasus ini, kami memiliki beberapa dasar untuk melihat rerata sampel 112 sebagai penarikan dari distribusi yang mendekati normal (yaitu, distribusi sampling dari rata-rata sampel acak sederhana yang terdiri dari 49 gaji). Kami secara implisit berasumsi bahwa ada sejumlah besar pekerja pabrik dan bahwa distribusi gaji mereka tidak begitu miring atau multimodal untuk membuat teorema limit pusat tidak dapat dioperasikan. Kemudian 90% CI konservatif untuk rata-rata meluas ke atas

112+5.84 |112|,

jelas menutupi rata-rata sebenarnya dari 200. (Lihat rumus Wall dkk 3.) Mengingat informasi yang tersedia terbatas dan asumsi yang dibuat di sini, oleh karena itu kami tidak dapat menyimpulkan bahwa 112 berbeda "secara signifikan" dari 200.

Referensi: "Interval Keyakinan Efektif untuk Mean Dengan Sampel Ukuran Satu dan Dua." The American Statistician, Mei 2001, Vol. 55, No. 2: hlm. 102-105. ( pdf )

whuber
sumber
4
Ya itu! Itu sebabnya perlu dipelajari: tantangan untuk intuisi kita sangat mendidik. Saya pertama kali mengetahui hal ini dari sebuah makalah yang jelas pada halaman Web Carlos Rodriguez (SUNY Albany) tetapi saya tidak dapat menemukannya pagi ini: sepertinya server sedang down. Coba Google "statistik carlos rogriguez" nanti. (Makalahnya seharusnya di omega.albany.edu/8008/confint.html , tapi ini mungkin URL yang lama.)
whuber
4
Luar biasa. Saya tidak tahu itu. Terima kasih untuk referensi.
Rob Hyndman
4
Terima kasih - ada kemungkinan ini adalah kertas Rodriguez yang Anda pikirkan? arxiv.org/abs/bayes-an/9504001
ars
2
Ini bagus. Namun, saya ingin tahu mengapa Anda menerapkan rumus (3) (yang berasal dari Edelman), yang dijelaskan Wall dkk sebagai "lebih luas dari yang diperlukan". Menjelang akhir paragraf segera sebelum menyebutkan (3) mereka menggunakan 4,84 (tepat 1 lebih kecil dari 5,84) untuk interval 90%, yang berasal dari persamaan mereka (4). Tidak diragukan lagi saya melewatkan sesuatu.
Glen_b -Reinstate Monica
2
@ Glen_b Sebaliknya, kemungkinan besar saya melewatkan sesuatu. Saya akan memperhatikan bahwa lain kali saya membutuhkan makalah ini, tetapi sementara itu perbedaan konstanta tidak mempengaruhi analisis di sini.
Whuber
13

Ini memang terlihat menjadi pertanyaan yang sedikit dibuat-buat. 49 adalah kuadrat persis 7. Nilai t-distribusi dengan 48 DoF untuk uji dua sisi p <0,05 sangat hampir 2 (2,01).

Kami menolak hipotesis nol tentang persamaan berarti jika | sample_mean - popn_mean | > 2 * StdError, yaitu 200-112> 2 * SE jadi SE <44, yaitu SD <7 * 44 = 308.

Tidak mungkin mendapatkan distribusi normal dengan rata-rata 112 dengan standar deviasi 308 (atau lebih) tanpa upah negatif.

Mengingat upah dibatasi di bawah ini, mereka cenderung condong, sehingga dengan asumsi distribusi log-normal akan lebih tepat, tetapi masih membutuhkan upah yang sangat bervariasi untuk menghindari p <0,05 pada uji-t.

Thylacoleo
sumber
3

μ=0,999112+0,00188112=200.49/1000<0,05sampel rata-rata akan menjadi 112. Faktanya, dengan menyesuaikan rasio pekerja / CEO, dan gaji CEO, kita dapat membuatnya secara sewenang-wenang bahwa sampel 49 karyawan akan menarik seorang CEO, sementara menetapkan rata-rata populasi pada 200, dan sampel berarti pada 112. Dengan demikian, tanpa membuat beberapa asumsi tentang distribusi yang mendasarinya, Anda tidak dapat menarik kesimpulan tentang rata-rata populasi.

shabbychef
sumber
2
$
1
(1) tangkapan yang bagus. (2), ya, saya bisa membuat masalah setup asimptotik menyimpang untuk hasil yang diperbaiki, post hoc . salahku. Namun, saya tidak lagi yakin apa yang coba diuji oleh OP. Jika mereka tahu rata-rata populasi adalah 200, mengapa mereka mencoba mengujinya?
shabbychef
1
BTW, ternyata gaji CEO / rasio gaji yang paling tidak dibayar sebesar 400 tidak dianggap ekstrem di AS. 800 sedikit tidak tepat.
shabbychef
2

Saya kira Anda mengacu pada uji t satu sampel. Tujuannya adalah membandingkan rerata sampel Anda dengan rerata hipotetis. Kemudian menghitung (dengan asumsi populasi Anda adalah Gaussian) nilai P yang menjawab pertanyaan ini: Jika mean populasi benar-benar nilai hipotetis, seberapa kecil kemungkinannya untuk mengambil sampel yang rerata jauh dari nilai itu (atau lebih jauh) daripada kamu mengamati? Tentu saja, jawaban untuk pertanyaan itu tergantung pada ukuran sampel. Tetapi itu juga tergantung pada variabilitas. Jika data Anda memiliki jumlah besar sebaran, mereka konsisten dengan berbagai sarana populasi. Jika data Anda benar-benar ketat, mereka konsisten dengan kisaran populasi yang lebih kecil.

Harvey Motulsky
sumber