Apakah ada ukuran sampel minimum yang diperlukan agar uji-t valid?

71

Saat ini saya sedang mengerjakan makalah penelitian eksperimental semu. Saya hanya memiliki ukuran sampel 15 karena populasi rendah di daerah yang dipilih dan hanya 15 yang sesuai dengan kriteria saya. Apakah 15 ukuran sampel minimum untuk menghitung uji-t dan uji-F? Jika demikian, di mana saya bisa mendapatkan artikel atau buku untuk mendukung ukuran sampel kecil ini?

Makalah ini sudah dipertahankan Senin lalu dan salah satu panel meminta referensi pendukung karena ukuran sampel saya terlalu rendah. Dia mengatakan, seharusnya sudah setidaknya 40 responden.

Czarina Francoise
sumber
4
Ukuran sampel bisa jauh lebih kecil dari 15 jika asumsi berlaku. Apakah validitas distribusi-t satu-satunya alasan ia menyarankan sampel yang lebih besar?
Glen_b
Hanya untuk memperjelas, jenis uji-apa yang Anda lakukan: satu sampel, sampel berpasangan, atau dua sampel.
Jeromy Anglim
26
Secara historis, demonstrasi pertama dari uji-t (dalam makalah "Siswa" tahun 1908) adalah dalam aplikasi untuk sampel ukuran ukuran empat . Memang, memperoleh hasil yang ditingkatkan untuk sampel kecil adalah klaim uji ketenaran: begitu ukuran sampel mencapai 40 atau lebih, uji-t tidak jauh berbeda dari uji-z yang telah diterapkan para peneliti sepanjang abad ke-19. Anda dapat membagikan versi modern dari makalah ini dengan anggota panel: york.ac.uk/depts/maths/histstat/student.pdf . Tunjukkan penyelidikan dalam Bagian VI, hal 14-18.
Whuber
10
Tetapi Anda harus merenungkan fakta bahwa ukuran sampel kecil seperti 4 berfungsi karena Siswa memiliki data berkualitas tinggi: data laboratorium kimia, eksperimen, bukan eksperimen semu. Masalah utama Anda bukan dengan ukuran sampel tetapi dengan representativitas: Bagaimana Anda tahu bahwa data Anda mewakili apa pun?
kjetil b halvorsen
10
@CzarinaFrancoise Mengapa kita membatasi diri kita sendiri sains <10 tahun?
RioRaider

Jawaban:

56

Tidak ada ukuran sampel minimum untuk uji t yang valid. Validitas mensyaratkan bahwa asumsi untuk statistik uji bertahan sekitar. Asumsi-asumsi tersebut dalam satu kasus sampel bahwa data adalah normal (atau mendekati normal) dengan rata-rata 0 di bawah hipotesis nol dan varian yang tidak diketahui tetapi diperkirakan dari sampel. Dalam dua kasus sampel itu adalah bahwa kedua sampel independen satu sama lain dan masing-masing sampel terdiri dari variabel normal iid dengan dua sampel memiliki rata-rata yang sama dan varians yang tidak diketahui umum di bawah hipotesis nol. Perkiraan varians yang dikumpulkan digunakan untuk statistik.

Dalam satu kasus sampel distribusi di bawah hipotesis nol adalah t pusat dengan n-1 derajat kebebasan. Dalam dua kasus sampel dengan ukuran sampel n dan m tidak harus sama dengan distribusi nol dari statistik uji t dengan n + m-2 derajat kebebasan. Peningkatan variabilitas karena ukuran sampel yang rendah diperhitungkan dalam distribusi yang memiliki ekor lebih berat ketika derajat kebebasan rendah yang sesuai dengan ukuran sampel yang rendah. Jadi nilai kritis dapat ditemukan untuk statistik uji memiliki tingkat signifikansi yang diberikan untuk ukuran sampel apa pun (well, setidaknya ukuran 2 atau lebih besar).

Masalah dengan ukuran sampel yang rendah berkaitan dengan kekuatan tes. Peninjau mungkin merasa bahwa 15 per kelompok bukanlah ukuran sampel yang cukup besar untuk memiliki kekuatan tinggi dalam mendeteksi perbedaan yang berarti katakanlah delta antara dua cara atau rata-rata lebih besar dari delta dalam nilai absolut untuk satu masalah sampel. Membutuhkan 40 akan membutuhkan spesifikasi kekuatan tertentu pada delta tertentu yang akan dicapai dengan n sama dengan 40 tetapi tidak lebih rendah dari 40.

Saya harus menambahkan bahwa untuk uji t yang akan dilakukan sampel harus cukup besar untuk memperkirakan varians atau varians Anda.

Michael Chernick
sumber
2
Tetapi catatan penting adalah bahwa tes ini valid, bahkan jika data tidak mendekati normal, jika ukuran sampel cukup besar. Pembenarannya sedikit bulat (teorema Slutsky + t distribusi mendekati normal) dan pembenaran untuk penggunaan lebih dari uji-z hanya karena lebih konservatif dalam sampel yang lebih kecil. Tetapi ini adalah catatan penting bahwa jika kita mencurigai ketidaknormalan, sampel besar dapat menyelamatkan kita!
Cliff AB
1
@CliffAB Dengan "valid" Saya berasumsi maksud Anda "memiliki kira-kira tingkat signifikansi yang tepat, dalam batas sebagai n \ hingga \ infty". Tetapi umumnya orang lebih peduli daripada tingkat kesalahan tipe I (terutama ketika itu mungkin hanya cukup dekat pada sampel yang mungkin lebih besar dari ukuran sampel apa pun yang diberikan). Efisiensi relatif asimptotik mungkin memang sangat buruk, sehingga daya terhadap efek kecil dalam sampel besar mungkin sangat buruk dibandingkan dengan pilihan alternatif, bahkan ketika tingkat kesalahan tipe I menjadi seperti yang seharusnya ..
Glen_b
33

Dengan segala hormat kepadanya, dia tidak tahu apa yang dia bicarakan. Uji-t dirancang untuk bekerja dengan sampel kecil. Sebenarnya tidak ada yang minimum (mungkin Anda bisa mengatakan minimal 3 untuk satu-sampel t-test, IDK), tetapi Anda memiliki kekhawatiran mengenai kekuatan yang memadai dengan sampel kecil. Anda mungkin tertarik untuk membaca tentang ide-ide di balik analisis daya kompromi ketika ukuran sampel yang mungkin sangat terbatas, seperti dalam kasus Anda.

Adapun referensi yang membuktikan Anda dapat menggunakan uji-t dengan sampel kecil, saya tidak tahu satu, dan saya ragu itu ada. Mengapa ada orang yang mencoba membuktikan itu? Idenya konyol.

gung - Reinstate Monica
sumber
6
+1 (untuk Anda dan Michael). Yang menarik, Anda bahkan tidak perlu dua pengamatan untuk membuat kesimpulan jika mau membuat serangkaian asumsi!
Andy W
4
Alasan untuk uji t dalam sampel kecil adalah bahwa bahkan ketika sampel normal jika standar deviasi tidak diketahui, hal yang biasa dilakukan adalah menormalkan dengan membagi dengan perkiraan sampel standar deviasi. Dalam sampel besar yang diperkirakan akan cukup dekat dengan standar deviasi populasi sehingga statistik uji akan mendekati standar normal tetapi dalam sampel kecil akan memiliki ekor lebih berat daripada normal.
Michael Chernick
5
Distribusi t dengan n-1 derajat kebebasan adalah distribusi yang tepat untuk setiap ukuran sampel n di bawah hipotesis nol dan dalam sampel kecil itu perlu digunakan di tempat normal yang tidak mendekati dengan baik. Masalah sebenarnya dengan ukuran sampel seperti gung dan saya nyatakan adalah kekuatan. Jika Anda ingin berdebat dengan wasit bahwa 15 sudah cukup, Anda perlu mengidentifikasi seberapa besar perbedaan yang diperlukan untuk disebut bermakna (delta yang saya sebutkan) dan kemudian untuk delta itu Anda perlu menunjukkan bahwa kekuatannya memadai katakanlah 0,80 atau lebih tinggi .
Michael Chernick
2
@CzarinaFrancoise Tentang n> = 30, lihat stats.stackexchange.com/questions/2541/…
Stéphane Laurent
2
Kertas @gung Student asli (1908!) membuktikan Anda dapat menggunakan uji-t dengan sampel kecil. (Untuk lebih lanjut tentang ini, silakan merujuk pada komentar panjang saya untuk pertanyaan asli.)
whuber
30

Seperti disebutkan dalam jawaban yang ada, masalah utama dengan ukuran sampel kecil adalah kekuatan statistik yang rendah. Ada berbagai aturan praktis tentang apa yang bisa diterima kekuatan statistik. Beberapa orang mengatakan kekuatan statistik 80% masuk akal, tetapi pada akhirnya, lebih banyak lebih baik. Ada juga umumnya trade-off antara biaya untuk mendapatkan lebih banyak peserta dan manfaat dari mendapatkan lebih banyak kekuatan statistik.

Anda dapat menilai kekuatan statistik pada saat pengujian menggunakan fungsi sederhana dalam R power.t.test,.

Kode berikut memberikan kekuatan statistik untuk ukuran sampel 15, uji-satu sampel, standar , dan tiga ukuran efek yang berbeda dari .2, .5, .8 yang kadang-kadang disebut sebagai efek kecil, sedang, dan besar masing-masing.α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Dengan demikian, kita dapat melihat bahwa jika ukuran efek populasi adalah "kecil" atau "sedang", Anda akan memiliki kekuatan statistik yang rendah (yaitu, masing-masing 11% dan 44%). Namun, jika ukuran efeknya besar dalam populasi, Anda akan memiliki apa yang akan digambarkan oleh beberapa orang sebagai kekuatan "masuk akal" (yaitu, 82%).

Website Cepat-r memberikan informasi lebih lanjut tentang analisis daya menggunakan R .

Jeromy Anglim
sumber
Jawaban bagus! Juga ada perangkat lunak yang baik untuk menghitung daya statistik yang disebut G * Power .
Enrique
7

Uji dua sampel berlaku jika dua sampel adalah sampel acak sederhana independen dari distribusi normal dengan varian yang sama dan masing-masing ukuran sampel setidaknya dua (sehingga varians populasi dapat diperkirakan.) Pertimbangan daya adalah tidak relevan dengan pertanyaan tentang validitas tes. Bergantung pada ukuran efek yang ingin dideteksi, ukuran sampel yang kecil mungkin tidak bijaksana, tetapi ukuran sampel yang kecil tidak membatalkan pengujian. Perhatikan juga bahwa untuk ukuran sampel apa pun, distribusi sampling rerata adalah Normal jika distribusi induk adalah Normal. Tentu saja, ukuran sampel yang lebih besar selalu lebih baik karena memberikan perkiraan parameter yang lebih tepat. Teorema Limit Pusat memberi tahu kita bahwa mean sampel lebih terdistribusi secara normal daripada nilai individual, tetapi seperti yang ditunjukkan oleh Casella dan Berger, kegunaannya terbatas karena laju pendekatan terhadap Normalitas harus diperiksa untuk setiap kasus tertentu. Mengandalkan aturan praktis tidaklah bijaksana. Lihat hasil yang dilaporkan buku-buku Rand Wilcox.

William Stewart
sumber
5

Walaupun benar bahwa distribusi-t memperhitungkan ukuran sampel yang kecil, saya akan berasumsi bahwa wasit Anda berpikir tentang kesulitan menentukan bahwa populasi terdistribusi secara normal, ketika satu-satunya informasi yang Anda miliki adalah sampel yang relatif kecil? Ini mungkin bukan masalah besar dengan sampel ukuran 15, karena sampel mudah-mudahan cukup besar untuk menunjukkan beberapa tanda-tanda secara normal didistribusikan? Jika ini benar, maka mudah - mudahan penduduk di suatu tempat mendekati normal juga dan, dikombinasikan dengan Central Limit Theorem, yang seharusnya memberi Anda sampel berarti yang berperilaku cukup baik.

Tapi saya meragukan rekomendasi untuk menggunakan uji-t untuk sampel kecil (seperti ukuran empat) kecuali normalitas populasi dapat ditentukan oleh beberapa informasi eksternal atau pemahaman mekanis? Tidak mungkin ada informasi yang cukup dekat dalam sampel ukuran empat untuk memiliki petunjuk apa pun sebagai bentuk distribusi populasi.

hanya aku
sumber
5

Pertimbangkan yang berikut dari hlm. 254-256 dari Sauro, J., & Lewis, JR (2016). Mengkuantifikasi Pengalaman Pengguna: Statistik Praktis untuk Penelitian Pengguna, 2nd Ed. Cambridge, MA: Morgan-Kaufmann (Anda dapat melihat ke dalam di https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).


APAKAH ANDA PERLU MENGUJI SETIAP 30 PENGGUNA?

DI SATU SISI

Mungkin sebagian besar dari kita yang telah mengambil kelas statistik pengantar (atau mengenal seseorang yang mengambil kelas seperti itu) telah mendengar aturan praktis bahwa untuk memperkirakan atau membandingkan cara, ukuran sampel Anda harus setidaknya 30. Menurut teorema limit pusat, ketika ukuran sampel meningkat, distribusi rata-rata menjadi lebih dan lebih normal, terlepas dari normalitas distribusi yang mendasarinya. Beberapa studi simulasi telah menunjukkan bahwa untuk berbagai variasi distribusi (tetapi tidak semua — lihat Bradley, 1978), distribusi rata-rata menjadi mendekati normal ketika n = 30.

Pertimbangan lain adalah bahwa sedikit lebih mudah untuk menggunakan skor-z daripada skor-t karena skor-z tidak memerlukan penggunaan derajat kebebasan. Seperti ditunjukkan pada Tabel 9.1 dan Gambar 9.2, pada saat Anda memiliki sekitar 30 derajat kebebasan, nilai t mendekati nilai z. Akibatnya, mungkin ada perasaan bahwa Anda tidak harus berurusan dengan sampel kecil yang memerlukan statistik sampel kecil (Cohen, 1990). ...

DI SAMPING ITU

Ketika biaya sampel mahal, karena biasanya dalam banyak jenis penelitian pengguna (misalnya, pengujian kegunaan yang dimoderasi), penting untuk memperkirakan ukuran sampel yang dibutuhkan seakurat mungkin, dengan pemahaman bahwa itu adalah perkiraan. Kemungkinan 30 adalah sampel yang tepat untuk keadaan tertentu sangat rendah. Seperti ditunjukkan dalam bab-bab kami tentang estimasi ukuran sampel, pendekatan yang lebih tepat adalah dengan mengambil rumus untuk menghitung tingkat signifikansi dari uji statistik dan, menggunakan aljabar untuk menyelesaikan n, mengubahnya menjadi rumus estimasi ukuran sampel. Rumus tersebut kemudian memberikan panduan khusus tentang apa yang harus Anda ketahui atau perkirakan untuk situasi tertentu untuk memperkirakan ukuran sampel yang diperlukan.

Gagasan bahwa bahkan dengan distribusi-t (berlawanan dengan distribusi-z) Anda harus memiliki ukuran sampel minimal 30 tidak konsisten dengan sejarah perkembangan distribusi. Pada tahun 1899, William S. Gossett, lulusan baru dari New College di Oxford dengan gelar dalam bidang kimia dan matematika, menjadi salah satu ilmuwan pertama yang bergabung dengan tempat pembuatan bir Guinness. “Dibandingkan dengan para raksasa pada zamannya, ia menerbitkan sangat sedikit, tetapi kontribusinya sangat penting. ... Sifat dari proses pembuatan bir, dengan variabilitasnya dalam suhu dan bahan-bahan, berarti bahwa tidak mungkin untuk mengambil sampel besar dalam jangka panjang ”(Cowles, 1989, hlm. 108–109).

Ini berarti bahwa Gossett tidak dapat menggunakan skor-z dalam karyanya — mereka tidak bekerja dengan baik dengan sampel kecil. Setelah menganalisis kekurangan distribusi-z untuk uji statistik dengan sampel kecil, ia mengerjakan penyesuaian yang diperlukan sebagai fungsi derajat kebebasan untuk menghasilkan tabelnya, yang diterbitkan dengan nama samaran “Mahasiswa” karena kebijakan Guinness yang melarang publikasi. oleh karyawan (Salsburg, 2001). Dalam pekerjaan yang menyebabkan publikasi tabel, Gossett melakukan versi awal simulasi Monte Carlo (Stigler, 1999). Dia menyiapkan 3.000 kartu berlabel pengukuran fisik yang diambil pada penjahat, mengocoknya, kemudian membagikannya menjadi 750 kelompok ukuran 4 - ukuran sampel jauh lebih kecil dari 30.

REKOMENDASI ​​KAMI

Kontroversi ini mirip dengan argumen "lima sudah cukup" versus "delapan tidak cukup" yang dibahas dalam Bab 6, tetapi diterapkan pada penelitian sumatif dan bukan formatif. Untuk penelitian apa pun, jumlah pengguna yang akan diuji tergantung pada tujuan pengujian dan jenis data yang Anda rencanakan untuk kumpulkan. "Angka ajaib" 30 memiliki beberapa alasan empiris, tetapi menurut kami, itu sangat lemah. Seperti yang dapat Anda lihat dari banyak contoh dalam buku ini yang memiliki ukuran sampel tidak sama dengan 30 (kadang-kadang lebih sedikit, kadang lebih), kami tidak menganggap aturan ini sangat dihargai. Seperti yang dijelaskan dalam bab ukuran sampel untuk penelitian sumatif, ukuran sampel yang sesuai untuk penelitian tergantung pada jenis distribusi, variabilitas data yang diharapkan, tingkat kepercayaan dan kekuatan yang diinginkan,

Seperti diilustrasikan pada Gambar 9.2, ketika menggunakan distribusi t dengan sampel yang sangat kecil (misalnya, dengan derajat kebebasan kurang dari 5), nilai t yang sangat besar mengkompensasi ukuran sampel kecil sehubungan dengan kontrol kesalahan Tipe I ( mengklaim perbedaan adalah signifikan ketika sebenarnya tidak). Dengan ukuran sampel yang kecil ini, interval kepercayaan Anda akan jauh lebih luas daripada apa yang akan Anda dapatkan dengan sampel yang lebih besar. Tetapi begitu Anda berhadapan dengan lebih dari 5 derajat kebebasan, ada sedikit perbedaan absolut antara nilai z dan nilai t. Dari perspektif pendekatan t to z, hanya ada sedikit keuntungan yang diperoleh 10 derajat kebebasan.

Tidak jauh lebih rumit untuk menggunakan distribusi-t daripada distribusi-z (Anda hanya perlu memastikan untuk menggunakan nilai yang tepat untuk derajat kebebasan), dan alasan untuk pengembangan distribusi-t adalah untuk memungkinkan analisis sampel kecil. Ini hanyalah salah satu cara yang kurang jelas di mana praktisi kegunaan mendapat manfaat dari ilmu pengetahuan dan praktik pembuatan bir. Sejarawan statistik secara luas menganggap publikasi Gossett tentang uji-Student sebagai peristiwa penting (Box, 1984; Cowles, 1989; Stigler, 1999). Dalam sebuah surat kepada Ronald A. Fisher (salah satu bapak statistik modern) yang berisi salinan awal tabel, Gossett menulis, "Anda mungkin satu-satunya orang yang akan menggunakannya" (Box, 1978). Gossett melakukan banyak hal dengan benar, tetapi tentu saja dia salah.

REFERENSI

Box, GEP (1984). Pentingnya praktik dalam pengembangan statistik. Technometrics, 26 (1), 1-8.

Box, JF (1978). Fisher, kehidupan seorang ilmuwan. New York, NY: John Wiley.

Bradley, JV (1978). Kekokohan? Jurnal Inggris Matematika dan Statistik Psikologi, 31, 144-152.

Cohen, J. (1990). Hal-hal yang telah saya pelajari (sejauh ini). American Psychologist, 45 (12), 1304-1312.

Cowles, M. (1989). Statistik dalam psikologi: Perspektif historis. Hillsdale, NJ: Lawrence Erlbaum.

Salsburg, D. (2001). Wanita itu mencicipi teh: Bagaimana statistik merevolusi sains di abad kedua puluh. New York, NY: WH Freeman.

Stigler, SM (1999). Statistik di atas meja: Sejarah konsep dan metode statistik. Cambridge, MA: Harvard University Press.

Jim Lewis
sumber
3

Czarina mungkin tertarik untuk membandingkan hasil uji-t parametrikalnya dengan hasil yang diperoleh dengan uji-bootstrap. Kode berikut untuk Stata 13/1 meniru contoh fiktif mengenai uji-dua sampel dengan varians yang tidak sama (uji-parametrik: p-value = 0,1493; uji t bootstrap: p-value = 0,1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value
Carlo Lazzaro
sumber
3

Ada dua cara berbeda untuk membenarkan penggunaan uji-t.

  • Data Anda terdistribusi normal dan Anda memiliki setidaknya dua sampel per kelompok
  • Anda memiliki ukuran sampel besar di setiap grup

Jika salah satu dari kasus ini bertahan, maka uji-t dianggap sebagai tes yang valid. Jadi jika Anda bersedia membuat asumsi bahwa data Anda terdistribusi normal (yang mana banyak peneliti yang mengumpulkan sampel kecil), maka Anda tidak perlu khawatir.

Namun, seseorang mungkin secara wajar keberatan bahwa Anda mengandalkan asumsi ini untuk mendapatkan hasil Anda, terutama jika data Anda diketahui miring. Maka pertanyaan tentang ukuran sampel yang diperlukan untuk inferensi yang valid adalah yang sangat masuk akal.

Adapun seberapa besar ukuran sampel diperlukan, sayangnya tidak ada jawaban yang nyata untuk itu; semakin condong data Anda, semakin besar ukuran sampel yang diperlukan untuk membuat perkiraan itu masuk akal. 15-20 per grup biasanya dianggap masuk akal, tetapi seperti halnya sebagian besar aturan praktis lainnya, terdapat contoh tandingan: misalnya, dalam pengembalian tiket lotre (di mana 1 dalam, katakanlah, 10.000.000 pengamatan adalah outlier EXTREME), Anda benar-benar perlu suatu tempat sekitar 100.000.000 pengamatan sebelum tes ini akan sesuai.

Cliff AB
sumber
1

Saya setuju tentang kegunaan dari uji-t boostrapped. Saya juga akan merekomendasikan, sebagai perbandingan, lihat metode Bayesian yang ditawarkan oleh Kruschke di http://www.indiana.edu/~kruschke/BEST/BEST.pdf . Secara umum, pertanyaan "Berapa banyak mata pelajaran?" tidak dapat dijawab kecuali Anda memiliki gagasan tentang seberapa besar pengaruh ukuran dalam hal masalah yang dipecahkan. Yaitu, dan misalnya, jika tes tersebut adalah studi hipotetis mengenai kemanjuran obat baru, ukuran efeknya mungkin ukuran minimum yang diperlukan untuk membenarkan obat baru dibandingkan dengan yang lama untuk Food and Drug Administration AS.

Apa yang aneh dalam hal ini dan banyak diskusi lainnya adalah kesediaan grosir untuk menyatakan bahwa beberapa data hanya memiliki beberapa distribusi teoretis, seperti menjadi Gaussian. Pertama, kita tidak perlu menempatkan, kita dapat memeriksa, bahkan dengan sampel kecil. Kedua, mengapa menempatkan distribusi teoretis tertentu? Mengapa tidak mengambil data sebagai distribusi empiris saja?

Tentu, dalam kasus ukuran sampel kecil, mengandaikan bahwa data berasal dari beberapa distribusi sangat berguna untuk analisis. Tetapi, untuk memparafrasekan Bradley Efron, dengan melakukan itu Anda baru saja membuat data dalam jumlah tak terbatas. Terkadang itu bisa baik-baik saja jika masalah Anda tepat. Beberapa kali tidak.

Jan Galkowski
sumber
1

Sejauh asumsi berlaku untuk dua kasus sampel; itu adalah bahwa kedua sampel independen satu sama lain dan masing-masing sampel terdiri dari variabel normal iid dengan dua sampel memiliki rata-rata yang sama dan varians yang tidak diketahui umum di bawah hipotesis nol.

Ada juga uji-t Welch yang menggunakan Pendekatan Satterwaite untuk kesalahan standar. Ini adalah uji-t 2 sampel dengan asumsi varian tidak sama.

Welch's t-test

Armadillo
sumber