Ukuran sampel minimum untuk uji-t tidak berpasangan

16

Apakah ada "aturan" untuk menentukan ukuran sampel minimum yang diperlukan agar uji-t valid?

Sebagai contoh, perbandingan perlu dilakukan antara sarana 2 populasi. Ada 7 titik data dari satu populasi dan hanya 2 titik data dari yang lain. Sayangnya, percobaan ini sangat mahal dan memakan waktu, dan mendapatkan lebih banyak data tidak layak.

Bisakah uji-t digunakan? Mengapa atau mengapa tidak? Harap berikan detail (varian dan distribusi populasi tidak diketahui). Jika uji-t tidak dapat digunakan, dapatkah uji non parametrik (Mann Whitney) digunakan? Mengapa atau mengapa tidak?

Johnny Bingung
sumber
2
Pertanyaan ini mencakup materi yang serupa & akan menarik bagi pemirsa halaman ini: Apakah ada ukuran sampel minimum yang diperlukan untuk uji-t agar valid? .
gung - Reinstate Monica
Lihat juga pertanyaan ini di mana pengujian dengan ukuran sampel yang lebih kecil dibahas.
Glen_b -Reinstate Monica

Jawaban:

8

Saya akan merekomendasikan menggunakan tes Mann-Whitney U non-parametrik daripada uji - t tidak berpasangan di sini.

Tidak ada ukuran sampel minimum absolut untuk uji- t , tetapi ketika ukuran sampel semakin kecil, tes menjadi lebih sensitif terhadap asumsi bahwa kedua sampel diambil dari populasi dengan distribusi normal. Dengan sampel sekecil ini, terutama dengan satu sampel hanya dua, Anda harus sangat yakin bahwa distribusi populasi normal - dan itu harus didasarkan pada pengetahuan eksternal, karena sampel kecil seperti itu memberikan sangat sedikit informasi dalam diri mereka tentang normalitas atau distribusinya. Tetapi Anda mengatakan bahwa "varians dan distribusi populasi tidak diketahui" (huruf miring saya).

Mann-Whitney U tidak memerlukan asumsi tentang bentuk parametrik dari distribusi, hanya memerlukan asumsi bahwa distribusi kedua kelompok adalah sama di bawah hipotesis nol.

onestop
sumber
6
Bukan rekomendasi yang baik untuk ukuran sampel yang sangat kecil. Dengan 7 dan 2 sampel, uji-U akan gagal, tidak peduli seberapa besar perbedaan antara rata-rata kelompok. Lihatlah jawaban saya sebagai contoh.
AlefSin
2
Saya akan kedua apa yang dikatakan @AlefSin. Jika penting bagi Anda untuk menarik kesimpulan yang valid (dan tidak hanya mendapatkan p-value) maka lebih resonable asumsi Anda dapat membuat lebih baik. Jika ada informasi latar belakang yang masuk akal, Anda juga bisa menambahkan lebih banyak asumsi jika Anda melakukan analisis dalam kerangka kerja Bayesian.
Rasmus Bååth
2
Satu masalah adalah bahwa dengan ukuran sampel sekecil itu, Wilcoxon-Mann-Whitney tidak dapat mencapai tingkat signifikansi yang khas. Dengan ukuran sampel 7 dan 2 Anda tidak akan pernah mendapatkan hasil yang signifikan pada level 5%, tidak peduli seberapa mencolok perbedaannya. Pertimbangkan (1.018.1.031.1.027.1.020.1.021.1.019.1.024) vs (713.2, 714.5) - tidak signifikan pada level 5%!
Glen_b -Reinstate Monica
3
Yang mengatakan, jika seseorang memiliki dann1=7 , ada argumen yang sangat baik bahwa seseorang mungkin harus mempertimbangkan apakah tes 5% masuk akal di tempat pertama. Penilaian yang tepat atas biaya kedua jenis kesalahan dapat menyebabkan pilihan yang sangat berbeda. n2=2
Glen_b -Reinstate Monica
6

(Penafian: Saya tidak bisa mengetik dengan baik hari ini: tangan kanan saya patah!)

Berlawanan dengan saran untuk menggunakan tes non-parametrik dalam jawaban lain, Anda harus mempertimbangkan bahwa untuk ukuran sampel yang sangat kecil metode tersebut tidak terlalu berguna. Sangat mudah untuk memahami alasannya: dalam penelitian dengan ukuran yang sangat kecil, tidak ada perbedaan antara kelompok-kelompok yang dapat dibentuk kecuali jika ukuran efek besar jika diamati. Metode non-parametrik, bagaimanapun, tidak peduli dengan besarnya perbedaan antara kelompok. Jadi, bahkan jika perbedaan antara kedua kelompok sangat besar, dengan ukuran sampel yang kecil tes non-parametrik akan selalu gagal untuk menolak hipotesis nol.

Pertimbangkan contoh ini: dua kelompok, distribusi normal, varian yang sama. Kelompok 1: rata-rata 1,0, 7 sampel. Kelompok 2: rata-rata 5, 2 sampel. Ada perbedaan besar antara rata-rata.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

Nilai p yang dihitung adalah 0,05556 yang tidak menolak hipotesis nol (pada 0,05). Sekarang, bahkan jika Anda meningkatkan jarak antara dua cara dengan faktor 10, Anda akan mendapatkan nilai p yang sama:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Sekarang saya mengundang Anda untuk mengulangi simulasi yang sama dengan uji-t dan mengamati nilai-p dalam kasus perbedaan besar (rata-rata 5 vs 1) dan besar (rata-rata 50 vs 1).

AlefSin
sumber
5

Tidak ada ukuran sampel minimum untuk uji-t; uji-t, pada kenyataannya, dirancang untuk sampel kecil. Di masa lalu ketika tabel dicetak, Anda melihat tabel uji-t untuk sampel yang sangat kecil (diukur dengan df).

Tentu saja, seperti halnya dengan tes lain, jika ada sampel kecil hanya efek yang cukup besar akan signifikan secara statistik.

Peter Flom - Pasang kembali Monica
sumber
Tetapi apakah yang sebaliknya juga akan menjadi masalah? Yaitu, mungkinkah outlier yang kebetulan dijadikan sampel mengarah pada penolakan palsu terhadap hipotesis nol? Atau apakah daya rendah untuk mendeteksi perbedaan merupakan masalah yang lebih besar? Dalam situasi khusus ini saya melihat perbedaan yang signifikan antara cara tetapi tidak tahu berapa banyak untuk "percaya" itu.
Johnny Bingung
2
Dengan n = 2 Anda pasti rentan terhadap pengaruh outlier - outlier dalam populasi; bagaimana sampel 2 memiliki pencilan dalam sampel? :-) Saya tidak akan mencoba statistik inferensial dalam situasi ini. Prospek buruk untuk mendapatkan "kebenaran," dan Anda akan membiarkan diri Anda terbuka lebar untuk kritik.
rolando2
2
Alasan mengapa interval kepercayaan akan luas justru karena Anda mungkin mendapatkan pencilan. Tetapi uji-t masih menganggap sampel berasal dari populasi normal.
Peter Flom - Pasang kembali Monica
2

Saya berasumsi Anda berarti Anda memiliki 7 titik data dari satu kelompok, dan 2 titik data dari kelompok kedua, yang keduanya merupakan himpunan bagian dari populasi (misalnya subset laki-laki dan subset perempuan).

Matematika untuk uji-t dapat diperoleh dari halaman Wikipedia ini . Kami akan menganggap uji-dua sampel independen, dengan ukuran sampel yang tidak sama (7 vs 2) dan varian yang tidak sama, jadi sekitar setengah jalan menuju halaman itu. Anda dapat melihat bahwa perhitungannya didasarkan pada cara dan standar deviasi. Dengan hanya 7 subjek dalam satu grup dan 2 subjek di grup lain, Anda tidak dapat mengasumsikan Anda memiliki estimasi yang baik untuk mean atau standar deviasi. Untuk kelompok dengan 2 mata pelajaran, rerata hanyalah nilai yang terletak tepat di tengah-tengah dua titik data, sehingga tidak diperkirakan dengan baik. Untuk kelompok dengan 7 subjek, ukuran sampel sangat mempengaruhi varians (dan karenanya standar deviasi, yang merupakan akar kuadrat dari varians) karena nilai-nilai ekstrem memberikan efek yang jauh lebih kuat ketika Anda memiliki sampel yang lebih kecil.

Sebagai contoh, jika Anda melihat contoh dasar pada halaman Wikipedia untuk deviasi standar, Anda akan melihat bahwa deviasi standar adalah 2, dan variansnya (kuadrat deviasi standar) adalah 4. Tetapi jika kami hanya memiliki dua titik data pertama (9 dan 1), variansnya adalah 10/2 = 5 dan standar deviasi 2.2 dan jika kita hanya memiliki dua nilai terakhir (4 dan 16), variansnya adalah 20/2 = 10 dan standar deviasi adalah 3,2. Kami masih menggunakan nilai yang sama, hanya sedikit dari mereka, dan kami bisa melihat pengaruhnya terhadap taksiran kami.

Itulah masalah dengan menggunakan statistik inferensial dengan ukuran sampel kecil, hasil Anda akan sangat dipengaruhi oleh pengambilan sampel.

Pembaruan: adakah alasan mengapa Anda tidak bisa begitu saja melaporkan hasil berdasarkan subjek dan menunjukkan bahwa ini adalah pekerjaan eksplorasi? Dengan hanya dua kasus, data ini sangat mirip dengan studi kasus, dan keduanya (1) penting untuk ditulis dan (2) praktik yang diterima.

Michelle
sumber
Terima kasih, Michelle. Ini menarik dan bermanfaat untuk diketahui. Namun, apa yang akan Anda rekomendasikan dari sudut pandang praktis? Mengingat situasi ini, apa cara terbaik untuk melanjutkan? Terima kasih!
Johnny Bingung
Hai, Johnny Bingung. Tanpa informasi lebih lanjut tentang situasi persis Anda, saya merasa tidak dapat memberikan panduan lebih lanjut.
Michelle
Informasi apa yang dibutuhkan?
Johnny Bingung
1
Hai lagi, informasi lebih lanjut tentang desain studi Anda, seperti apa data Anda, bagaimana Anda mengumpulkannya, apa kelompok Anda, bagaimana pengamatan dipilih. Yang saya tahu adalah bahwa Anda melakukan percobaan dengan 9 pengamatan (orang? Tikus? Neuron? Blok keju? Frekuensi radiasi?) Yang berasal dari dua kelompok.
Michelle
Katakanlah bahwa aliran darah rata-rata ke materi putih di otak diukur pada manusia menggunakan MRI. Kelompok-kelompok tersebut adalah kontrol (7 orang) dan pasien yang sesuai usia / jenis kelamin dengan kelainan tertentu (2 orang).
Johnny Bingung
1

Artikel terkait yang menarik: 'Menggunakan uji-t Student dengan ukuran samlpe yang sangat rendah' ​​JCF de Winter (dalam Asesmen Praktik, Penelitian & Evaluasi) http://goo.gl/ZAUmGW

Epifunky
sumber
0

Saya akan merekomendasikan untuk membandingkan kesimpulan yang Anda dapatkan dengan keduanya, uji-t dan uji Mann-Whitney, dan juga lihat plot kotak dan kemungkinan profil rata-rata dari setiap populasi.

Demian
sumber
Hai @ Demian, saya tidak yakin bahkan boxplot akan membantu ketika satu kelompok memiliki ukuran sampel 2. Jika tidak, ya saya pikir boxplot khususnya sangat membantu dalam memvisualisasikan data berkelanjutan antar kelompok.
Michelle
0

Kode 13 / SE stata untuk tes bootstrapSebagai uji yang dilakukan pada sampel kecil mungkin tidak memenuhi persyaratan uji (terutama, normalitas populasi dari mana dua sampel diambil), saya akan merekomendasikan untuk melakukan tes bootstrap (dengan varian yang tidak sama), mengikuti Efron B, Tibshirani Rj. Pengantar Bootstrap. Boca Raton, FL: Chapman & Hall / CRC, 1993: 220-224. Kode untuk tes bootstrap pada data yang disediakan oleh Johnny Puzzled di Stata 13 / SE dilaporkan pada gambar di atas.

Carlo Lazzaro
sumber
Jawaban Anda memiliki masalah pemformatan serius, maukah Anda mengeditnya?
Amuba kata Reinstate Monica
Saya telah mencoba menyelesaikan masalah pemformatan dalam versi jawaban yang ditinjau. Terima kasih kepada amuba untuk menunjukkan ini.
Carlo Lazzaro
0

Dengan ukuran sampel 2, hal terbaik yang harus dilakukan adalah melihat angka masing-masing sendiri dan bahkan tidak repot-repot dengan analisis statistik.

Kevin
sumber
1
Saat ini ini lebih mirip komentar. Meskipun ini adalah poin yang baik, untuk jawaban yang masuk akal untuk masalah asli, beberapa diskusi tentang masalah itu sendiri mungkin diharapkan, bahkan jika pada akhirnya orang menyimpulkan bahwa lebih masuk akal untuk melakukan sesuatu yang lain.
Glen_b -Reinstate Monica