Apakah ada "aturan" untuk menentukan ukuran sampel minimum yang diperlukan agar uji-t valid?
Sebagai contoh, perbandingan perlu dilakukan antara sarana 2 populasi. Ada 7 titik data dari satu populasi dan hanya 2 titik data dari yang lain. Sayangnya, percobaan ini sangat mahal dan memakan waktu, dan mendapatkan lebih banyak data tidak layak.
Bisakah uji-t digunakan? Mengapa atau mengapa tidak? Harap berikan detail (varian dan distribusi populasi tidak diketahui). Jika uji-t tidak dapat digunakan, dapatkah uji non parametrik (Mann Whitney) digunakan? Mengapa atau mengapa tidak?
t-test
sample-size
small-sample
wilcoxon-mann-whitney
Johnny Bingung
sumber
sumber
Jawaban:
Saya akan merekomendasikan menggunakan tes Mann-Whitney U non-parametrik daripada uji - t tidak berpasangan di sini.
Tidak ada ukuran sampel minimum absolut untuk uji- t , tetapi ketika ukuran sampel semakin kecil, tes menjadi lebih sensitif terhadap asumsi bahwa kedua sampel diambil dari populasi dengan distribusi normal. Dengan sampel sekecil ini, terutama dengan satu sampel hanya dua, Anda harus sangat yakin bahwa distribusi populasi normal - dan itu harus didasarkan pada pengetahuan eksternal, karena sampel kecil seperti itu memberikan sangat sedikit informasi dalam diri mereka tentang normalitas atau distribusinya. Tetapi Anda mengatakan bahwa "varians dan distribusi populasi tidak diketahui" (huruf miring saya).
Mann-Whitney U tidak memerlukan asumsi tentang bentuk parametrik dari distribusi, hanya memerlukan asumsi bahwa distribusi kedua kelompok adalah sama di bawah hipotesis nol.
sumber
(Penafian: Saya tidak bisa mengetik dengan baik hari ini: tangan kanan saya patah!)
Berlawanan dengan saran untuk menggunakan tes non-parametrik dalam jawaban lain, Anda harus mempertimbangkan bahwa untuk ukuran sampel yang sangat kecil metode tersebut tidak terlalu berguna. Sangat mudah untuk memahami alasannya: dalam penelitian dengan ukuran yang sangat kecil, tidak ada perbedaan antara kelompok-kelompok yang dapat dibentuk kecuali jika ukuran efek besar jika diamati. Metode non-parametrik, bagaimanapun, tidak peduli dengan besarnya perbedaan antara kelompok. Jadi, bahkan jika perbedaan antara kedua kelompok sangat besar, dengan ukuran sampel yang kecil tes non-parametrik akan selalu gagal untuk menolak hipotesis nol.
Pertimbangkan contoh ini: dua kelompok, distribusi normal, varian yang sama. Kelompok 1: rata-rata 1,0, 7 sampel. Kelompok 2: rata-rata 5, 2 sampel. Ada perbedaan besar antara rata-rata.
Nilai p yang dihitung adalah 0,05556 yang tidak menolak hipotesis nol (pada 0,05). Sekarang, bahkan jika Anda meningkatkan jarak antara dua cara dengan faktor 10, Anda akan mendapatkan nilai p yang sama:
Sekarang saya mengundang Anda untuk mengulangi simulasi yang sama dengan uji-t dan mengamati nilai-p dalam kasus perbedaan besar (rata-rata 5 vs 1) dan besar (rata-rata 50 vs 1).
sumber
Tidak ada ukuran sampel minimum untuk uji-t; uji-t, pada kenyataannya, dirancang untuk sampel kecil. Di masa lalu ketika tabel dicetak, Anda melihat tabel uji-t untuk sampel yang sangat kecil (diukur dengan df).
Tentu saja, seperti halnya dengan tes lain, jika ada sampel kecil hanya efek yang cukup besar akan signifikan secara statistik.
sumber
Saya berasumsi Anda berarti Anda memiliki 7 titik data dari satu kelompok, dan 2 titik data dari kelompok kedua, yang keduanya merupakan himpunan bagian dari populasi (misalnya subset laki-laki dan subset perempuan).
Matematika untuk uji-t dapat diperoleh dari halaman Wikipedia ini . Kami akan menganggap uji-dua sampel independen, dengan ukuran sampel yang tidak sama (7 vs 2) dan varian yang tidak sama, jadi sekitar setengah jalan menuju halaman itu. Anda dapat melihat bahwa perhitungannya didasarkan pada cara dan standar deviasi. Dengan hanya 7 subjek dalam satu grup dan 2 subjek di grup lain, Anda tidak dapat mengasumsikan Anda memiliki estimasi yang baik untuk mean atau standar deviasi. Untuk kelompok dengan 2 mata pelajaran, rerata hanyalah nilai yang terletak tepat di tengah-tengah dua titik data, sehingga tidak diperkirakan dengan baik. Untuk kelompok dengan 7 subjek, ukuran sampel sangat mempengaruhi varians (dan karenanya standar deviasi, yang merupakan akar kuadrat dari varians) karena nilai-nilai ekstrem memberikan efek yang jauh lebih kuat ketika Anda memiliki sampel yang lebih kecil.
Sebagai contoh, jika Anda melihat contoh dasar pada halaman Wikipedia untuk deviasi standar, Anda akan melihat bahwa deviasi standar adalah 2, dan variansnya (kuadrat deviasi standar) adalah 4. Tetapi jika kami hanya memiliki dua titik data pertama (9 dan 1), variansnya adalah 10/2 = 5 dan standar deviasi 2.2 dan jika kita hanya memiliki dua nilai terakhir (4 dan 16), variansnya adalah 20/2 = 10 dan standar deviasi adalah 3,2. Kami masih menggunakan nilai yang sama, hanya sedikit dari mereka, dan kami bisa melihat pengaruhnya terhadap taksiran kami.
Itulah masalah dengan menggunakan statistik inferensial dengan ukuran sampel kecil, hasil Anda akan sangat dipengaruhi oleh pengambilan sampel.
Pembaruan: adakah alasan mengapa Anda tidak bisa begitu saja melaporkan hasil berdasarkan subjek dan menunjukkan bahwa ini adalah pekerjaan eksplorasi? Dengan hanya dua kasus, data ini sangat mirip dengan studi kasus, dan keduanya (1) penting untuk ditulis dan (2) praktik yang diterima.
sumber
Artikel terkait yang menarik: 'Menggunakan uji-t Student dengan ukuran samlpe yang sangat rendah' JCF de Winter (dalam Asesmen Praktik, Penelitian & Evaluasi) http://goo.gl/ZAUmGW
sumber
Saya akan merekomendasikan untuk membandingkan kesimpulan yang Anda dapatkan dengan keduanya, uji-t dan uji Mann-Whitney, dan juga lihat plot kotak dan kemungkinan profil rata-rata dari setiap populasi.
sumber
Sebagai uji yang dilakukan pada sampel kecil mungkin tidak memenuhi persyaratan uji (terutama, normalitas populasi dari mana dua sampel diambil), saya akan merekomendasikan untuk melakukan tes bootstrap (dengan varian yang tidak sama), mengikuti Efron B, Tibshirani Rj. Pengantar Bootstrap. Boca Raton, FL: Chapman & Hall / CRC, 1993: 220-224. Kode untuk tes bootstrap pada data yang disediakan oleh Johnny Puzzled di Stata 13 / SE dilaporkan pada gambar di atas.
sumber
Dengan ukuran sampel 2, hal terbaik yang harus dilakukan adalah melihat angka masing-masing sendiri dan bahkan tidak repot-repot dengan analisis statistik.
sumber