Dapatkah sampel non-acak dianalisis menggunakan uji statistik standar?

24

Banyak studi klinis didasarkan pada sampel non-acak. Namun, sebagian besar tes standar (misalnya uji-t, ANOVA, regresi linier, regresi logistik) didasarkan pada asumsi bahwa sampel mengandung "angka acak". Apakah hasilnya valid jika sampel non-acak ini dianalisis dengan tes standar? Terima kasih.

KuJ
sumber

Jawaban:

20

Ada dua model umum untuk pengujian. Yang pertama, berdasarkan asumsi pengambilan sampel acak dari suatu populasi, biasanya disebut "model populasi".

Sebagai contoh, untuk uji-t dua sampel independen, kami mengasumsikan bahwa dua kelompok yang ingin kami bandingkan adalah sampel acak dari populasi masing-masing. Dengan asumsi bahwa distribusi skor dalam dua kelompok biasanya terdistribusi dalam populasi, kita kemudian dapat memperoleh secara analitik distribusi sampling dari statistik uji (yaitu, untuk statistik t). Idenya adalah bahwa jika kita mengulangi proses ini (secara acak menggambar dua sampel dari populasi masing-masing) dalam jumlah tak terbatas (tentu saja, kita tidak benar-benar melakukan itu), kita akan memperoleh distribusi sampling ini untuk statistik uji.

Model alternatif untuk pengujian adalah "model pengacakan". Di sini, kita tidak harus menggunakan sampling acak. Sebagai gantinya, kami mendapatkan distribusi pengacakan melalui permutasi sampel kami.

Misalnya, untuk uji-t, Anda memiliki dua sampel Anda (tidak harus diperoleh secara acak). Sekarang jika memang tidak ada perbedaan antara kedua kelompok ini, maka apakah orang tertentu benar-benar "milik" kelompok 1 atau kelompok 2 adalah sewenang-wenang. Jadi, yang bisa kita lakukan adalah mengubah tugas kelompok berulang kali, setiap kali mencatat seberapa jauh jarak kedua kelompok. Dengan cara ini, kami memperoleh distribusi sampel secara empiris. Kami kemudian dapat membandingkan seberapa jauh dua cara terpisah dalam sampel asli (sebelum kami mulai merombak keanggotaan grup) dan jika perbedaan itu "ekstrim" (yaitu, jatuh ke ekor distribusi sampel yang diturunkan secara empiris), maka kami menyimpulkan keanggotaan kelompok itu tidak sewenang-wenang dan memang ada perbedaan antara kedua kelompok.

Dalam banyak situasi, kedua pendekatan ini sebenarnya mengarah pada kesimpulan yang sama. Di satu sisi, pendekatan yang didasarkan pada model populasi dapat dilihat sebagai pendekatan untuk uji pengacakan. Menariknya, Fisher adalah orang yang mengusulkan model pengacakan dan menyarankan bahwa itu harus menjadi dasar untuk kesimpulan kami (karena sebagian besar sampel tidak diperoleh melalui pengambilan sampel acak).

Artikel yang bagus menggambarkan perbedaan antara dua pendekatan adalah:

Ernst, MD (2004). Metode permutasi: Dasar untuk inferensi yang tepat. Ilmu Statistik, 19 (4), 676-685 (tautan) .

Artikel lain yang memberikan ringkasan yang bagus dan menyarankan bahwa pendekatan pengacakan harus menjadi dasar untuk kesimpulan kami:

Ludbrook, J., & Dudley, H. (1998). Mengapa tes permutasi lebih unggul daripada tes t dan F dalam penelitian biomedis. Ahli Statistik Amerika, 52 (2), 127-132 (tautan) .

EDIT: Saya juga harus menambahkan bahwa adalah umum untuk menghitung statistik uji yang sama ketika menggunakan pendekatan pengacakan seperti pada model populasi. Jadi, misalnya, untuk menguji perbedaan rata-rata antara dua kelompok, orang akan menghitung t-statistik yang biasa untuk semua permutasi yang mungkin dari keanggotaan kelompok (menghasilkan distribusi sampel yang diturunkan secara empiris di bawah hipotesis nol) dan kemudian orang akan memeriksa seberapa ekstrim statistik t untuk keanggotaan grup asli berada di bawah distribusi itu.

Wolfgang
sumber
8

Pertanyaan Anda sangat bagus, tetapi tidak memiliki jawaban langsung.

Sebagian besar tes seperti yang Anda sebutkan didasarkan pada asumsi bahwa sampel adalah sampel acak, karena sampel acak cenderung mewakili populasi sampel. Jika asumsi ini tidak valid maka setiap interpretasi hasil harus memperhitungkannya. Ketika sampel sangat tidak representatif dari populasi maka hasilnya cenderung menyesatkan. Ketika sampel representatif meskipun non-acak maka hasilnya akan baik-baik saja.

Tingkat pertanyaan selanjutnya adalah untuk bertanya bagaimana seseorang dapat memutuskan apakah masalah non-acak dalam kasus tertentu. Saya tidak bisa menjawabnya ;-)

Michael Lew
sumber
5

Anda mengajukan pertanyaan yang sangat umum, jadi jawabannya tidak cocok untuk semua kasus. Namun, saya bisa mengklarifikasi. Tes statistik umumnya berkaitan dengan distribusi yang diamati versus distribusi hipotetis (disebut distribusi nol atau hipotesis nol; atau, dalam beberapa kasus, distribusi alternatif). Sampel mungkin non-acak, tetapi tes yang diberikan diterapkan pada beberapa nilai yang diperoleh dari sampel. Jika variabel itu dapat memiliki beberapa sifat stokastik, maka distribusinya dibandingkan dengan beberapa distribusi alternatif. Yang penting kemudian adalah apakah statistik uji sampel akan berlaku untuk beberapa populasi yang menarik dan apakah asumsi mengenai distribusi alternatif atau nol relevan untuk populasi lain yang diminati.

Iterator
sumber