Uji statistik untuk mengetahui apakah dua sampel diambil dari populasi yang sama?

30

Katakanlah saya punya dua sampel. Jika saya ingin tahu apakah mereka ditarik dari populasi yang berbeda, saya dapat menjalankan uji-t. Tetapi katakanlah saya ingin menguji apakah sampel berasal dari populasi yang sama. Bagaimana caranya? Yaitu, bagaimana cara menghitung probabilitas statistik bahwa dua sampel ini diambil dari populasi yang sama?

pengguna1566200
sumber
1
Tolong jelaskan - secara kuantitatif mungkin - apa yang Anda maksud dengan "sama." Ini akan membantu untuk memperjelas apa yang Anda maksud dengan "kondisi," juga.
whuber
Tes seperti Kolmogorov-Smirnov dua sampel (bukan satu-satunya kemungkinan; dengan asumsi biasa, uji-t menguji hal yang sama, seperti yang Anda perhatikan) dapat menguji apakah distribusi populasi berbeda (tetapi kegagalan untuk menolak tidak t berarti mereka sebenarnya sama). Namun, tidak ada tes yang dapat memberi tahu Anda apakah dua distribusi yang tidak terlalu berbeda sebenarnya dari populasi yang sama , bukan dari dua populasi yang berbeda dengan distribusi yang sama. Itu harus berasal dari asumsi atau penyelidikan lain. ...
ctd
3
ctd ... Demikian pula, tes bahkan tidak dapat memberi tahu Anda bahwa distribusinya identik, karena mereka dapat berbeda dalam cara yang sepele. Anda mungkin ingin mencari di 'uji ekivalensi' atau 'pengujian ekivalensi', di mana Anda harus mendapatkan beberapa hit di sini, atau di google.
Glen_b -Reinstate Monica

Jawaban:

20

Tes yang membandingkan distribusi adalah tes yang tidak disertakan. Mereka mulai dengan hipotesis nol bahwa kedua populasi itu identik, kemudian mencoba menolak hipotesis itu. Kami tidak pernah dapat membuktikan bahwa nol itu benar, tolak saja, jadi tes ini tidak dapat benar-benar digunakan untuk menunjukkan bahwa 2 sampel berasal dari populasi yang sama (atau populasi yang identik).

Ini karena mungkin ada perbedaan kecil dalam distribusi (artinya mereka tidak identik), tetapi sangat kecil sehingga tes tidak dapat benar-benar menemukan perbedaan.

Pertimbangkan 2 distribusi, yang pertama adalah seragam dari 0 hingga 1, yang kedua adalah campuran dari 2 seragam, jadi itu adalah 1 antara 0 dan 0,999, dan juga 1 antara 9,999 dan 10 (0 di tempat lain). Jadi jelas distribusi ini berbeda (apakah perbedaannya bermakna adalah pertanyaan lain), tetapi jika Anda mengambil ukuran sampel 50 dari masing-masing (total 100) ada kemungkinan lebih dari 90% bahwa Anda hanya akan melihat nilai antara 0 dan 0,999 dan tidak dapat melihat perbedaan nyata.

Ada beberapa cara untuk melakukan apa yang disebut pengujian kesetaraan di mana Anda bertanya apakah 2 distribusi / populasi itu setara, tetapi Anda perlu mendefinisikan apa yang Anda anggap setara. Biasanya beberapa ukuran perbedaan berada dalam kisaran tertentu, yaitu perbedaan dalam 2 rata-rata kurang dari 5% dari rata-rata 2 rata-rata, atau statistik KS di bawah batas yang diberikan, dll. Jika Anda kemudian dapat menghitung interval kepercayaan untuk statistik perbedaan (perbedaan rata-rata bisa saja t interval kepercayaan, bootstrap, simulasi, atau metode lain mungkin diperlukan untuk statistik lainnya). Jika seluruh interval kepercayaan jatuh dalam "wilayah ekivalensi" maka kami menganggap 2 populasi / distribusi sebagai "setara".

Bagian yang sulit adalah mencari tahu apa wilayah kesetaraan seharusnya.

Greg Snow
sumber
2
Tes hipotesis nol tidak pernah dapat memberikan bukti untuk hipotesis nol, benar. Pemilihan model, baik Bayesian atau berdasarkan pada beberapa "kriteria" (AIC, BIC) dapat menunjukkan bahwa model nol (distribusi identik) adalah deskripsi data yang lebih baik daripada model alternatif (distribusi berbeda). Semua itu di bawah banyak asumsi tentu saja.
A. Donda
6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Dengan asumsi nilai sampel Anda berasal dari distribusi kontinu, saya akan menyarankan tes Kolmogorov-Smirnov. Ini dapat digunakan untuk menguji apakah dua sampel berasal dari distribusi yang berbeda (ini adalah bagaimana saya menafsirkan penggunaan populasi Anda) berdasarkan pada distribusi empiris yang terkait.

Langsung dari Wikipedia:

Distribusi nol statistik ini dihitung berdasarkan hipotesis nol bahwa sampel diambil dari distribusi yang sama (dalam kasus dua sampel)

Fungsi ks.test di R dapat digunakan untuk tes ini.

Meskipun memang benar kstest tidak menguji homogenitas, saya berpendapat bahwa jika Anda gagal menolak dengan ukuran sampel yang cukup besar (tes bertenaga tinggi), Anda dapat mengklaim bahwa perbedaannya secara praktis tidak signifikan. Anda dapat menyimpulkan bahwa jika perbedaan memang ada, mereka kemungkinan tidak bermakna (sekali lagi, dengan asumsi ukuran sampel besar). Anda tidak dapat menyimpulkan bahwa mereka berasal dari populasi yang sama dengan yang orang lain nyatakan dengan benar. Semua ini dikatakan, biasanya saya hanya akan memeriksa secara grafis dua sampel untuk kesamaan.

Underminer
sumber
6
Saya ragu bahwa tes KS dapat digunakan untuk menunjukkan kesetaraan distribusi.
Michael M
@MichaelMayer itu benar sekali. OP tertarik pada uji homogenitas ... yang memiliki banyak masalah metodologis mendasar. KS untuk heterogenitas juga memiliki masalah: praktis, ia akan menolak dalam sampel besar terlepas dari apakah populasi praktis identik dalam semua aspek. Ini hanya menunjukkan bahwa pengujian, dan akibatnya nilai-p, lebih baik dipahami sebagai ukuran ukuran sampel daripada signifikansi statistik.
AdamO
@ AdamO Ya, tetapi jika Anda memiliki sampel besar dan Anda gagal untuk menolak, saya akan yakin bahwa populasinya secara praktis identik. Sejauh yang saya tahu, tidak ada teori untuk mendukung hal ini, tetapi dari pengalaman, mengetahui bahwa KS untuk heterogenitas dapat mendeteksi perbedaan kecil dengan ukuran sampel besar dapat memungkinkan Anda untuk menggunakan tes sampel besar yang gagal sebagai pernyataan de facto secara praktis populasi yang identik. Apakah jawaban saya menjawab pertanyaan "menghitung probabilitas statistik bahwa dua sampel ini diambil dari populasi yang sama"? Tentu tidak.
Underminer
Apa yang bisa saya lakukan jika poin saya dua dimensi ? Yaitu, saya memiliki dua sampel titik dua dimensi, dan saya ingin tahu apakah mereka berasal dari distribusi yang berbeda.
becko
Tes KS hanya bekerja terhadap distribusi yang telah ditentukan, bukan dari distribusi dengan parameter yang diperkirakan dari data.
qwr
2

Anda dapat menggunakan 'fungsi shift' yang memeriksa apakah 2 distribusi berbeda di setiap desil. Walaupun secara teknis tes apakah mereka berasal dari populasi yang berbeda dan tidak sama, jika distribusinya tidak berbeda pada salah satu desil maka Anda dapat yakin mereka berasal dari populasi yang sama, terutama jika ukuran kelompok besar.

Saya juga akan memvisualisasikan 2 kelompok: overlay distribusi mereka dan lihat apakah mereka mirip satu sama lain, atau lebih baik menggambar beberapa ribu sampel bootstrap dari masing-masing kelompok dan plot mereka , karena ini akan memberi Anda gambaran apakah mereka berasal dari sama populasi terutama jika populasi yang dimaksud tidak terdistribusi secara normal untuk Anda yang diberikan variabel.

Richie
sumber