Katakanlah saya punya dua sampel. Jika saya ingin tahu apakah mereka ditarik dari populasi yang berbeda, saya dapat menjalankan uji-t. Tetapi katakanlah saya ingin menguji apakah sampel berasal dari populasi yang sama. Bagaimana caranya? Yaitu, bagaimana cara menghitung probabilitas statistik bahwa dua sampel ini diambil dari populasi yang sama?
statistical-significance
pengguna1566200
sumber
sumber
Jawaban:
Tes yang membandingkan distribusi adalah tes yang tidak disertakan. Mereka mulai dengan hipotesis nol bahwa kedua populasi itu identik, kemudian mencoba menolak hipotesis itu. Kami tidak pernah dapat membuktikan bahwa nol itu benar, tolak saja, jadi tes ini tidak dapat benar-benar digunakan untuk menunjukkan bahwa 2 sampel berasal dari populasi yang sama (atau populasi yang identik).
Ini karena mungkin ada perbedaan kecil dalam distribusi (artinya mereka tidak identik), tetapi sangat kecil sehingga tes tidak dapat benar-benar menemukan perbedaan.
Pertimbangkan 2 distribusi, yang pertama adalah seragam dari 0 hingga 1, yang kedua adalah campuran dari 2 seragam, jadi itu adalah 1 antara 0 dan 0,999, dan juga 1 antara 9,999 dan 10 (0 di tempat lain). Jadi jelas distribusi ini berbeda (apakah perbedaannya bermakna adalah pertanyaan lain), tetapi jika Anda mengambil ukuran sampel 50 dari masing-masing (total 100) ada kemungkinan lebih dari 90% bahwa Anda hanya akan melihat nilai antara 0 dan 0,999 dan tidak dapat melihat perbedaan nyata.
Ada beberapa cara untuk melakukan apa yang disebut pengujian kesetaraan di mana Anda bertanya apakah 2 distribusi / populasi itu setara, tetapi Anda perlu mendefinisikan apa yang Anda anggap setara. Biasanya beberapa ukuran perbedaan berada dalam kisaran tertentu, yaitu perbedaan dalam 2 rata-rata kurang dari 5% dari rata-rata 2 rata-rata, atau statistik KS di bawah batas yang diberikan, dll. Jika Anda kemudian dapat menghitung interval kepercayaan untuk statistik perbedaan (perbedaan rata-rata bisa saja t interval kepercayaan, bootstrap, simulasi, atau metode lain mungkin diperlukan untuk statistik lainnya). Jika seluruh interval kepercayaan jatuh dalam "wilayah ekivalensi" maka kami menganggap 2 populasi / distribusi sebagai "setara".
Bagian yang sulit adalah mencari tahu apa wilayah kesetaraan seharusnya.
sumber
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
Dengan asumsi nilai sampel Anda berasal dari distribusi kontinu, saya akan menyarankan tes Kolmogorov-Smirnov. Ini dapat digunakan untuk menguji apakah dua sampel berasal dari distribusi yang berbeda (ini adalah bagaimana saya menafsirkan penggunaan populasi Anda) berdasarkan pada distribusi empiris yang terkait.
Langsung dari Wikipedia:
Fungsi ks.test di R dapat digunakan untuk tes ini.
Meskipun memang benar kstest tidak menguji homogenitas, saya berpendapat bahwa jika Anda gagal menolak dengan ukuran sampel yang cukup besar (tes bertenaga tinggi), Anda dapat mengklaim bahwa perbedaannya secara praktis tidak signifikan. Anda dapat menyimpulkan bahwa jika perbedaan memang ada, mereka kemungkinan tidak bermakna (sekali lagi, dengan asumsi ukuran sampel besar). Anda tidak dapat menyimpulkan bahwa mereka berasal dari populasi yang sama dengan yang orang lain nyatakan dengan benar. Semua ini dikatakan, biasanya saya hanya akan memeriksa secara grafis dua sampel untuk kesamaan.
sumber
Anda dapat menggunakan 'fungsi shift' yang memeriksa apakah 2 distribusi berbeda di setiap desil. Walaupun secara teknis tes apakah mereka berasal dari populasi yang berbeda dan tidak sama, jika distribusinya tidak berbeda pada salah satu desil maka Anda dapat yakin mereka berasal dari populasi yang sama, terutama jika ukuran kelompok besar.
Saya juga akan memvisualisasikan 2 kelompok: overlay distribusi mereka dan lihat apakah mereka mirip satu sama lain, atau lebih baik menggambar beberapa ribu sampel bootstrap dari masing-masing kelompok dan plot mereka , karena ini akan memberi Anda gambaran apakah mereka berasal dari sama populasi terutama jika populasi yang dimaksud tidak terdistribusi secara normal untuk Anda yang diberikan variabel.
sumber