Menilai signifikansi perbedaan dalam distribusi

22

Saya punya dua kelompok data. Masing-masing dengan distribusi beragam variabel yang berbeda. Saya mencoba menentukan apakah distribusi kedua kelompok ini berbeda secara signifikan secara statistik. Saya memiliki data dalam bentuk mentah dan disimpan lebih mudah untuk berurusan dengan kategori diskrit dengan jumlah frekuensi di masing-masing.

Tes / prosedur / metode apa yang harus saya gunakan untuk menentukan apakah kedua kelompok ini berbeda secara signifikan dan bagaimana saya melakukannya di SAS atau R (atau Oranye)?

Jay Stevens
sumber
2
Apakah Anda tertarik apakah distribusinya dalam bentuk yang berbeda (mis. Normal, poisson, dll.) Atau apakah parameternya berbeda (mis. Mean atau sd dari distribusi normal) atau keduanya?
Jeromy Anglim
Sebuah pertanyaan terkait: stats.stackexchange.com/questions/9311/…
GaBorgulya

Jawaban:

15

Saya percaya bahwa ini memerlukan uji Kolmogorov – Smirnov dua sampel , atau sejenisnya. Uji Kolmogorov-Smirnov dua sampel didasarkan pada membandingkan perbedaan fungsi distribusi empiris (ECDF) dari dua sampel, yang berarti sensitif terhadap lokasi dan bentuk kedua sampel. Ini juga digeneralisasi ke bentuk multivarian.

Tes ini ditemukan dalam berbagai bentuk dalam paket yang berbeda di R, jadi jika Anda pada dasarnya cakap, yang harus Anda lakukan adalah menginstal salah satunya (mis. FBasics ), dan menjalankannya pada data sampel Anda.

John L. Taylor
sumber
5
Untuk R ks.test dalam paket "stats" default dapat melakukan tes KS tanpa menginstal paket tambahan.
russellpierce
Di SAS, tes KS tersedia di proc npar1way. Di R, selain itu ks.test(), ada nortestpaket yang menyediakan beberapa tes penyesuaian lainnya.
chl
8

Saya akan mengajukan pertanyaan bodoh konsultan. Mengapa Anda ingin tahu apakah distribusi ini berbeda secara signifikan secara statistik?

Apakah data yang Anda gunakan adalah sampel representatif dari populasi atau proses, dan Anda ingin menilai bukti bahwa populasi atau proses itu berbeda? Jika demikian, maka tes statistik tepat untuk Anda. Tapi ini sepertinya pertanyaan aneh bagiku.

Atau, apakah Anda tertarik apakah Anda benar-benar perlu berperilaku seolah-olah populasi atau proses itu berbeda, terlepas dari kebenarannya? Maka Anda akan lebih baik menentukan fungsi kerugian, idealnya yang mengembalikan unit yang berarti bagi Anda, dan memperkirakan kerugian yang diharapkan ketika Anda (a) memperlakukan populasi sebagai berbeda, dan (b) memperlakukan mereka sebagai sama. Atau Anda dapat memilih sejumlah kuantil dari distribusi kerugian jika Anda ingin mengadopsi posisi yang lebih konservatif.

Andrew Robinson
sumber
Nada bicara Anda sedikit aneh dan merendahkan ... tetapi Anda benar, saya pikir apa yang sebenarnya saya cari adalah apakah saya dapat berasumsi bahwa dua distribusi itu sama.
Jay Stevens
3
Maaf Anda tidak menyukai nada saya. Jika Anda ingin tahu apakah Anda dapat berasumsi bahwa kedua distribusi itu sama, maka KS akan menyesatkan Anda, karena itu menguji hipotesis nol bahwa kedua distribusi itu sama.
Andrew Robinson
5

Anda mungkin tertarik menerapkan metode distribusi relatif. Panggil satu grup sebagai grup referensi, dan yang lainnya sebagai grup pembanding. Dengan cara yang mirip dengan membangun plot probabilitas-probabilitas, Anda dapat membuat CDF / PDF relatif, yang merupakan rasio kepadatan. Kepadatan relatif ini dapat digunakan untuk inferensi. Jika distribusi identik, Anda mengharapkan distribusi relatif seragam. Ada alat, grafis dan statistik, untuk mengeksplorasi dan memeriksa keberangkatan dari keseragaman.

Titik awal yang baik untuk mendapatkan pengertian yang lebih baik adalah Menerapkan Metode Distribusi Relatif di R dan paket reldist di R. Untuk detailnya, Anda harus merujuk ke buku, Metode Distribusi Relatif dalam Ilmu Sosial oleh Handcock dan Morris. Ada juga makalah oleh penulis yang membahas teknik yang relevan.

ars
sumber
2

Salah satu ukuran perbedaan antara dua distribusi adalah kriteria "perbedaan rata-rata maksimum", yang pada dasarnya mengukur perbedaan antara rata-rata empiris dari sampel dari dua distribusi dalam Ruang Hilbert kernel Reproducing Kernel (RKHS). Lihat makalah ini "Metode kernel untuk dua sampel masalah" .

ebony1
sumber
Metode ini paling kuat menurut saya tetapi tidak dikenal karena berfungsi sama baiknya jika Anda memiliki sampel hingga untuk distribusi Anda (dan dengan demikian distribusi sampel Anda tidak sepenuhnya kontinu). Ini juga bekerja dengan distribusi multinomial yang untuk tes KS masih merupakan penelitian aktif sejauh yang saya ketahui
www3
-1

Saya tidak tahu cara menggunakan SAS / R / Orange, tapi sepertinya tes yang Anda butuhkan adalah tes chi-square .

Suresh Venkatasubramanian
sumber
Saya pikir Chi-Sq terutama untuk data kategorikal (tabel kontingensi) vs kontinu?
Jay Stevens
1
Hmmm saya sebenarnya suka jawaban tes KS lebih baik dari pada jawaban saya!
Suresh Venkatasubramanian
1
Tidak, ini tidak benar.
SmallChess