Saya punya dua kelompok data. Masing-masing dengan distribusi beragam variabel yang berbeda. Saya mencoba menentukan apakah distribusi kedua kelompok ini berbeda secara signifikan secara statistik. Saya memiliki data dalam bentuk mentah dan disimpan lebih mudah untuk berurusan dengan kategori diskrit dengan jumlah frekuensi di masing-masing.
Tes / prosedur / metode apa yang harus saya gunakan untuk menentukan apakah kedua kelompok ini berbeda secara signifikan dan bagaimana saya melakukannya di SAS atau R (atau Oranye)?
distributions
statistical-significance
Jay Stevens
sumber
sumber
Jawaban:
Saya percaya bahwa ini memerlukan uji Kolmogorov – Smirnov dua sampel , atau sejenisnya. Uji Kolmogorov-Smirnov dua sampel didasarkan pada membandingkan perbedaan fungsi distribusi empiris (ECDF) dari dua sampel, yang berarti sensitif terhadap lokasi dan bentuk kedua sampel. Ini juga digeneralisasi ke bentuk multivarian.
Tes ini ditemukan dalam berbagai bentuk dalam paket yang berbeda di R, jadi jika Anda pada dasarnya cakap, yang harus Anda lakukan adalah menginstal salah satunya (mis. FBasics ), dan menjalankannya pada data sampel Anda.
sumber
proc npar1way
. Di R, selain ituks.test()
, adanortest
paket yang menyediakan beberapa tes penyesuaian lainnya.Saya akan mengajukan pertanyaan bodoh konsultan. Mengapa Anda ingin tahu apakah distribusi ini berbeda secara signifikan secara statistik?
Apakah data yang Anda gunakan adalah sampel representatif dari populasi atau proses, dan Anda ingin menilai bukti bahwa populasi atau proses itu berbeda? Jika demikian, maka tes statistik tepat untuk Anda. Tapi ini sepertinya pertanyaan aneh bagiku.
Atau, apakah Anda tertarik apakah Anda benar-benar perlu berperilaku seolah-olah populasi atau proses itu berbeda, terlepas dari kebenarannya? Maka Anda akan lebih baik menentukan fungsi kerugian, idealnya yang mengembalikan unit yang berarti bagi Anda, dan memperkirakan kerugian yang diharapkan ketika Anda (a) memperlakukan populasi sebagai berbeda, dan (b) memperlakukan mereka sebagai sama. Atau Anda dapat memilih sejumlah kuantil dari distribusi kerugian jika Anda ingin mengadopsi posisi yang lebih konservatif.
sumber
Anda mungkin tertarik menerapkan metode distribusi relatif. Panggil satu grup sebagai grup referensi, dan yang lainnya sebagai grup pembanding. Dengan cara yang mirip dengan membangun plot probabilitas-probabilitas, Anda dapat membuat CDF / PDF relatif, yang merupakan rasio kepadatan. Kepadatan relatif ini dapat digunakan untuk inferensi. Jika distribusi identik, Anda mengharapkan distribusi relatif seragam. Ada alat, grafis dan statistik, untuk mengeksplorasi dan memeriksa keberangkatan dari keseragaman.
Titik awal yang baik untuk mendapatkan pengertian yang lebih baik adalah Menerapkan Metode Distribusi Relatif di R dan paket reldist di R. Untuk detailnya, Anda harus merujuk ke buku, Metode Distribusi Relatif dalam Ilmu Sosial oleh Handcock dan Morris. Ada juga makalah oleh penulis yang membahas teknik yang relevan.
sumber
Salah satu ukuran perbedaan antara dua distribusi adalah kriteria "perbedaan rata-rata maksimum", yang pada dasarnya mengukur perbedaan antara rata-rata empiris dari sampel dari dua distribusi dalam Ruang Hilbert kernel Reproducing Kernel (RKHS). Lihat makalah ini "Metode kernel untuk dua sampel masalah" .
sumber
Saya tidak tahu cara menggunakan SAS / R / Orange, tapi sepertinya tes yang Anda butuhkan adalah tes chi-square .
sumber