Bagaimana menguji apakah dua distribusi multivariat diambil sampelnya dari populasi dasar yang sama?

13

Katakanlah Anda diberi dua set data multivarian, katakan yang lama dan yang baru, dan bahwa mereka seharusnya dihasilkan oleh proses yang sama (yang Anda tidak punya modelnya) tetapi mungkin, di suatu tempat di sepanjang jalur pengumpulan / pembuatan data, ada yang salah. Anda tidak ingin menggunakan data baru sebagai, katakanlah, set validasi untuk data lama atau untuk menambah data lama.

Anda dapat melakukan banyak statistik 1-d (per variabel), misalnya jumlah peringkat Wilcoxon, dan mencoba beberapa koreksi tes tetapi saya tidak yakin itu optimal (untuk menangkap seluk-beluk data multivariat apalagi masalah multi-tes). Salah satu caranya adalah dengan menggunakan classifier dan lihat apakah Anda dapat membedakan antara dua set data (diberi classifier optimal yang optimal). Itu tampaknya bekerja tetapi masih a) perhpa ada cara yang lebih baik b) Ini tidak benar-benar dirancang untuk memberi tahu Anda mengapa itu berbeda (jika tidak ada yang lain itu akan menggunakan prediktor terbaik dan mungkin kehilangan prediktor baik lainnya yang dikuasai oleh yang lebih baik)

adiamond
sumber

Jawaban:

3
http://131.95.113.139/courses/multivariate/mantel.pdf

Membahas dua cara yang mungkin dilakukan hanya jika dataset Anda berukuran sama. Pendekatan dasarnya adalah menghitung metrik jarak antara dua matriks yang Anda amati. Kemudian untuk menentukan apakah jarak itu signifikan, Anda menggunakan tes permutasi .

Jika dataset Anda tidak memiliki ukuran yang sama maka Anda dapat menggunakan uji cross-match meskipun tampaknya tidak terlalu populer. Alih-alih tes cross-match, Anda dapat mencoba naik atau turun pengambilan sampel data Anda sehingga ukurannya sama, lalu menggunakan salah satu pendekatan yang disebutkan dalam makalah pertama.

Amit Deshwar
sumber
Anda menyebutkan jika kami memiliki dataset ukuran yang tidak rata, gunakan uji cross-match. Namun mengikuti makalah yang Anda sebutkan, mereka menggunakan dataset yang sama dan terlihat berpasangan berdasarkan jarak. Sudahkah Anda menemukan bukti bahwa ini sedang digunakan? bahkan dalam catatan rilis untuk cross-match, contohnya menggunakan dataset yang sama
lukeg