Katakanlah Anda diberi dua set data multivarian, katakan yang lama dan yang baru, dan bahwa mereka seharusnya dihasilkan oleh proses yang sama (yang Anda tidak punya modelnya) tetapi mungkin, di suatu tempat di sepanjang jalur pengumpulan / pembuatan data, ada yang salah. Anda tidak ingin menggunakan data baru sebagai, katakanlah, set validasi untuk data lama atau untuk menambah data lama.
Anda dapat melakukan banyak statistik 1-d (per variabel), misalnya jumlah peringkat Wilcoxon, dan mencoba beberapa koreksi tes tetapi saya tidak yakin itu optimal (untuk menangkap seluk-beluk data multivariat apalagi masalah multi-tes). Salah satu caranya adalah dengan menggunakan classifier dan lihat apakah Anda dapat membedakan antara dua set data (diberi classifier optimal yang optimal). Itu tampaknya bekerja tetapi masih a) perhpa ada cara yang lebih baik b) Ini tidak benar-benar dirancang untuk memberi tahu Anda mengapa itu berbeda (jika tidak ada yang lain itu akan menggunakan prediktor terbaik dan mungkin kehilangan prediktor baik lainnya yang dikuasai oleh yang lebih baik)
sumber
Cari T ^ 2 Hotelling, atau jika Anda memiliki data yang sangat redup, lihat ini: http://normaldeviate.wordpress.com/2012/07/14/modern-two-sample-tests/
sumber