Katakanlah kita memiliki sampel dari dua populasi: A
dan B
. Mari kita asumsikan populasi ini terbuat dari individu dan kami memilih untuk menggambarkan individu dalam hal fitur. Beberapa fitur ini bersifat kategorikal (misalnya apakah mereka mengemudi untuk bekerja?) Dan beberapa bersifat numerik (mis. Tingginya). Sebut saja fitur-fitur ini: . Kami mengumpulkan ratusan fitur ini (mis. N = 200), mari asumsikan untuk kesederhanaan, tanpa kesalahan atau kebisingan di semua individu.
Kami berhipotesis dua populasi berbeda. Tujuan kami adalah menjawab dua pertanyaan berikut:
- Apakah mereka sebenarnya sangat berbeda?
- Apa perbedaan yang signifikan di antara mereka?
Metode seperti pohon keputusan (misalnya hutan acak) dan analisis regresi linier dapat membantu. Sebagai contoh, seseorang dapat melihat kepentingan fitur di hutan acak atau koefisien yang sesuai dalam regresi linier untuk memahami apa yang mungkin membedakan kelompok-kelompok ini, dan mengeksplorasi hubungan antara fitur dan populasi.
Sebelum saya menempuh rute ini, saya ingin mengetahui pilihan saya di sini, apa yang baik dan modern vs praktik buruk. Harap dicatat bahwa tujuan saya bukan prediksi semata, tetapi menguji dan menemukan perbedaan yang signifikan di antara grup.
Apa saja pendekatan berprinsip untuk mengatasi masalah ini?
Berikut beberapa kekhawatiran yang saya miliki:
Metode seperti analisis regresi linier mungkin tidak sepenuhnya menjawab (2), kan? Misalnya satu kecocokan dapat membantu menemukan beberapa perbedaan, tetapi tidak semua perbedaan signifikan. Sebagai contoh, multi-collinearity dapat mencegah kita dari menemukan bagaimana semua fitur berbeda-beda antar kelompok (setidaknya pada satu kecocokan). Untuk alasan yang sama, saya berharap ANOVA tidak dapat memberikan jawaban lengkap untuk (2) juga.
Tidak sepenuhnya jelas bagaimana pendekatan prediksi akan menjawab (1). Misalnya, fungsi klasifikasi / kehilangan prediksi yang harus kita perkecil? Dan bagaimana kita menguji apakah kelompok-kelompok itu berbeda atau tidak begitu kita cocok? Akhirnya, saya khawatir bahwa jawaban yang saya dapat (1) tergantung pada serangkaian model klasifikasi yang saya gunakan.
sumber
Anda tidak mengatakan berapa banyak fitur yang tersedia dalam data. Sedikit, banyak, masif? Bisakah kita berasumsi mereka adalah fitur yang sama antara populasi, semua diukur menggunakan alat, metode, dan modalitas yang sama? Jika tidak, maka Anda memiliki masalah yang lebih besar di mana model pengukuran kesalahan-dalam-variabel mungkin bekerja.
@benoitsanchez tampaknya telah menjawab pertanyaan # 1).
Wrt # 2), saya tidak yakin RF dapat membantu. Dengan menggunakan model yang lebih formal seperti ANOVA satu arah yang diterapkan pada satu fitur pada satu waktu, sebuah uji perbedaan antara populasi untuk fitur dapat dikembangkan. Dengan meringkas hasil tes tersebut, berdasarkan pada besarnya tes serta signifikansinya, profil deskriptif tentang bagaimana populasi berbeda di seluruh fitur menjadi mungkin. Ini adalah solusi yang diakui khusus dan heuristik yang mungkin tidak cukup ketat untuk selera, preferensi, dan pelatihan Anda.
Tidak pandai notasi tipe-Lateks, izinkan saya menjelaskan bagaimana tes ini bisa bekerja: pertama, buat semacam loop makro yang melewati semua fitur, satu fitur pada satu waktu. Dengan setiap lintasan loop, fitur baru menjadi target atau DV dengan X yang terdiri dari variabel dummy untuk populasi serta setiap variabel kontrol yang sesuai. Pastikan bahwa kontrol yang sama digunakan untuk setiap fitur serta bahwa data yang mendasarinya persis sama untuk semua ANOVA, menghilangkan variasi yang disebabkan oleh perubahan-perubahan dari sampel data yang terbatas. Gabungkan nilai-nilai F-test untuk variabel dummy untuk setiap fitur. Ini akan memberikan metrik standar yang memungkinkan perbandingan antar fitur. Tes-F lebih disukai daripada beta yang dipasang sejak betatidak standar, diekspresikan dalam unit dan pengembang setiap fitur individu.
Komentar terakhir Anda, "Saya khawatir bahwa jawaban yang saya dapat (1) mungkin tergantung pada serangkaian model klasifikasi / regresi yang saya gunakan," selalu benar. Jawabannya sangat bervariasi sebagai fungsi dari model yang digunakan. Ini juga merupakan ekspresi dari rasa tidak enak yang biasa diamati di antara para ahli statistik yang lebih kuat secara teoretis dan terlatih klasik yang tidak nyaman dengan atau mengalami kesulitan mengakui sifat non-deterministik dari pemodelan statistik yang diterapkan. Penangkal yang sangat baik untuk gejala-gejala ini adalah buku Efron and Hastie, Computer Age Statistics Inference . Mereka membawa pemodelan statistik ke dalam c ke-21, era ilmu data dan pembelajaran mesin, dengan secara jujur mengakui sifat ituratif, hampir sama, sifat heuristik dari semuamodel yang memiliki istilah kesalahan. Seseorang tidak harus menjadi seorang Bayesian untuk mengenali kebenaran yang melekat dalam pengamatan ini. Mereka adalah perspektif yang menyegarkan yang berbeda dari determinisme kaku praktik statistik klasik, ke-20 yang mengangkat tangan ketika, misalnya, matriks produk-silang tidak akan membalik dan / atau beberapa asumsi model pedantic tidak terpenuhi.
sumber