Investigasi perbedaan antar populasi

9

Katakanlah kita memiliki sampel dari dua populasi: Adan B. Mari kita asumsikan populasi ini terbuat dari individu dan kami memilih untuk menggambarkan individu dalam hal fitur. Beberapa fitur ini bersifat kategorikal (misalnya apakah mereka mengemudi untuk bekerja?) Dan beberapa bersifat numerik (mis. Tingginya). Sebut saja fitur-fitur ini: . Kami mengumpulkan ratusan fitur ini (mis. N = 200), mari asumsikan untuk kesederhanaan, tanpa kesalahan atau kebisingan di semua individu.X1Xn

Kami berhipotesis dua populasi berbeda. Tujuan kami adalah menjawab dua pertanyaan berikut:

  1. Apakah mereka sebenarnya sangat berbeda?
  2. Apa perbedaan yang signifikan di antara mereka?

Metode seperti pohon keputusan (misalnya hutan acak) dan analisis regresi linier dapat membantu. Sebagai contoh, seseorang dapat melihat kepentingan fitur di hutan acak atau koefisien yang sesuai dalam regresi linier untuk memahami apa yang mungkin membedakan kelompok-kelompok ini, dan mengeksplorasi hubungan antara fitur dan populasi.

Sebelum saya menempuh rute ini, saya ingin mengetahui pilihan saya di sini, apa yang baik dan modern vs praktik buruk. Harap dicatat bahwa tujuan saya bukan prediksi semata, tetapi menguji dan menemukan perbedaan yang signifikan di antara grup.

Apa saja pendekatan berprinsip untuk mengatasi masalah ini?

Berikut beberapa kekhawatiran yang saya miliki:

  • Metode seperti analisis regresi linier mungkin tidak sepenuhnya menjawab (2), kan? Misalnya satu kecocokan dapat membantu menemukan beberapa perbedaan, tetapi tidak semua perbedaan signifikan. Sebagai contoh, multi-collinearity dapat mencegah kita dari menemukan bagaimana semua fitur berbeda-beda antar kelompok (setidaknya pada satu kecocokan). Untuk alasan yang sama, saya berharap ANOVA tidak dapat memberikan jawaban lengkap untuk (2) juga.

  • Tidak sepenuhnya jelas bagaimana pendekatan prediksi akan menjawab (1). Misalnya, fungsi klasifikasi / kehilangan prediksi yang harus kita perkecil? Dan bagaimana kita menguji apakah kelompok-kelompok itu berbeda atau tidak begitu kita cocok? Akhirnya, saya khawatir bahwa jawaban yang saya dapat (1) tergantung pada serangkaian model klasifikasi yang saya gunakan.

Amelio Vazquez-Reina
sumber

Jawaban:

5

Mari kita pikirkan masalahnya sebagai berikut.

Katakanlah dan Y adalah variabel biner berdiri untuk populasi: Y = 0 berarti populasi pertama, Y = 1 populasi berarti kedua. Hipotesis nol dapat dinyatakan dalam beberapa cara yang setara:X=(X1,X2,..Xn)YY=0Y=1

  • : populasinya samaH0
  • : distribusi X yang diberikan Y = 0 sama dengan distribusi X yang diberikan Y = 1H0XY=0XY=1
  • : X dan Y bersifat independenH0XY
  • : untuk fungsi apa pun f ke { 0 , 1 } , f ( X ) dan Y adalah independenH0f{0,1}f(X)Y

Saya tidak tahu banyak tentang hutan acak, tetapi mereka mungkin dianggap sebagai prediktor serba guna yang menghindari pemasangan berlebihan. Jika kita sedikit mengidealkannya: itu adalah sesuatu yang mampu mendeteksi segala jenis hubungan antara dan segala jenis fitur X tanpa terlalu pas.YX

Dimungkinkan untuk mencoba sesuatu berdasarkan ini. Membagi dataset asli menjadi satu set pelatihan dan satu set tes. Kemudian:

  • latih hutan acak yang memprediksi Y dari X pada set pelatihan.fYX
  • membuat uji independensi chi-squared sederhana (dengan risiko ) antara f ( X ) dan Y pada set tesαf(X)Y

Tes ini cukup konservatif. Jika hutan acak adalah metode yang buruk, paling buruk menghasilkan dumb , maka itu akan menolak H 0 dengan probabilitas kurang dari α (ketika H 0 benar). Over-fitting bahkan tidak akan menjadi masalah karena kami menggunakan tes dan set pelatihan. Namun, kekuatan tes secara langsung tergantung pada kecerdasan metode hutan acak (atau prediktor apa pun yang digunakan).f(X)H0αH0

Perhatikan bahwa Anda dapat menggunakan beberapa prediktor yang mungkin: seperti regresi logistik biasa dulu, lalu regresi logistik dengan beberapa fitur lintas, lalu beberapa pohon keputusan, lalu hutan acak ... Tetapi jika Anda melakukannya, Anda harus menyesuaikan dengan jumlah tes untuk menghindari "penemuan palsu". Lihat: Penyesuaian alfa untuk beberapa pengujianα

Benoit Sanchez
sumber
Terima kasih Benoit (+1). Ini terlihat berlaku untuk pertanyaan (1). Adakah ide tentang cara mengatasi (2) dengan ini atau pendekatan alternatif?
Amelio Vazquez-Reina
α
α
Juga, harapan saya dengan RF adalah untuk mengidentifikasi fitur yang menangkap perbedaan (yaitu mendapatkan setidaknya sebagian jawaban untuk (2)). Mereka tidak ideal untuk interpretabilitas (walaupun saya berasumsi seseorang dapat melakukannya dengan membatasi ketinggian mereka). Dalam kedua kasus tersebut, hal yang sama dapat dikatakan tentang DTs bukan? Hanya memastikan saya memahami komentar Anda dengan baik.
Amelio Vazquez-Reina
αn1(1α)n
3

Anda tidak mengatakan berapa banyak fitur yang tersedia dalam data. Sedikit, banyak, masif? Bisakah kita berasumsi mereka adalah fitur yang sama antara populasi, semua diukur menggunakan alat, metode, dan modalitas yang sama? Jika tidak, maka Anda memiliki masalah yang lebih besar di mana model pengukuran kesalahan-dalam-variabel mungkin bekerja.

@benoitsanchez tampaknya telah menjawab pertanyaan # 1).

Wrt # 2), saya tidak yakin RF dapat membantu. Dengan menggunakan model yang lebih formal seperti ANOVA satu arah yang diterapkan pada satu fitur pada satu waktu, sebuah uji perbedaan antara populasi untuk fitur dapat dikembangkan. Dengan meringkas hasil tes tersebut, berdasarkan pada besarnya tes serta signifikansinya, profil deskriptif tentang bagaimana populasi berbeda di seluruh fitur menjadi mungkin. Ini adalah solusi yang diakui khusus dan heuristik yang mungkin tidak cukup ketat untuk selera, preferensi, dan pelatihan Anda.

Tidak pandai notasi tipe-Lateks, izinkan saya menjelaskan bagaimana tes ini bisa bekerja: pertama, buat semacam loop makro yang melewati semua fitur, satu fitur pada satu waktu. Dengan setiap lintasan loop, fitur baru menjadi target atau DV dengan X yang terdiri dari variabel dummy untuk populasi serta setiap variabel kontrol yang sesuai. Pastikan bahwa kontrol yang sama digunakan untuk setiap fitur serta bahwa data yang mendasarinya persis sama untuk semua ANOVA, menghilangkan variasi yang disebabkan oleh perubahan-perubahan dari sampel data yang terbatas. Gabungkan nilai-nilai F-test untuk variabel dummy untuk setiap fitur. Ini akan memberikan metrik standar yang memungkinkan perbandingan antar fitur. Tes-F lebih disukai daripada beta yang dipasang sejak betatidak standar, diekspresikan dalam unit dan pengembang setiap fitur individu.

Komentar terakhir Anda, "Saya khawatir bahwa jawaban yang saya dapat (1) mungkin tergantung pada serangkaian model klasifikasi / regresi yang saya gunakan," selalu benar. Jawabannya sangat bervariasi sebagai fungsi dari model yang digunakan. Ini juga merupakan ekspresi dari rasa tidak enak yang biasa diamati di antara para ahli statistik yang lebih kuat secara teoretis dan terlatih klasik yang tidak nyaman dengan atau mengalami kesulitan mengakui sifat non-deterministik dari pemodelan statistik yang diterapkan. Penangkal yang sangat baik untuk gejala-gejala ini adalah buku Efron and Hastie, Computer Age Statistics Inference . Mereka membawa pemodelan statistik ke dalam c ke-21, era ilmu data dan pembelajaran mesin, dengan secara jujur ​​mengakui sifat ituratif, hampir sama, sifat heuristik dari semuamodel yang memiliki istilah kesalahan. Seseorang tidak harus menjadi seorang Bayesian untuk mengenali kebenaran yang melekat dalam pengamatan ini. Mereka adalah perspektif yang menyegarkan yang berbeda dari determinisme kaku praktik statistik klasik, ke-20 yang mengangkat tangan ketika, misalnya, matriks produk-silang tidak akan membalik dan / atau beberapa asumsi model pedantic tidak terpenuhi.

Mike Hunter
sumber
Terima kasih @ Johnson. Ketika Anda mengatakan "Agregasikan nilai F-test untuk variabel dummy untuk setiap fitur" apa yang Anda maksud sebenarnya? yaitu apa yang akan Anda lakukan dengan hasil ini? Juga, apa yang Anda maksud dengan beta dalam konteks ini? Akhirnya bukankah pendekatan berulang ini akan terbatas pada tidak ada interaksi? Misalnya, menggunakan contoh asli, bagaimana jika ada perbedaan yang signifikan dalam "ketinggian individu yang mengemudi untuk bekerja?"
Amelio Vazquez-Reina
Juga, mengapa Anda melanjutkan dengan tes ANOVA 1 arah yang bertentangan dengan melakukan ANOVA multi-arah?
Amelio Vazquez-Reina
2
Pertanyaan yang bagus Dalam hal profil deskriptif yang dihasilkan, saya berpikir untuk hanya merekam uji-F dan signifikansi terkait atau nilai-p untuk setiap fitur dan kemudian memeringkatnya dari tinggi ke rendah. Karena uji-F adalah rasio chi-kuadrat dan, oleh karena itu, tidak simetris, berarti populasi dapat ditambahkan ke laporan untuk membantu dalam memahami arah hasil. Atau, uji-t dapat membantu dalam pemahaman ini. Profil ini akan membantu dalam memahami besarnya atau kekuatan fitur sebagai fungsi dari populasi yang mendasarinya.
Mike Hunter
Sebagaimana dicatat, variabel kontrol harus ditambahkan sebagaimana mestinya. Ini dapat mencakup interaksi, selama mereka secara konsisten digunakan di semua model. Memperkenalkan faktor tambahan akan, menurut definisi, akan memperluas model dari satu arah ke regresi berganda atau ANOVA.
Mike Hunter