Saya ingin tahu bagaimana sistem kencan online dapat menggunakan data survei untuk menentukan kecocokan.
Misalkan mereka memiliki data hasil dari pertandingan sebelumnya (misalnya, 1 = menikah bahagia, 0 = tidak ada tanggal 2).
Selanjutnya, anggaplah mereka memiliki 2 pertanyaan preferensi,
- "Seberapa besar Anda menikmati kegiatan di luar ruangan? (1 = sangat tidak suka, 5 = sangat suka)"
- "Seberapa optimiskah kamu tentang kehidupan? (1 = sangat tidak suka, 5 = sangat suka)"
Misalkan juga bahwa untuk setiap pertanyaan preferensi mereka memiliki indikator "Seberapa penting pasangan Anda berbagi preferensi Anda? (1 = tidak penting, 3 = sangat penting)"
Jika mereka memiliki 4 pertanyaan untuk setiap pasangan dan hasil untuk apakah pertandingan itu sukses, apa model dasar yang akan menggunakan informasi itu untuk memprediksi pertandingan di masa depan?
predictive-models
d_a_c321
sumber
sumber
Jawaban:
Saya pernah berbicara dengan seseorang yang bekerja untuk salah satu situs kencan online yang menggunakan teknik statistik (mereka mungkin lebih suka saya tidak mengatakan siapa). Itu cukup menarik - untuk memulainya mereka menggunakan hal-hal yang sangat sederhana, seperti tetangga terdekat dengan jarak euclidiean atau L_1 (cityblock) antara vektor profil, tetapi ada perdebatan apakah pencocokan dua orang yang terlalu mirip itu baik atau buruk benda. Dia kemudian melanjutkan dengan mengatakan bahwa sekarang mereka telah mengumpulkan banyak data (yang tertarik pada siapa, siapa yang berkencan, siapa yang menikah, dll.), Mereka menggunakannya untuk terus melatih model. Pekerjaan dalam kerangka kerja batch tambahan, di mana mereka memperbarui model mereka secara berkala menggunakan batch data, dan kemudian menghitung ulang probabilitas kecocokan pada database. Hal yang cukup menarik, tapi aku
sumber
Anda meminta model sederhana. Inilah cara saya memulai dengan kode R:
outdoorDif = perbedaan jawaban dua orang tentang seberapa besar mereka menikmati kegiatan di luar ruangan. outdoorImport = rata-rata dari dua jawaban tentang pentingnya kecocokan mengenai jawaban tentang kenikmatan kegiatan di luar ruangan.
Tanda * menunjukkan bahwa istilah sebelumnya dan berikut ini berinteraksi dan juga disertakan secara terpisah.
Anda menyarankan bahwa data kecocokan adalah biner dengan hanya dua opsi, "menikah bahagia" dan "tidak ada kencan kedua," jadi itulah yang saya asumsikan dalam memilih model logit. Ini sepertinya tidak realistis. Jika Anda memiliki lebih dari dua kemungkinan hasil, Anda harus beralih ke logit multinomial atau teratur atau model semacam itu.
Jika, seperti yang Anda sarankan, beberapa orang memiliki beberapa percobaan yang dicoba maka itu mungkin akan menjadi hal yang sangat penting untuk dipertimbangkan dalam model. Salah satu cara untuk melakukannya adalah dengan memiliki variabel yang terpisah yang mengindikasikan # dari percobaan yang dicoba sebelumnya untuk setiap orang, dan kemudian berinteraksi keduanya.
sumber
Satu pendekatan sederhana adalah sebagai berikut.
Untuk dua pertanyaan preferensi, ambil perbedaan absolut antara dua tanggapan responden, berikan dua variabel, katakan z1 dan z2, alih-alih empat.
Untuk pertanyaan-pertanyaan penting, saya dapat membuat skor yang menggabungkan dua tanggapan. Jika tanggapannya adalah, katakanlah, (1,1), saya akan memberikan 1, a (1,2) atau (2,1) mendapat 2, a (1,3) atau (3,1) mendapat 3, a (2,3) atau (3,2) mendapat nilai 4, dan (3,3) mendapat nilai 5. Mari kita sebut bahwa "skor penting." Alternatifnya adalah hanya menggunakan max (response), memberikan 3 kategori bukannya 5, tapi saya pikir versi 5 kategori lebih baik.
Sekarang saya akan membuat sepuluh variabel, x1 - x10 (untuk konkret), semua dengan nilai default nol. Untuk pengamatan dengan skor penting untuk pertanyaan pertama = 1, x1 = z1. Jika skor kepentingan untuk pertanyaan kedua juga = 1, x2 = z2. Untuk pengamatan dengan skor kepentingan untuk pertanyaan pertama = 2, x3 = z1 dan jika skor kepentingan untuk pertanyaan kedua = 2, x4 = z2, dan seterusnya. Untuk setiap pengamatan, tepat satu dari x1, x3, x5, x7, x9! = 0, dan demikian pula untuk x2, x4, x6, x8, x10.
Setelah melakukan semua itu, saya akan menjalankan regresi logistik dengan hasil biner sebagai variabel target dan x1 - x10 sebagai regressor.
Versi yang lebih canggih dari hal ini dapat menciptakan skor yang lebih penting dengan membiarkan kepentingan responden pria dan wanita diperlakukan secara berbeda, misalnya a (1,2)! = A (2,1), di mana kami telah memerintahkan tanggapan berdasarkan jenis kelamin.
Salah satu kekurangan dari model ini adalah bahwa Anda mungkin memiliki beberapa pengamatan dari orang yang sama, yang berarti "kesalahan", secara longgar, tidak independen di seluruh pengamatan. Namun, dengan banyak orang dalam sampel, saya mungkin hanya mengabaikan ini, untuk lulus pertama, atau membuat sampel di mana tidak ada duplikat.
Kekurangan lainnya adalah masuk akal bahwa ketika kepentingan meningkat, efek dari perbedaan yang diberikan antara preferensi pada p (gagal) juga akan meningkat, yang menyiratkan hubungan antara koefisien (x1, x3, x5, x7, x9) dan juga antara koefisien (x2, x4, x6, x8, x10). (Mungkin bukan pemesanan lengkap, karena tidak jelas secara apriori bagi saya bagaimana skor kepentingan (2,2) berhubungan dengan skor kepentingan (1,3).) Namun, kami belum menerapkannya dalam model. Saya mungkin akan mengabaikan itu pada awalnya, dan melihat apakah saya terkejut dengan hasilnya.
Keuntungan dari pendekatan ini adalah tidak memaksakan asumsi tentang bentuk fungsional hubungan antara "kepentingan" dan perbedaan antara tanggapan preferensi. Ini bertentangan dengan komentar shortfall sebelumnya, tapi saya pikir kurangnya bentuk fungsional yang diberlakukan cenderung lebih menguntungkan daripada kegagalan terkait untuk memperhitungkan hubungan yang diharapkan antara koefisien.
sumber