Statistik untuk situs kencan online

10

Saya ingin tahu bagaimana sistem kencan online dapat menggunakan data survei untuk menentukan kecocokan.

Misalkan mereka memiliki data hasil dari pertandingan sebelumnya (misalnya, 1 = menikah bahagia, 0 = tidak ada tanggal 2).

Selanjutnya, anggaplah mereka memiliki 2 pertanyaan preferensi,

  • "Seberapa besar Anda menikmati kegiatan di luar ruangan? (1 = sangat tidak suka, 5 = sangat suka)"
  • "Seberapa optimiskah kamu tentang kehidupan? (1 = sangat tidak suka, 5 = sangat suka)"

Misalkan juga bahwa untuk setiap pertanyaan preferensi mereka memiliki indikator "Seberapa penting pasangan Anda berbagi preferensi Anda? (1 = tidak penting, 3 = sangat penting)"

Jika mereka memiliki 4 pertanyaan untuk setiap pasangan dan hasil untuk apakah pertandingan itu sukses, apa model dasar yang akan menggunakan informasi itu untuk memprediksi pertandingan di masa depan?

d_a_c321
sumber
2
Saya pikir pertandingan sukses terjadi ketika gadis itu cantik atau laki-laki kaya. Yang lainnya sekunder.
user4951
4
Periksa blog.okcupid.com - di suatu tempat mereka berbicara tentang model pencocokan yang mendasarinya.
Felix S
Bisakah Anda menyebutkan hal-hal seperti apa yang Anda ingin lebih mendalam? Jawaban Michael adalah gambaran yang cukup solid.
Dan
Jika Anda membaca paten (paten 6.735.568 - google.com/... ) untuk EHarmony sistem mereka menggunakan kombinasi Analisis Komponen Utama, Analisis Faktor, dan menggunakan Jaringan Saraf Tiruan. Seperti orang lain telah menyebutkan metode seperti K-NN, CARTS, dan GLM akan bekerja dengan baik juga.
Chris Simokat
@ChrisSimokat - WOW! Terima kasih banyak untuk tautannya yang menakjubkan. Itu menarik. Saya tidak pernah menyangka Anda bisa menggunakan "statistik" metode dan algoritma.
d_a_c321

Jawaban:

4

Saya pernah berbicara dengan seseorang yang bekerja untuk salah satu situs kencan online yang menggunakan teknik statistik (mereka mungkin lebih suka saya tidak mengatakan siapa). Itu cukup menarik - untuk memulainya mereka menggunakan hal-hal yang sangat sederhana, seperti tetangga terdekat dengan jarak euclidiean atau L_1 (cityblock) antara vektor profil, tetapi ada perdebatan apakah pencocokan dua orang yang terlalu mirip itu baik atau buruk benda. Dia kemudian melanjutkan dengan mengatakan bahwa sekarang mereka telah mengumpulkan banyak data (yang tertarik pada siapa, siapa yang berkencan, siapa yang menikah, dll.), Mereka menggunakannya untuk terus melatih model. Pekerjaan dalam kerangka kerja batch tambahan, di mana mereka memperbarui model mereka secara berkala menggunakan batch data, dan kemudian menghitung ulang probabilitas kecocokan pada database. Hal yang cukup menarik, tapi aku

tdc
sumber
3

Anda meminta model sederhana. Inilah cara saya memulai dengan kode R:

 glm(match ~ outdoorDif*outdoorImport + optimistDif*optimistImport,
     family=binomial(link="logit"))

outdoorDif = perbedaan jawaban dua orang tentang seberapa besar mereka menikmati kegiatan di luar ruangan. outdoorImport = rata-rata dari dua jawaban tentang pentingnya kecocokan mengenai jawaban tentang kenikmatan kegiatan di luar ruangan.

Tanda * menunjukkan bahwa istilah sebelumnya dan berikut ini berinteraksi dan juga disertakan secara terpisah.

Anda menyarankan bahwa data kecocokan adalah biner dengan hanya dua opsi, "menikah bahagia" dan "tidak ada kencan kedua," jadi itulah yang saya asumsikan dalam memilih model logit. Ini sepertinya tidak realistis. Jika Anda memiliki lebih dari dua kemungkinan hasil, Anda harus beralih ke logit multinomial atau teratur atau model semacam itu.

Jika, seperti yang Anda sarankan, beberapa orang memiliki beberapa percobaan yang dicoba maka itu mungkin akan menjadi hal yang sangat penting untuk dipertimbangkan dalam model. Salah satu cara untuk melakukannya adalah dengan memiliki variabel yang terpisah yang mengindikasikan # dari percobaan yang dicoba sebelumnya untuk setiap orang, dan kemudian berinteraksi keduanya.

Michael Bishop
sumber
Terima kasih atas jawaban yang bagus .. Aku memberimu hadiah! :) Itu sepertinya pendekatan yang bagus. Mungkin jika Anda memiliki N pertanyaan yang cocok dengan kategori seperti M (mis., Pertanyaan atletik), Anda dapat memperkaya model menggunakan rata-rata kepentingan dan perbedaan dalam kategori itu dan menambahkannya sebagai istilah tambahan. Itu tidak sempurna, tapi itu mungkin cara sederhana untuk menangkap interaksi beberapa variabel yang berkorelasi. Terima kasih lagi, saya akan senang mendengar pemikiran lain yang tidak membuat jawaban Anda;).
d_a_c321
Haruskah Anda tidak menormalkan jawaban terlebih dahulu? Jika semua orang menikmati alam bebas, maka jawaban luar harus menjadi kurang relevan, karena itu akan menjadi alat prediksi yang buruk.
Sklivvz
@ Skliwz, saya tidak yakin bagaimana Anda akan menormalkan jawaban pilihan ganda (ordinal). Juga, ingat bahwa transformasi linear dari variabel prediktor kontinu kadang-kadang diinginkan karena alasan yang dibahas di sini: stats.stackexchange.com/q/7112/3748 dan di sini: stats.stackexchange.com/q/19216/3748 tetapi mereka tidak akan mengubah model prediksi kecuali beberapa masalah komputasi yang tidak biasa. Jika semua orang menikmati alam bebas, di luar ruangan juga jawaban di luar ruangan kurang relevan, tapi saya rasa itu bukan masalah bagi model seperti yang saya sebutkan. (Bukan berarti model saya sempurna)
Michael Bishop
1

Satu pendekatan sederhana adalah sebagai berikut.

Untuk dua pertanyaan preferensi, ambil perbedaan absolut antara dua tanggapan responden, berikan dua variabel, katakan z1 dan z2, alih-alih empat.

Untuk pertanyaan-pertanyaan penting, saya dapat membuat skor yang menggabungkan dua tanggapan. Jika tanggapannya adalah, katakanlah, (1,1), saya akan memberikan 1, a (1,2) atau (2,1) mendapat 2, a (1,3) atau (3,1) mendapat 3, a (2,3) atau (3,2) mendapat nilai 4, dan (3,3) mendapat nilai 5. Mari kita sebut bahwa "skor penting." Alternatifnya adalah hanya menggunakan max (response), memberikan 3 kategori bukannya 5, tapi saya pikir versi 5 kategori lebih baik.

Sekarang saya akan membuat sepuluh variabel, x1 - x10 (untuk konkret), semua dengan nilai default nol. Untuk pengamatan dengan skor penting untuk pertanyaan pertama = 1, x1 = z1. Jika skor kepentingan untuk pertanyaan kedua juga = 1, x2 = z2. Untuk pengamatan dengan skor kepentingan untuk pertanyaan pertama = 2, x3 = z1 dan jika skor kepentingan untuk pertanyaan kedua = 2, x4 = z2, dan seterusnya. Untuk setiap pengamatan, tepat satu dari x1, x3, x5, x7, x9! = 0, dan demikian pula untuk x2, x4, x6, x8, x10.

Setelah melakukan semua itu, saya akan menjalankan regresi logistik dengan hasil biner sebagai variabel target dan x1 - x10 sebagai regressor.

Versi yang lebih canggih dari hal ini dapat menciptakan skor yang lebih penting dengan membiarkan kepentingan responden pria dan wanita diperlakukan secara berbeda, misalnya a (1,2)! = A (2,1), di mana kami telah memerintahkan tanggapan berdasarkan jenis kelamin.

Salah satu kekurangan dari model ini adalah bahwa Anda mungkin memiliki beberapa pengamatan dari orang yang sama, yang berarti "kesalahan", secara longgar, tidak independen di seluruh pengamatan. Namun, dengan banyak orang dalam sampel, saya mungkin hanya mengabaikan ini, untuk lulus pertama, atau membuat sampel di mana tidak ada duplikat.

Kekurangan lainnya adalah masuk akal bahwa ketika kepentingan meningkat, efek dari perbedaan yang diberikan antara preferensi pada p (gagal) juga akan meningkat, yang menyiratkan hubungan antara koefisien (x1, x3, x5, x7, x9) dan juga antara koefisien (x2, x4, x6, x8, x10). (Mungkin bukan pemesanan lengkap, karena tidak jelas secara apriori bagi saya bagaimana skor kepentingan (2,2) berhubungan dengan skor kepentingan (1,3).) Namun, kami belum menerapkannya dalam model. Saya mungkin akan mengabaikan itu pada awalnya, dan melihat apakah saya terkejut dengan hasilnya.

Keuntungan dari pendekatan ini adalah tidak memaksakan asumsi tentang bentuk fungsional hubungan antara "kepentingan" dan perbedaan antara tanggapan preferensi. Ini bertentangan dengan komentar shortfall sebelumnya, tapi saya pikir kurangnya bentuk fungsional yang diberlakukan cenderung lebih menguntungkan daripada kegagalan terkait untuk memperhitungkan hubungan yang diharapkan antara koefisien.

Jbowman
sumber