Aku tahu, ini mungkin terdengar seperti di luar topik, tapi dengarkan aku.
Di Stack Overflow dan di sini kita mendapatkan suara pada posting, ini semua disimpan dalam bentuk tabel.
Misalnya:
memposting id voter id jenis suara datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01
... dan seterusnya. Vote type 2 adalah upvote, vote type 3 adalah downvote. Anda dapat meminta versi data yang dianonimkan di http://data.stackexchange.com
Ada persepsi bahwa jika sebuah posting mencapai skor -1 atau lebih rendah, itu lebih cenderung untuk di-upvotasikan. Ini mungkin hanya bias konfirmasi atau mungkin juga bisa di-rooting.
Bagaimana kita menganalisis data ini untuk mengkonfirmasi atau menolak hipotesis ini? Bagaimana kita mengukur efek bias ini?
Jawaban:
Anda bisa menggunakan model multistate atau rantai Markov (paket msm dalam R adalah salah satu cara untuk menyesuaikan ini). Anda kemudian dapat melihat apakah probabilitas transisi dari -1 ke 0 lebih besar dari dari 0 ke 1, 1 ke 2, dll. Anda juga dapat melihat waktu rata-rata pada -1 dibandingkan dengan yang lain untuk melihat apakah probabilitasnya lebih pendek .
sumber
Lakukan percobaan. Turun secara acak setengah dari pos baru pada waktu tertentu setiap hari.
sumber
Ringkasan jawaban saya. Saya suka pemodelan rantai Markov tetapi melewatkan aspek "temporal". Di sisi lain, fokus pada aspek temporal (mis. Waktu rata-rata pada ) melewatkan aspek "transisi". Saya akan masuk ke pemodelan umum berikut (yang dengan asumsi yang cocok dapat menyebabkan [proses markov] [1]). Juga ada banyak statistik "disensor" di balik masalah ini (yang tentunya merupakan masalah klasik keandalan Perangkat Lunak?). Persamaan terakhir dari jawaban saya memberikan penaksir kemungkinan maksimum dari intensitas pemilihan (naik dengan "+" dan dow dengan "-") untuk keadaan suara tertentu. Seperti yang bisa kita lihat dari persamaan, itu adalah perantara dari kasus ketika Anda hanya memperkirakan probabilitas transisi dan kasus ketika Anda hanya mengukur waktu yang dihabiskan di negara tertentu. Semoga bantuan ini.−1
General Modeling (untuk menyatakan kembali pertanyaan dan asumsi). Biarkan dan menjadi variabel acak yang memodelkan masing-masing tanggal pemilihan dan tanda suara yang terkait (+1 untuk upvote, -1 untuk downvote). Proses pemungutan suara sederhana(VDi)i≥1 (Si)i≥1
Kuantitas penting di sini adalah niat dari -jump mana bisa atau dan adalah penyaringan yang baik, dalam kasus genera, tanpa pengetahuan lain akan : .ϵ
tetapi di sepanjang baris pertanyaan Anda, saya pikir Anda secara implisit menganggap bahwa Ini berarti bahwa untuk terdapat urutan deterministik sedemikian rupa sehingga .
Dalam formalisme ini, pertanyaan Anda dapat dinyatakan kembali sebagai: "kemungkinan " (atau setidaknya perbedaannya lebih besar dari ambang batas yang diberikan).μ+−1−μ+0>0
Berdasarkan asumsi ini, mudah untuk menunjukkan bahwa adalah [proses markov homogen] [3] pada dengan generator diberikan olehYt Z Q
Menjawab pertanyaan (dengan mengusulkan estimasi kemungkinan maksimum untuk masalah statistik) Dari reformulasi ini, penyelesaian masalah dilakukan dengan memperkirakan dan membangun tes yang meningkatkan nilainya. Mari kita perbaiki dan lupakan indeks tanpa kehilangan keumuman. Estimasi (dan ) dapat dilakukan setelah pengamatan(μ+i) i μ+ μ−
Jika Anda lupa kasus dengan keadaan pengamatan terakhir, pasangan yang disebutkan tersebut adalah dari distribusi yang bergantung pada dan : didistribusikan sebagai (di mana Exp adalah var acak dari distribusi eksponensial dan adalah + atau -1 tergantung pada siapa yang menyadari maks). Kemudian, Anda dapat menggunakan lemma sederhana berikut (buktinya mudah):μ+i μ−i (min(Exp(μ+i),Exp(μ−i)),η) η
Lema Jika dan kemudian, dan .X+⇝Exp(μ+) X−⇝Exp(μ−) T=min(X+,X−)⇝Exp(μ++μ−) P(X+1<X−)=μ+μ++μ−
Ini menyiratkan bahwa kerapatan dari diberikan oleh: mana untuk adalah fungsi kerapatan dari variabel acak eksponensial dengan parameter . Dari ungkapan ini, mudah untuk memperoleh penaksir kemungkinan maksimum dari dan :f(t,ϵ) (T,η)
Komentar untuk pendekatan yang lebih maju
Jika Anda ingin memperhitungkan kasus acount ketika adalah keadaan terakhir yang diamati (tentu saja lebih pintar karena ketika Anda melewati , seringkali skor terakhir Anda ...), Anda harus memodifikasi sedikit alasannya. Sensor yang sesuai relatif klasik ...i −1
Kemungkinan pendekatan lain mungkin termasuk kemungkinan
sumber