Apakah kita memiliki masalah "kasihan sayang"?

51

Aku tahu, ini mungkin terdengar seperti di luar topik, tapi dengarkan aku.

Di Stack Overflow dan di sini kita mendapatkan suara pada posting, ini semua disimpan dalam bentuk tabel.

Misalnya:

memposting id voter id jenis suara datetime
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... dan seterusnya. Vote type 2 adalah upvote, vote type 3 adalah downvote. Anda dapat meminta versi data yang dianonimkan di http://data.stackexchange.com

Ada persepsi bahwa jika sebuah posting mencapai skor -1 atau lebih rendah, itu lebih cenderung untuk di-upvotasikan. Ini mungkin hanya bias konfirmasi atau mungkin juga bisa di-rooting.

Bagaimana kita menganalisis data ini untuk mengkonfirmasi atau menolak hipotesis ini? Bagaimana kita mengukur efek bias ini?

Sam Saffron
sumber
1
bisakah kita mendapatkan contoh kueri? Tidak semua orang fasih menulis pernyataan SQL. Memiliki data sampel mungkin mendorong orang untuk mencoba bermain dengannya. +1 untuk pertanyaan.
mpiktas
@Jeff memilih dianonimkan Anda hanya bisa mendapatkan info parsial dari data dump, itu memang termasuk semua transisi meskipun di sini adalah sampel data cepat.stackexchange.com/stackoverflow/q/101738 data anonim penuh tersedia di tempat pembuangan data publik
Sam Saffron
Mengapa hanya mengalah? Bagaimana probabilitas pemisahan suara naik atau turun di sekitar setiap nilai tertentu akan menarik?
Bob Durrant
@ Bob, tentu setuju mereka akan
Sam Saffron
1
Saya telah melihat jenis situs lain mengaburkan suara (yaitu menambahkan suara sebelum menampilkannya) dan kadang-kadang bahkan benar-benar menyembunyikan suara naik dan turun untuk periode yang singkat, untuk menghindari berbagai bentuk ikutan, suara kasihan dan 'sosial' lainnya elemen pemungutan suara.
Glen_b

Jawaban:

32

Anda bisa menggunakan model multistate atau rantai Markov (paket msm dalam R adalah salah satu cara untuk menyesuaikan ini). Anda kemudian dapat melihat apakah probabilitas transisi dari -1 ke 0 lebih besar dari dari 0 ke 1, 1 ke 2, dll. Anda juga dapat melihat waktu rata-rata pada -1 dibandingkan dengan yang lain untuk melihat apakah probabilitasnya lebih pendek .

Greg Snow
sumber
3
+1 referensi bagus. Ada artikel di Journal of Statistics Software tentang paket msm. Model ini tampaknya cocok untuk tugas semacam ini.
mpiktas
3
Ide model rantai Markov terlihat seperti ide yang bagus, tetapi waktu rata-rata pada -1 tidak akan memberikan keseluruhan cerita. Mungkin (dan masuk akal - pikirkan pertanyaan buruk) bahwa seseorang lebih mungkin untuk diturunkan pada -1 daripada di tempat lain juga.
Bob Durrant
Saya kira apa yang pertama kali ingin dilakukan adalah mengelompokkan lintasan-pemilihan - yang hanya (hampir) hanya naik / turun (pertanyaan sangat populer / sangat buruk), dan yang lebih kontroversial. Maka Anda dapat melakukan rantai Markov pada tiga kelas.
Jonas
13

Lakukan percobaan. Turun secara acak setengah dari pos baru pada waktu tertentu setiap hari.

charles.y.zheng
sumber
5
Keren, kita harus mengamati peningkatan yang signifikan pada lencana "kritik" dan mungkin penurunan motivasi untuk pengguna baru :-) Lebih baik untuk memulai dengan pengguna
bereputasi
14
Sebenarnya kami bisa melakukan yang lebih baik dari ini ... menggunakan pengujian AB, kami dapat memilih untuk menampilkan setengah dari pertanyaan dengan -1 memilih di situs sebagai 0 dan setengah sebagai -1 ... dan melihat apakah salah satu dari kelompok tersebut lebih cenderung menjadi terbalik! Berbakat.
Sam Saffron
4
Gagasan percobaan mengontrol kualitas posting, tetapi (1) pos yang diturunkan harus setuju terlebih dahulu untuk berpartisipasi dalam percobaan, dan (2) setelah waktu yang singkat, penurunan peringkat harus dihapus.
zbicyclist
2
+1 (dan +1 untuk semua komentar di sini juga): percobaan yang dapat dibalik yang dikontrol , dikomunikasikan sebelumnya kepada semua pengguna yang mungkin terpengaruh dan dilakukan dengan persetujuan mereka, adalah salah satu cara terkuat untuk mendapatkan informasi ini.
whuber
13

Ringkasan jawaban saya. Saya suka pemodelan rantai Markov tetapi melewatkan aspek "temporal". Di sisi lain, fokus pada aspek temporal (mis. Waktu rata-rata pada ) melewatkan aspek "transisi". Saya akan masuk ke pemodelan umum berikut (yang dengan asumsi yang cocok dapat menyebabkan [proses markov] [1]). Juga ada banyak statistik "disensor" di balik masalah ini (yang tentunya merupakan masalah klasik keandalan Perangkat Lunak?). Persamaan terakhir dari jawaban saya memberikan penaksir kemungkinan maksimum dari intensitas pemilihan (naik dengan "+" dan dow dengan "-") untuk keadaan suara tertentu. Seperti yang bisa kita lihat dari persamaan, itu adalah perantara dari kasus ketika Anda hanya memperkirakan probabilitas transisi dan kasus ketika Anda hanya mengukur waktu yang dihabiskan di negara tertentu. Semoga bantuan ini.1

General Modeling (untuk menyatakan kembali pertanyaan dan asumsi). Biarkan dan menjadi variabel acak yang memodelkan masing-masing tanggal pemilihan dan tanda suara yang terkait (+1 untuk upvote, -1 untuk downvote). Proses pemungutan suara sederhana(VDi)i1(Si)i1

Yt=Yt+Yt
dimana

Yt+=i=01VDit,Si=1 and Yt=i=01VDit,Si=1

Kuantitas penting di sini adalah niat dari -jump mana bisa atau dan adalah penyaringan yang baik, dalam kasus genera, tanpa pengetahuan lain akan : .ϵ

λtϵ=limdt01dtP(Yt+dtϵYtϵ=1|Ft)
ϵ+Ft
Ft=σ(Yt+,Yt,VD1,,VDYt++Yt,S1,,SYt++Yt)

tetapi di sepanjang baris pertanyaan Anda, saya pikir Anda secara implisit menganggap bahwa Ini berarti bahwa untuk terdapat urutan deterministik sedemikian rupa sehingga .

P(Yt+dtϵYtϵ=1|Ft)=P(Yt+dtϵYtϵ=1|Yt)
ϵ=+,(μiϵ)iZλtϵ=μYtϵ

Dalam formalisme ini, pertanyaan Anda dapat dinyatakan kembali sebagai: "kemungkinan " (atau setidaknya perbedaannya lebih besar dari ambang batas yang diberikan).μ1+μ0+>0

Berdasarkan asumsi ini, mudah untuk menunjukkan bahwa adalah [proses markov homogen] [3] pada dengan generator diberikan olehYtZQ

i,jZQi,i+1=μi+Qi,i1=μiQii=1(μi++μi)Qij=0 if |ij|>1

Menjawab pertanyaan (dengan mengusulkan estimasi kemungkinan maksimum untuk masalah statistik) Dari reformulasi ini, penyelesaian masalah dilakukan dengan memperkirakan dan membangun tes yang meningkatkan nilainya. Mari kita perbaiki dan lupakan indeks tanpa kehilangan keumuman. Estimasi (dan ) dapat dilakukan setelah pengamatan(μi+)iμ+μ

(T1,η1),,(Tp,ηp) mana adalah panjang dari periode yang dihabiskan di negara (yaitu, kali berturut-turut dengan ) dan adalah jika pertanyaannya dibatalkan, jika itu diturunkan dan jika itu adalah keadaan terakhir pengamatan.TjjthpiYt=iηj+110

Jika Anda lupa kasus dengan keadaan pengamatan terakhir, pasangan yang disebutkan tersebut adalah dari distribusi yang bergantung pada dan : didistribusikan sebagai (di mana Exp adalah var acak dari distribusi eksponensial dan adalah + atau -1 tergantung pada siapa yang menyadari maks). Kemudian, Anda dapat menggunakan lemma sederhana berikut (buktinya mudah):μi+μi(min(Exp(μi+),Exp(μi)),η)η

Lema Jika dan kemudian, dan . X+Exp(μ+)XExp(μ)T=min(X+,X)Exp(μ++μ)P(X+1<X)=μ+μ++μ

Ini menyiratkan bahwa kerapatan dari diberikan oleh: mana untuk adalah fungsi kerapatan dari variabel acak eksponensial dengan parameter . Dari ungkapan ini, mudah untuk memperoleh penaksir kemungkinan maksimum dari dan :f(t,ϵ)(T,η)

f(t,ϵ)=gμ++μ(1(ϵ=+1)μ++1(ϵ=1)μμ++μ)
gaa>0aμ+μ

(μ^+,μ^)=argminln(μ+μ+)((μ+μ+)i=1pTi+p)pln(μ)p+ln(μ+)
manadan.p=|i:δi=1|p+=|i:δi=+1|

Komentar untuk pendekatan yang lebih maju

Jika Anda ingin memperhitungkan kasus acount ketika adalah keadaan terakhir yang diamati (tentu saja lebih pintar karena ketika Anda melewati , seringkali skor terakhir Anda ...), Anda harus memodifikasi sedikit alasannya. Sensor yang sesuai relatif klasik ...i1

Kemungkinan pendekatan lain mungkin termasuk kemungkinan

  • Memiliki intensitas yang menurun seiring waktu
  • Memiliki intensitas yang berkurang dengan waktu yang dihabiskan sejak pemungutan suara terakhir (saya lebih suka yang ini. Dalam hal ini ada cara klasik pemodelan bagaimana kepadatan menurun ...
  • Anda mungkin ingin berasumsi bahwa adalah fungsiμi+i
  • .... Anda bisa mengusulkan ide lain!
robin girard
sumber