Fungsi "Ketertarikan" untuk pertanyaan StackExchange

Saya mencoba menyusun paket data mining untuk situs StackExchange dan khususnya, saya terjebak dalam mencoba menentukan pertanyaan "paling menarik". Saya ingin menggunakan skor pertanyaan, tetapi menghapus bias karena jumlah pandangan, tapi saya tidak tahu bagaimana cara mendekati ini dengan ketat.

Di dunia ideal, saya dapat mengurutkan pertanyaan dengan menghitung , di mana adalah total suara dan adalah jumlah tampilan. Lagipula itu akan mengukur persentase orang yang menjawab pertanyaan itu, dikurangi persentase orang yang menjawab pertanyaan itu. $\frac{v}{n}$ $v$ $n$

Sayangnya, pola pemungutan suara jauh lebih rumit. Suara cenderung "dataran tinggi" ke tingkat tertentu dan ini memiliki efek meremehkan pertanyaan yang sangat populer secara drastis. Dalam praktiknya, sebuah pertanyaan dengan 1 tampilan dan 1 upvote tentu akan skor dan diurutkan lebih tinggi daripada pertanyaan lain dengan 10.000 tampilan, tetapi kurang dari 10.000 suara.

Saat ini saya menggunakan sebagai rumus empiris, tetapi saya ingin lebih tepat. Bagaimana saya bisa mendekati masalah ini dengan ketelitian matematika? $\frac{v}{\log{n}+1}$

Untuk mengatasi beberapa komentar, saya akan mencoba untuk menyajikan kembali masalah dengan cara yang lebih baik:

Katakanlah saya punya pertanyaan dengan orang Total dan pandangan. Saya ingin dapat memperkirakan jumlah suara total yang paling mungkin terjadi ketika pandangan mencapai . $v_0$ $n_0$ $v_1$ $n_1$

Dengan cara ini saya cukup memilih nilai nominal untuk dan memesan semua pertanyaan sesuai dengan total diharapkan . $n_1$ $v_1$

Saya telah membuat dua pertanyaan pada datadump SO untuk menunjukkan efek yang saya bicarakan:

Tampilan Rata-Rata berdasarkan Skor

Hasil:

Dilihat berdasarkan Skor

Skor Rata-Rata berdasarkan Tampilan (ember 100 tampilan)

Hasil:

Skor berdasarkan Tampilan

Kedua formula tersebut dibandingkan

Hasil, tidak yakin apakah lurus lebih baik: ( berwarna biru, berwarna merah) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

Formula

data-mining predictive-models Sklivvz
sumber

Ini tentu saja merupakan pertanyaan yang menarik, tetapi saya pikir Anda mungkin lebih baik menanyakan ini di stats.SE.

@Theo Anda mungkin benar, sebenarnya. Saya akan menandai mod untuk dimigrasi jika mereka pikir itu yang terbaik.

Mengapa pandangan tidak berkontribusi pada ketertarikan? (tetapi lebih buruk, mengapa mereka berkontribusi negatif?) Lebih banyak hal menarik cenderung dilihat lebih sering ... Masalah mendasar di sini adalah apa yang menarik bahkan berarti? Apakah ini berarti pertanyaan dengan minat umum atau pertanyaan yang menarik bagi audiens tingkat tinggi yang lebih spesifik? Agar seseorang dapat menjawab pertanyaan ini dengan "ketelitian matematis", pertanyaan itu harus diajukan terlebih dahulu.

Tampilan bias pertanyaan karena satu pertanyaan mungkin, katakanlah, menjadi tautan oleh situs yang bagus dan menerima banyak tampilan - jika Anda melihat pertanyaan berperingkat teratas mereka semua pertanyaan tampilan tinggi; dengan menarik yang saya maksud adalah pertanyaan-pertanyaan yang memiliki nilai lebih seperti yang dirasakan oleh para pengguna situs. Bagaimanapun, pertanyaannya tetap ada: apa cara yang benar untuk menggabungkan pandangan dan suara untuk mendapatkan prediktor kualitas terbaik?

Orang-orang matematika mengajukan pertanyaan bagus. Logika pertanyaan ini kelihatannya melingkar: tampaknya meminta kami untuk formula untuk mengukur "kualitas" dari pertanyaan SE tetapi itu tidak menetapkan apa yang "kualitas" berarti kecuali untuk memberikan sinonim non-operasional seperti "nilai seperti yang dirasakan oleh pengguna situs. " Anda tidak bisa mendapatkan sesuatu tanpa hasil!

whuber

Jawaban:

Orang mungkin mendefinisikan pertanyaan yang menarik sebagai pertanyaan yang telah menerima banyak suara secara relatif mengingat jumlah pandangan. Untuk tujuan ini, Anda dapat membuat kurva garis dasar yang mencerminkan jumlah suara yang diharapkan berdasarkan tampilan. Kurva yang menarik lebih banyak suara daripada baseline dianggap sangat menarik.

Untuk membuat baseline, Anda mungkin ingin menghitung median jumlah suara per 100-view bin. Selain itu, Anda dapat menghitung deviasi absolut median (MAD) sebagai ukuran yang kuat untuk standar deviasi per bin. Kemudian, "ketertarikan" dapat dihitung sebagai

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

Jonas
sumber

Ini teoriku. Saya pikir ada dua jenis pertanyaan: yang sebagian besar tetap dalam SE (yang biasanya memiliki lebih sedikit tampilan), dan yang dilihat oleh orang luar karena dikaitkan dari tempat lain (biasanya memiliki lebih banyak pandangan).

Untuk pertanyaan yang sebagian besar masih dalam SE, suara adalah ukuran yang baik dari pertanyaan menarik. Ini adalah titik suara.

Ketika sebuah pertanyaan ditautkan ke luar situs, suara berhenti sama artinya. Beberapa situs yang menghubungkan mungkin memiliki anggota SE yang sangat sedikit, yang lain mungkin memiliki lebih banyak. Varian dari jumlah suara untuk pertanyaan-pertanyaan ini mungkin tinggi (sebagaimana dibuktikan oleh skor Anda vs plot tampilan, di mana sisi kanan kurva berkembang). Pertanyaan-pertanyaan ini akan memiliki lebih banyak tampilan, dan tampilan MUNGKIN menjadi indikator yang lebih baik dari pertanyaan menarik. Atau pertanyaan yang menurut komunitas yang lebih besar lebih menarik. Ada banyak variabel dalam situasi ini, dan saya pikir ada baiknya mencoba mencari lebih banyak informasi untuk membedakan kasus-kasus ini. Apakah SE mempublikasikan informasi rujukan?

rm999
sumber

Apakah SE mempublikasikan informasi rujukan? Saya akan tertarik untuk mengetahui pola tampilan posting daripada hanya upvotes, komentar, dll.

d_a_c321