Saya mencoba menyusun paket data mining untuk situs StackExchange dan khususnya, saya terjebak dalam mencoba menentukan pertanyaan "paling menarik". Saya ingin menggunakan skor pertanyaan, tetapi menghapus bias karena jumlah pandangan, tapi saya tidak tahu bagaimana cara mendekati ini dengan ketat.
Di dunia ideal, saya dapat mengurutkan pertanyaan dengan menghitung , di mana adalah total suara dan adalah jumlah tampilan. Lagipula itu akan mengukur persentase orang yang menjawab pertanyaan itu, dikurangi persentase orang yang menjawab pertanyaan itu. vn
Sayangnya, pola pemungutan suara jauh lebih rumit. Suara cenderung "dataran tinggi" ke tingkat tertentu dan ini memiliki efek meremehkan pertanyaan yang sangat populer secara drastis. Dalam praktiknya, sebuah pertanyaan dengan 1 tampilan dan 1 upvote tentu akan skor dan diurutkan lebih tinggi daripada pertanyaan lain dengan 10.000 tampilan, tetapi kurang dari 10.000 suara.
Saat ini saya menggunakan sebagai rumus empiris, tetapi saya ingin lebih tepat. Bagaimana saya bisa mendekati masalah ini dengan ketelitian matematika?
Untuk mengatasi beberapa komentar, saya akan mencoba untuk menyajikan kembali masalah dengan cara yang lebih baik:
Katakanlah saya punya pertanyaan dengan orang Total dan pandangan. Saya ingin dapat memperkirakan jumlah suara total yang paling mungkin terjadi ketika pandangan mencapai .n 0 v 1 n 1
Dengan cara ini saya cukup memilih nilai nominal untuk dan memesan semua pertanyaan sesuai dengan total diharapkan .v 1
Saya telah membuat dua pertanyaan pada datadump SO untuk menunjukkan efek yang saya bicarakan:
Tampilan Rata-Rata berdasarkan Skor
Hasil:
Skor Rata-Rata berdasarkan Tampilan (ember 100 tampilan)
Hasil:
Kedua formula tersebut dibandingkan
Hasil, tidak yakin apakah lurus lebih baik: ( berwarna biru, berwarna merah) v
sumber
Jawaban:
Orang mungkin mendefinisikan pertanyaan yang menarik sebagai pertanyaan yang telah menerima banyak suara secara relatif mengingat jumlah pandangan. Untuk tujuan ini, Anda dapat membuat kurva garis dasar yang mencerminkan jumlah suara yang diharapkan berdasarkan tampilan. Kurva yang menarik lebih banyak suara daripada baseline dianggap sangat menarik.
Untuk membuat baseline, Anda mungkin ingin menghitung median jumlah suara per 100-view bin. Selain itu, Anda dapat menghitung deviasi absolut median (MAD) sebagai ukuran yang kuat untuk standar deviasi per bin. Kemudian, "ketertarikan" dapat dihitung sebagai
sumber
Ini teoriku. Saya pikir ada dua jenis pertanyaan: yang sebagian besar tetap dalam SE (yang biasanya memiliki lebih sedikit tampilan), dan yang dilihat oleh orang luar karena dikaitkan dari tempat lain (biasanya memiliki lebih banyak pandangan).
Untuk pertanyaan yang sebagian besar masih dalam SE, suara adalah ukuran yang baik dari pertanyaan menarik. Ini adalah titik suara.
Ketika sebuah pertanyaan ditautkan ke luar situs, suara berhenti sama artinya. Beberapa situs yang menghubungkan mungkin memiliki anggota SE yang sangat sedikit, yang lain mungkin memiliki lebih banyak. Varian dari jumlah suara untuk pertanyaan-pertanyaan ini mungkin tinggi (sebagaimana dibuktikan oleh skor Anda vs plot tampilan, di mana sisi kanan kurva berkembang). Pertanyaan-pertanyaan ini akan memiliki lebih banyak tampilan, dan tampilan MUNGKIN menjadi indikator yang lebih baik dari pertanyaan menarik. Atau pertanyaan yang menurut komunitas yang lebih besar lebih menarik. Ada banyak variabel dalam situasi ini, dan saya pikir ada baiknya mencoba mencari lebih banyak informasi untuk membedakan kasus-kasus ini. Apakah SE mempublikasikan informasi rujukan?
sumber