" Bagaimana Tidak Mengurutkan Menurut Peringkat Rata-Rata " dari Evan Miller mengusulkan penggunaan batas bawah dari interval kepercayaan untuk mendapatkan "skor" agregat yang masuk akal untuk item yang dinilai. Namun, ini bekerja dengan model Bernoulli: peringkatnya baik jempol ke atas atau jempol ke bawah.
Apa interval kepercayaan yang wajar untuk digunakan untuk model peringkat yang memberikan skor diskrit ke bintang , dengan asumsi bahwa jumlah peringkat untuk suatu barang mungkin kecil?k
Saya rasa saya bisa melihat bagaimana mengadaptasi pusat interval Wilson dan Agresti-Coull sebagai
di mana atau (mungkin lebih baik) itu adalah nilai rata-rata dari semua item. Namun, saya tidak yakin bagaimana menyesuaikan lebar interval. Tebakan terbaik saya (revisi) adalah
dengan , tapi saya tidak bisa membenarkan dengan lebih dari melambaikan tangan sebagai analogi Agresti-Coull, menganggapnya sebagai
Apakah ada interval kepercayaan standar yang berlaku? (Perhatikan bahwa saya tidak memiliki langganan ke jurnal apa pun atau akses mudah ke perpustakaan universitas; tentu saja berikan referensi yang tepat, tapi tolong tambah dengan hasil yang sebenarnya!)
sumber
Jawaban:
Seperti yang dikatakan Karl Broman dalam jawabannya, pendekatan Bayesian mungkin akan jauh lebih baik daripada menggunakan interval kepercayaan.
Masalah dengan Interval Keyakinan
Mengapa menggunakan interval kepercayaan tidak bekerja terlalu baik? Salah satu alasannya adalah jika Anda tidak memiliki banyak peringkat untuk suatu item, maka interval kepercayaan Anda akan menjadi sangat luas, sehingga batas bawah interval kepercayaan akan menjadi kecil. Dengan demikian, item tanpa banyak peringkat akan berakhir di bagian bawah daftar Anda.
Namun, secara intuitif, Anda mungkin ingin item tanpa banyak peringkat berada di dekat item rata-rata, jadi Anda ingin menggoyangkan perkiraan taksiran Anda terhadap nilai rata-rata atas semua item (yaitu, Anda ingin mendorong peringkat perkiraan Anda ke arah sebelumnya ) . Inilah yang dilakukan oleh pendekatan Bayesian.
Pendekatan Bayesian I: Distribusi Normal atas Peringkat
Salah satu cara untuk memindahkan nilai estimasi ke prior adalah, seperti dalam jawaban Karl, untuk menggunakan estimasi bentuk :w∗R+(1−w)∗C
Estimasi ini, pada kenyataannya, dapat diberikan interpretasi Bayesian sebagai estimasi posterior dari nilai rata-rata item ketika peringkat individu berasal dari distribusi normal yang berpusat di sekitar rata-rata itu.
Namun, dengan asumsi bahwa peringkat berasal dari distribusi normal memiliki dua masalah:
Pendekatan Bayesian II: Distribusi Multinomial atas Peringkat
Jadi alih-alih mengasumsikan distribusi normal untuk peringkat, mari kita asumsikan distribusi multinomial . Yaitu, mengingat beberapa item tertentu, ada probabilitas bahwa pengguna acak akan memberikan 1 bintang, probabilitas p 2 bahwa pengguna acak akan memberikan 2 bintang, dan seterusnya.p1 p2
Tentu saja, kami tidak tahu apa probabilitas ini. Karena kami mendapatkan semakin banyak peringkat untuk item ini, kami dapat menebak bahwa mendekati n 1p1 , di manan1adalah jumlah pengguna yang memberinya 1 bintang dannadalah jumlah total pengguna yang memberi nilai item, tetapi ketika kami pertama kali memulai, kami tidak memiliki apa-apa. Jadi kami menempatkanDirichlet sebelumDir(α1,…,αk)pada probabilitas ini.n1n n1 n Dir(α1,…,αk)
Kemudian, begitu peringkat aktual masuk, cukup tambahkan jumlah mereka ke jumlah virtual Dirichlet Anda sebelumnya. Kapan pun Anda ingin memperkirakan peringkat item Anda, cukup ambil mean dari semua peringkat item (baik peringkat virtual dan peringkat aktualnya).
sumber
Situasi ini menyerukan pendekatan Bayesian. Ada pendekatan sederhana untuk peringkat peringkat Bayesian di sini (membayar khusus untuk komentar, yang menarik) dan di sini , dan kemudian komentar lebih lanjut tentang ini di sini . Seperti yang ditunjukkan salah satu komentar di tautan pertama:
sumber