Bagaimana cara menemukan interval kepercayaan untuk peringkat?

32

" Bagaimana Tidak Mengurutkan Menurut Peringkat Rata-Rata " dari Evan Miller mengusulkan penggunaan batas bawah dari interval kepercayaan untuk mendapatkan "skor" agregat yang masuk akal untuk item yang dinilai. Namun, ini bekerja dengan model Bernoulli: peringkatnya baik jempol ke atas atau jempol ke bawah.

Apa interval kepercayaan yang wajar untuk digunakan untuk model peringkat yang memberikan skor diskrit ke bintang , dengan asumsi bahwa jumlah peringkat untuk suatu barang mungkin kecil?k1k

Saya rasa saya bisa melihat bagaimana mengadaptasi pusat interval Wilson dan Agresti-Coull sebagai

hal~=saya=1nxsaya+zα/22hal0n+zα/22

di mana atau (mungkin lebih baik) itu adalah nilai rata-rata dari semua item. Namun, saya tidak yakin bagaimana menyesuaikan lebar interval. Tebakan terbaik saya (revisi) adalahhal0=k+12

hal~±zα/2n~saya=1n(xsaya-hal~)2+zα/2(hal0-hal~)2n~

dengan , tapi saya tidak bisa membenarkan dengan lebih dari melambaikan tangan sebagai analogi Agresti-Coull, menganggapnya sebagain~=n+zα/22

Estimate(X¯)±zα/2n~Estimate(Var(X))

Apakah ada interval kepercayaan standar yang berlaku? (Perhatikan bahwa saya tidak memiliki langganan ke jurnal apa pun atau akses mudah ke perpustakaan universitas; tentu saja berikan referensi yang tepat, tapi tolong tambah dengan hasil yang sebenarnya!)

Peter Taylor
sumber
4
Karena balasan saat ini (mungkin karena kesopanan) mengupas masalah ini, saya ingin menunjukkan bahwa aplikasi ini adalah penyalahgunaan batas kepercayaan yang mengerikan. Tidak ada justifikasi teoretis untuk menggunakan LCL untuk memberi peringkat berarti (dan banyak alasan mengapa LCL sebenarnya lebih buruk daripada mean itu sendiri untuk tujuan pemeringkatan). Dengan demikian pertanyaan ini didasarkan pada pendekatan yang cacat parah, yang mungkin mengapa itu menarik perhatian yang relatif sedikit.
whuber
2
Ciri yang bagus dari pertanyaan khusus ini adalah bahwa ia berisi konteks yang cukup bagi kita untuk mengabaikan pertanyaan aktual dan fokus pada apa yang tampaknya lebih penting.
Karl
1
Saya senang Anda mengubah judul yang diubah sesuai dengan keinginan Anda, Peter. Hasil edit asli saya dibuat bukan untuk mementingkan diri sendiri, tetapi untuk membuat judul mencerminkan teks pertanyaan. Anda adalah wasit terakhir dari apa yang sebenarnya Anda maksudkan.
whuber

Jawaban:

23

Seperti yang dikatakan Karl Broman dalam jawabannya, pendekatan Bayesian mungkin akan jauh lebih baik daripada menggunakan interval kepercayaan.

Masalah dengan Interval Keyakinan

Mengapa menggunakan interval kepercayaan tidak bekerja terlalu baik? Salah satu alasannya adalah jika Anda tidak memiliki banyak peringkat untuk suatu item, maka interval kepercayaan Anda akan menjadi sangat luas, sehingga batas bawah interval kepercayaan akan menjadi kecil. Dengan demikian, item tanpa banyak peringkat akan berakhir di bagian bawah daftar Anda.

Namun, secara intuitif, Anda mungkin ingin item tanpa banyak peringkat berada di dekat item rata-rata, jadi Anda ingin menggoyangkan perkiraan taksiran Anda terhadap nilai rata-rata atas semua item (yaitu, Anda ingin mendorong peringkat perkiraan Anda ke arah sebelumnya ) . Inilah yang dilakukan oleh pendekatan Bayesian.

Pendekatan Bayesian I: Distribusi Normal atas Peringkat

Salah satu cara untuk memindahkan nilai estimasi ke prior adalah, seperti dalam jawaban Karl, untuk menggunakan estimasi bentuk :wR+(1w)C

  • adalah rerata dari peringkat untuk item.R
  • adalah nilai rata-rata dari semua item (atau apa pun yang sebelumnya Anda ingin mengecilkan peringkat Anda).C
  • Perhatikan bahwa rumus hanya kombinasi tertimbang dan C .RC
  • adalah bobot yang ditetapkan untukR, di manavadalah jumlah ulasan untuk bir danmadalah semacam parameter "ambang" konstan.w=vv+mRvm
  • Perhatikan bahwa ketika sangat besar, yaitu, ketika kami memiliki banyak peringkat untuk item saat ini, maka w sangat dekat dengan 1, sehingga perkiraan peringkat kami sangat dekat dengan R dan kami tidak terlalu memperhatikan C sebelumnya . Namun ketika v kecil, w sangat dekat dengan 0, sehingga peringkat yang diperkirakan menempatkan banyak bobot pada C sebelumnya .vwRCvwC

Estimasi ini, pada kenyataannya, dapat diberikan interpretasi Bayesian sebagai estimasi posterior dari nilai rata-rata item ketika peringkat individu berasal dari distribusi normal yang berpusat di sekitar rata-rata itu.

Namun, dengan asumsi bahwa peringkat berasal dari distribusi normal memiliki dua masalah:

  • Distribusi normal kontinu , tetapi peringkatnya terpisah .
  • Peringkat untuk suatu item tidak harus mengikuti bentuk Gaussian yang unimodal. Misalnya, mungkin item Anda sangat polarisasi, sehingga orang cenderung memberikannya peringkat yang sangat tinggi atau memberikannya peringkat yang sangat rendah.

Pendekatan Bayesian II: Distribusi Multinomial atas Peringkat

Jadi alih-alih mengasumsikan distribusi normal untuk peringkat, mari kita asumsikan distribusi multinomial . Yaitu, mengingat beberapa item tertentu, ada probabilitas bahwa pengguna acak akan memberikan 1 bintang, probabilitas p 2 bahwa pengguna acak akan memberikan 2 bintang, dan seterusnya.p1p2

Tentu saja, kami tidak tahu apa probabilitas ini. Karena kami mendapatkan semakin banyak peringkat untuk item ini, kami dapat menebak bahwa mendekati n 1p1 , di manan1adalah jumlah pengguna yang memberinya 1 bintang dannadalah jumlah total pengguna yang memberi nilai item, tetapi ketika kami pertama kali memulai, kami tidak memiliki apa-apa. Jadi kami menempatkanDirichlet sebelumDir(α1,,αk)pada probabilitas ini.n1nn1n Dir(α1,,αk)

αiiα1=2α2=1αi

αiαiiαi

Kemudian, begitu peringkat aktual masuk, cukup tambahkan jumlah mereka ke jumlah virtual Dirichlet Anda sebelumnya. Kapan pun Anda ingin memperkirakan peringkat item Anda, cukup ambil mean dari semua peringkat item (baik peringkat virtual dan peringkat aktualnya).

raegtin
sumber
1
Pendekatan 2 berfungsi sebagai identik dengan pendekatan 1, bukan, tetapi dengan justifikasi yang berbeda?
Peter Taylor
2
@ Peter: oh, benar! Tidak menyadari bahwa sampai Anda menyebutkannya =). (Jika semua yang ingin Anda lakukan adalah mengambil rata-rata dari posterior, mereka identik. Saya kira memiliki posterior Dirichlet mungkin berguna jika Anda ingin menghitung jenis skor yang berbeda, misalnya, semacam ukuran polaritas, meskipun itu mungkin agak langka.)
raegtin
1
m
15

Situasi ini menyerukan pendekatan Bayesian. Ada pendekatan sederhana untuk peringkat peringkat Bayesian di sini (membayar khusus untuk komentar, yang menarik) dan di sini , dan kemudian komentar lebih lanjut tentang ini di sini . Seperti yang ditunjukkan salah satu komentar di tautan pertama:

Yang Terbaik dari BeerAdvocate (BA) ... menggunakan perkiraan Bayesian:

peringkat tertimbang (WR) = (v / (v + m)) × R + (m / (v + m)) × C

di mana:
R = rata-rata ulasan untuk bir
v = jumlah ulasan untuk bir
m = ulasan minimum yang diperlukan untuk dicantumkan (saat ini 10)
C = rata-rata di seluruh daftar (saat ini 2,5)

Karl
sumber
2
Kerugian dari metode Beer Advocate adalah tidak memperhitungkan variabilitas. Namun demikian, saya lebih suka garis pemikiran ini daripada ide batas condifence yang lebih rendah.
Karl