Saya memiliki seperangkat pemain. Mereka bermain melawan satu sama lain (berpasangan). Pasangan pemain dipilih secara acak. Dalam setiap permainan, satu pemain menang dan satu lainnya kalah. Para pemain bermain satu sama lain dalam jumlah terbatas (beberapa pemain memainkan lebih banyak permainan, beberapa lainnya kurang). Jadi, saya punya data (siapa yang menang melawan siapa dan berapa kali). Sekarang saya berasumsi bahwa setiap pemain memiliki peringkat yang menentukan probabilitas menang.
Saya ingin memeriksa apakah asumsi ini sebenarnya benar. Tentu saja, saya dapat menggunakan sistem peringkat Elo atau algoritma PageRank untuk menghitung peringkat untuk setiap pemain. Tetapi dengan menghitung peringkat saya tidak membuktikan bahwa mereka (peringkat) benar-benar ada atau mereka berarti apa-apa.
Dengan kata lain, saya ingin memiliki cara untuk membuktikan (atau memeriksa) bahwa para pemain memiliki kekuatan yang berbeda. Bagaimana saya bisa melakukannya?
TAMBAH
Untuk lebih spesifik, saya punya 8 pemain dan hanya 18 pertandingan. Jadi, ada banyak pasangan pemain yang tidak bermain melawan satu sama lain dan ada banyak pasangan yang bermain hanya satu sama lain. Sebagai konsekuensinya, saya tidak dapat memperkirakan probabilitas kemenangan untuk sepasang pemain tertentu. Saya juga melihat, misalnya, bahwa ada pemain yang menang 6 kali dalam 6 pertandingan. Tapi mungkin itu hanya kebetulan.
Jawaban:
Anda memerlukan model probabilitas.
Gagasan di balik sistem peringkat adalah bahwa angka tunggal cukup mencirikan kemampuan pemain. Kami mungkin menyebut nomor ini "kekuatan" (karena "peringkat" sudah berarti sesuatu yang spesifik dalam statistik). Kami akan memprediksi bahwa pemain A akan mengalahkan pemain B ketika kekuatan (A) melebihi kekuatan (B). Tetapi pernyataan ini terlalu lemah karena (a) itu tidak kuantitatif dan (b) tidak menjelaskan kemungkinan pemain yang lebih lemah kadang-kadang mengalahkan pemain yang lebih kuat. Kita dapat mengatasi kedua masalah dengan mengandaikan probabilitas bahwa ketukan A hanya bergantung pada perbedaan kekuatannya. Jika demikian, maka kita dapat mengekspresikan kembali semua kekuatan yang diperlukan sehingga perbedaan dalam kekuatan sama dengan peluang log kemenangan.
Secara khusus, model ini adalah
Model ini memiliki sebanyak parameter sebagai pemain (tetapi ada satu tingkat kebebasan yang kurang, karena hanya dapat mengidentifikasi kekuatan relatif , jadi kami akan memperbaiki salah satu parameter pada nilai yang berubah-ubah). Ini adalah semacam model linier umum (dalam keluarga Binomial, dengan tautan logit).
Parameter dapat diperkirakan dengan Kemungkinan Maksimum . Teori yang sama memberikan cara untuk membangun interval kepercayaan di sekitar estimasi parameter dan untuk menguji hipotesis (seperti apakah pemain terkuat, menurut perkiraan, secara signifikan lebih kuat daripada perkiraan pemain terlemah).
Secara khusus, kemungkinan satu set game adalah produk
Dalam masalah khusus ini ada 18 pertandingan dan 7 parameter gratis. Secara umum itu terlalu banyak parameter: ada begitu banyak fleksibilitas sehingga parameter bisa sangat bebas bervariasi tanpa mengubah kemungkinan maksimum. Dengan demikian, menerapkan mesin ML cenderung membuktikan yang sudah jelas, yaitu kemungkinan tidak ada cukup data untuk memiliki kepercayaan pada perkiraan kekuatan.
sumber
Jika Anda ingin menguji hipotesis nol bahwa setiap pemain memiliki kemungkinan yang sama untuk menang atau kalah di setiap pertandingan, saya pikir Anda menginginkan tes simetri dari tabel kontingensi yang dibentuk dengan mentabulasikan pemenang melawan yang kalah.
Atur data sehingga Anda memiliki dua variabel, 'pemenang' dan 'pecundang' yang berisi ID pemenang dan pecundang untuk setiap permainan, yaitu masing-masing 'pengamatan' adalah permainan. Anda kemudian dapat membangun tabel kontingensi pemenang vs pecundang. Hipotesis nol Anda adalah Anda akan mengharapkan tabel ini simetris (rata-rata selama turnamen berulang). Dalam kasus Anda, Anda akan mendapatkan tabel 8 × 8 di mana sebagian besar entri adalah nol (sesuai dengan pemain yang tidak pernah bertemu), yaitu. tabel akan sangat jarang, jadi tes 'pasti' hampir pasti diperlukan daripada mengandalkan asimptotik.
Tes yang tepat tersedia di Stata dengan perintah simetri . Dalam hal ini, sintaksnya adalah:
Tidak diragukan lagi itu juga diterapkan dalam paket statistik lain yang kurang saya kenal.
sumber
Sudahkah Anda memeriksa beberapa publikasi Mark Glickman? Itu sepertinya relevan. http://www.glicko.net/
Tersirat dalam standar deviasi peringkat adalah nilai yang diharapkan dari sebuah game. (Standar deviasi ini ditetapkan pada nomor tertentu dalam Elo dasar, dan variabel dalam sistem Glicko). Saya mengatakan nilai yang diharapkan daripada probabilitas menang karena hasil seri. Hal-hal kunci untuk dipahami tentang peringkat Elo apa pun yang Anda miliki adalah asumsi distribusi yang mendasarinya (normal atau logistik, misalnya) dan asumsi standar deviasi.
Versi logistik dari rumus Elo menunjukkan bahwa nilai yang diharapkan dari perbedaan peringkat 110 poin adalah, 653, misalnya pemain A dengan 1330 dan pemain B dengan 1220.
http://en.wikipedia.org/wiki/Elo_rating_system (OK, itu referensi Wikipedia tapi saya sudah menghabiskan terlalu banyak waktu untuk jawaban ini.)
Jadi sekarang kami memiliki nilai yang diharapkan untuk setiap pertandingan berdasarkan peringkat masing-masing pemain, dan hasil berdasarkan permainan.
Pada titik ini, hal berikutnya yang akan saya lakukan adalah memeriksa ini secara grafis dengan mengatur kesenjangan dari rendah ke tinggi, dan menjumlahkan hasil yang diharapkan dan aktual. Jadi, untuk 5 pertandingan pertama kami mungkin memiliki total poin 2, dan poin yang diharapkan 1,5. Untuk 10 pertandingan pertama, kami mungkin memiliki total poin 8, dan poin yang diharapkan dari 8,8, dll.
Dengan membuat grafik dua baris ini secara kumulatif (seperti yang Anda lakukan untuk tes Kolmogorov-Smirnov), Anda dapat melihat apakah nilai kumulatif yang diharapkan dan aktual melacak satu sama lain dengan baik atau buruk. Kemungkinan orang lain dapat memberikan tes yang lebih formal.
sumber
Mungkin contoh yang paling terkenal untuk menguji seberapa akurat metode estimasi dalam sistem peringkat adalah peringkat Catur - Elo versus Sisa Kompetisi Dunia di Kaggle , yang strukturnya adalah sebagai berikut:
Pemenangnya adalah Elo ++ .
Tampaknya menjadi skema pengujian yang baik untuk kebutuhan Anda, secara teoritis, bahkan jika 18 pertandingan bukan basis tes yang baik. Anda bahkan dapat memeriksa perbedaan antara hasil untuk berbagai algoritma (inilah perbandingan antara rankade , sistem peringkat kami, dan yang paling dikenal, termasuk Elo , Glicko dan Trueskill ).
sumber
Anda ingin menguji hipotesis bahwa probabilitas hasil tergantung pada pertarungan.H0 , maka, adalah bahwa setiap permainan pada dasarnya adalah flip koin.
Tes sederhana untuk ini akan menghitung proporsi kali pemain dengan lebih banyak permainan yang dimainkan sebelumnya akan menang, dan membandingkannya dengan fungsi distribusi kumulatif binomial. Itu harus menunjukkan adanya semacam efek.
Jika Anda tertarik dengan kualitas sistem peringkat Elo untuk game Anda, metode sederhana adalah dengan menjalankan validasi silang 10 kali lipat pada kinerja prediktif model Elo (yang sebenarnya mengasumsikan hasil bukan iid, tapi saya ' akan mengabaikan itu) dan membandingkannya dengan flip koin.
sumber