Stack Exchange, seperti yang kita semua tahu, adalah kumpulan situs Q&A dengan beragam topik. Dengan asumsi bahwa masing-masing situs independen dari satu sama lain, mengingat statistik yang dimiliki pengguna, bagaimana cara menghitung "kesempurnaannya" dibandingkan dengan orang berikutnya? Apa alat statistik yang harus saya gunakan?
Sejujurnya, saya tidak tahu bagaimana mendefinisikan secara matematis "kebulatan", tetapi harus memiliki karakteristik sebagai berikut:
- Semua hal dianggap sama, semakin banyak rep yang dimiliki pengguna, semakin dia berpengetahuan luas
- Semua hal dianggap sama, semakin banyak situs yang diikuti oleh pengguna, semakin lengkap dia.
- Apakah jawaban atau pertanyaan tidak mempengaruhi kebulatan
Jawaban:
Anda juga harus memperhitungkan kesamaan antara situs-situs tersebut. Seseorang yang berpartisipasi di StackOverflow dan Bumbu Nasihat lebih bulat daripada seseorang yang berpartisipasi di SO dan CrossValidated, yang pada gilirannya (saya berpendapat) lebih berpengetahuan luas daripada seseorang yang berpartisipasi dalam SO dan Programmer . Tidak diragukan lagi ada banyak cara untuk melakukan itu, tetapi Anda dapat memeriksa pendaftaran yang tumpang tindih hanya untuk merasakannya.
sumber
CONTOH: katakanlah ada tiga situs, dan kami ingin membandingkan kesempurnaan Pengguna A, B, C. Kami menulis reputasi pengguna di ketiga situs dalam bentuk vektor:
Kami akan mempertimbangkan A lebih bulat daripada B (reputasi mereka tersebar merata di dua situs, tetapi A memiliki reputasi total lebih). Selain itu, kami akan menganggap C lebih baik daripada B (mereka memiliki reputasi total yang sama, tetapi C bahkan tersebar di lebih banyak situs.) Tidak diputuskan apakah A harus dianggap lebih baik daripada C, atau sebaliknya .
Biarkan , x B , x C menjadi masing-masing vektor reputasi di atas.xSEBUAH xB xC
Kami ingin mengukur "menyeluruh" dari pengguna dengan fungsi vektor reputasi mereka . Dengan di atas, kita ingin fungsi kita f untuk memenuhi f (f( x ) f , dan f ( x C ) > f ( x B ) .f( xSEBUAH) > f( xB) f( xC) > f( xB)
Setiap yang cekung dan meningkat akan melakukan triknya.f( x )
Dua contoh umum fungsi cembung adalah 'norma fraksional'
untuk .0 < p < 1
Mengambil , kita menghitungp = 1 / 2
f(xB)=2 √
Diukur berdasarkan entropi Shannon yang diskalakan, maka, kita dapat mengatakan C adalah yang paling baik dari ketiganya, dan A yang paling baik untuk yang kedua.
EDIT2: Menambahkan contoh mengingat komentar whuber.
sumber
Ini adalah pertanyaan yang sangat, sangat menarik (memang saya agak jatuh cinta dengan gagasan pemodelan situs pertukaran stack secara umum).
Pada masalah menyeluruh, salah satu cara untuk menilai ini adalah melalui tag yang cenderung dijawab oleh pengguna tertentu, dan distribusinya di seluruh situs. Contoh dapat memperjelas hal ini.
Saya anggota di TeX, StackOverflow, CrossValidated, dan AskUbuntu. Sekarang, saya benar-benar hanya berkontribusi di sini dan StackOverflow, dan hanya tentang R pada Stackoverflow. Jadi, untuk mendefinisikan kebulatan baik saya akan melihat a) jumlah tag yang memiliki dua situs yang sama (untuk mendefinisikan kesamaan di situs) dan sejauh mana pengguna menjawab pertanyaan di situs yang memiliki sedikit atau tidak ada tag yang sama.
Jika, misalnya, seseorang berkontribusi pada tag Python di StackOverflow dan memasak, orang itu lebih berpengetahuan luas daripada seseorang yang menjawab pertanyaan pertanyaan perangkat lunak statistik (misalnya) pada Overflow dan pertanyaan statistik di sini.
Saya harap ini agak membantu.
sumber
Jika Anda mendefinisikan 'menyeluruh' sebagai 'berkontribusi ke banyak Situs Stack Exchange yang berbeda,' saya akan menghitung beberapa metrik kontribusi per situs. Anda dapat menggunakan total posting, atau rata-rata posting per hari, atau mungkin reputasi. Kemudian lihat distribusi metrik ini di semua situs, dan hitung kemiringannya dengan cara yang masuk akal.
Dengan kata lain, orang yang 'berpengetahuan luas' akan menjadi orang yang berkontribusi ke banyak situs yang berbeda, sementara orang yang 'tidak berpengetahuan luas' adalah orang yang terutama berkontribusi pada satu situs. Anda dapat lebih meningkatkan ini dengan menskalakan metrik Anda dengan total pengguna di semua situs. yaitu seseorang yang berkontribusi banyak ke banyak situs berbeda harus dianggap lebih berpengetahuan luas daripada seseorang yang tidak berkontribusi apa pun ke salah satu situs. Seseorang yang tidak pernah menggunakan SE tidak sepenuhnya bulat!
sumber
Sudah banyak jawaban bagus, jadi mengapa satu lagi? Ini sebagian besar untuk menarik perhatian pada ide-ide menarik yang dibahas di sini di The n-Category Café . Sementara keragaman dalam ekologi (dan di tempat lain) sebagian besar hanya terlihat pada kelimpahan, kita juga harus melihat seberapa mirip / berbeda spesies yang berbeda.
Dengan mewakili spesies (atau apa pun, seperti situs SE ...) sebagai titik dalam ruang metrik ini mengarah pada generalisasi entropi ke ruang metrik, lihat misalnya Entropi maksimum ruang metrik oleh Tom Leinster, Emily Roff . Gagasan yang sama dapat digunakan dalam situs SE dengan melihat tag sebagai titik dalam ruang metrik.
sumber