Jika saya memiliki sistem peringkat bintang di mana pengguna dapat mengekspresikan preferensi mereka untuk suatu produk atau barang, bagaimana saya bisa mendeteksi secara statistik jika suara sangat "terbagi". Artinya, bahkan jika rata-rata adalah 3 dari 5, untuk produk yang diberikan, bagaimana saya bisa mendeteksi jika itu adalah perpecahan 1-5 versus konsensus 3, hanya menggunakan data (tidak ada metode grafis)
variance
average
dispersion
David Williams
sumber
sumber
Jawaban:
Orang bisa membuat indeks polarisasi; persis bagaimana seseorang mendefinisikannya tergantung pada apa yang dianggap lebih terpolarisasi (yaitu, apa yang Anda maksudkan, dalam kasus tepi tertentu, oleh lebih atau kurang terpolarisasi?):
Misalnya, jika rerata adalah '4', apakah pemisahan 50-50 antara '3' dan '5' lebih, atau kurang terpolarisasi dari 25% '1' dan 75% '5'?
Bagaimanapun, dengan tidak adanya definisi spesifik tentang apa yang Anda maksudkan, saya akan menyarankan ukuran berdasarkan varian:
Diberikan rata-rata tertentu, tentukan split terpolarisasi paling mungkin sebagai salah satu yang memaksimalkan varians *.
* (NB yang akan mengatakan bahwa 25% '1' dan 75% '5' secara substansial lebih terpolarisasi dari 50-50 split '3's dan' 5's; jika itu tidak sesuai dengan intuisi Anda, jangan gunakan varian)
Jadi indeks polarisasi ini adalah proporsi dari varian terbesar yang mungkin ( dengan rata-rata yang diamati ) dalam varian yang diamati.
Panggil peringkat rata-rata ( m = ˉ x ).m m=x¯
Varians maksimum terjadi ketika proporsi di5dan1-pdi1; ini memiliki varian (m-1)(5-m)⋅np=m−14 5 1−p 1 .( m - 1 ) ( 5 - m ) ⋅ nn - 1
Jadi cukup ambil varians sampel dan bagi dengan ; ini memberikan angka antara0(perjanjian sempurna) dan1(sepenuhnya terpolarisasi).( m - 1 ) ( 5 - m ) ⋅ nn - 1 0 1
Untuk sejumlah kasus di mana peringkat rata-rata adalah 4, ini akan memberikan yang berikut:
Anda mungkin lebih suka tidak menghitungnya relatif terhadap varians terbesar yang mungkin dengan rata-rata yang sama, tetapi sebagai persentase dari varians terbesar yang mungkin untuk peringkat rata-rata apa pun . Itu akan melibatkan membagi bukan oleh , dan sekali lagi menghasilkan nilai antara 0 (perjanjian sempurna) dan1(terpolarisasi pada ekstrem dalam rasio 50-50). Ini akan menghasilkan relativitas yang sama dengan diagram di atas, tetapi semua nilai akan menjadi 3/4 lebih besar (yaitu, dari kiri ke kanan, atas ke bawah adalah 0, 16.5%, 25%, 25%, 50 % dan 75%).4 ⋅ nn - 1 1
Salah satu dari keduanya adalah pilihan yang benar-benar valid - seperti halnya sejumlah cara alternatif lain untuk membangun indeks tersebut.
sumber
m = 1
Anda mendapatkan1 - 1 = 0
dan0 / 0
. Bagaimana Anda mengoreksi hal itu?"Tidak ada metode grafis" adalah semacam kendala besar, tapi ... di sini ada beberapa ide aneh. Keduanya memperlakukan peringkat sebagai kontinu, yang merupakan kelemahan konseptual, dan mungkin bukan satu-satunya ...
Kurtosis
Regresi binomial negatif
FWIW, inilah kode r yang saya mainkan:
Tidak bisa menahan diri untuk tidak ...
Sunting: Baru saja melihat pertanyaan ini diiklankan di bilah sisi: dan ketika saya mengklik, saya melihatnya di Pertanyaan Jaringan Panas yang menghubungkan kembali ke dirinya sendiri, seperti yang kadang terjadi ,
jadi saya pikir ini mungkin perlu ditinjau kembali dengan cara yang lebih bermanfaat secara umum. Saya memutuskan untuk mencoba metode saya pada ulasan pelanggan Amazon untuk Tee Lengan Pendek Gunung Tiga Serigala :
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))
sumber
Saya akan berpikir cara mudah adalah dengan menghitung varians. Dalam sistem sederhana seperti itu, varian yang lebih tinggi akan berarti lebih banyak 1/5. EDIT Contoh cepat: jika nilai Anda 1,3,3,5 varians Anda akan:
sumber
Saya ragu bahwa saya dapat menambahkan sesuatu yang berharga pada jawaban cerdas yang sudah diberikan. Secara khusus, untuk ide baik @ Glen_b untuk menilai bagaimana varians yang diamati relatif dekat dengan varians maksimal yang mungkin di bawah rata-rata yang diamati. Sebaliknya, proposal saya yang langsung dan langsung dari bahu adalah tentang beberapa ukuran dispersi yang kuat bukan berdasarkan penyimpangan dari beberapa pusat tetapi langsung pada jarak antara titik data.
Hitung jarak berpasangan (perbedaan absolut) antara semua titik data. Keluardi i jarak nol. Hitung kecenderungan sentral dalam distribusi jarak (pilihan ada di tangan Anda; mungkin, misalnya, rata-rata, median, atau pusat Hodges-Lehmann ).
Seperti yang Anda lihat, 3 statistik mungkin sangat berbeda sebagai ukuran "polarisasi" (jika saya mengukur "ketidaksepakatan" daripada konfrontasi bipolar, saya mungkin akan memilih HL). Pilihan ada padamu. Satu gagasan: jika Anda menghitung jarak kuadrat , rata-rata mereka akan langsung terkait dengan varians biasa dalam data (dan karenanya Anda akan tiba di saran @ Duncan untuk menghitung varians). Perhitungan jarak tidak akan terlalu sulit bahkan dengan yang besarN di sini karena skala peringkatnya descrete dan dengan nilai yang relatif sedikit, sehingga algoritma pembobotan frekuensi untuk menghitung jarak menawarkan dirinya secara alami.
sumber
Bagaimana, jika peringkat bintang 3 lebih kecil dari rata-rata 5 dan 4, dan juga lebih kecil dari rata-rata 1 dan 2:
Dari atas kepala saya, saya tidak bisa memikirkan situasi di mana itu tidak akan berhasil. Menggunakan contoh di atas: ulasan pelanggan Amazon untuk Tee Lengan Pendek Three Wolf Moon :
Pada kasus ini:
Ini akan lulus ujian dan dianggap pendapat terbagi.
sumber
Saya pikir apa yang Anda cari adalah standar deviasi:
Saya tidak tahu bahasa pemrograman apa ini, tapi inilah metode java yang akan memberi Anda deviasi standar:
sumber