Bagaimana menafsirkan koefisien variasi?

33

Saya mencoba memahami Koefisien Variasi . Ketika saya mencoba menerapkannya pada dua sampel data berikut ini, saya tidak dapat memahami bagaimana menafsirkan hasil.

Misalkan sampel 1 adalah dan sampel 2 adalah . Di sini sampel 2 sampel 1 seperti yang Anda lihat.0,5,7,12,11,1710,15,17,22,21,27=+ 10

Keduanya memiliki standar deviasi yang sama tetapi dan .σ2=σ1=5.95539μ2=18.67μ1=8.66667

Sekarang koefisien variasi akan berbeda. Untuk sampel 2 akan menjadi kurang dari untuk sampel 1. Tetapi bagaimana saya menafsirkan hasil itu? Dalam hal varians keduanya sama; hanya cara mereka yang berbeda. Jadi apa gunanya koefisien variasi di sini? Itu hanya menyesatkan saya, atau mungkin saya tidak dapat menafsirkan hasilnya.σ/μ

Durin
sumber
Jika alih-alih menambahkan 10, Anda menambahkan 1000 set angka kedua akan berbeda jauh lebih sedikit, relatif terhadap rata-rata, daripada set pertama. Koefisien variasi adalah ungkapan dari ini.
Sangat terkait erat: stats.stackexchange.com/questions/113437/… .
whuber

Jawaban:

42

Dalam contoh-contoh seperti milik Anda ketika data berbeda hanya secara aditif, yaitu kita menambahkan beberapa konstanta untuk semuanya, maka ketika Anda menunjukkan standar deviasi tidak berubah, mean diubah oleh konstanta itu, dan karenanya koefisien variasi berubah dari to σ / ( μ + k ) , yang tidak menarik atau berguna.kσ/μσ/(μ+k)

Ini adalah perubahan multiplikatif yang menarik dan di mana koefisien variasi memiliki beberapa kegunaan. Untuk mengalikan semuanya dengan beberapa konstanta menyiratkan bahwa koefisien variasi menjadi k σ / k μ , yaitu tetap sama seperti sebelumnya. Mengubah unit pengukuran adalah contohnya, seperti pada jawaban @Aksalal dan @Macond.kkσ/kμ

Karena koefisien variasi adalah bebas-unit, maka juga bebas-dimensi, karena unit atau dimensi apa pun yang dimiliki oleh variabel yang mendasarinya dihilangkan oleh divisi. Itu membuat koefisien variasi ukuran variabilitas relatif , sehingga variabilitas relatif panjang dapat dibandingkan dengan bobot, dan sebagainya. Satu bidang di mana koefisien variasi telah menemukan beberapa penggunaan deskriptif adalah morfometrik ukuran organisme dalam biologi.

Dalam prinsip dan praktiknya, koefisien variasi hanya didefinisikan sepenuhnya dan sama sekali berguna untuk variabel yang sepenuhnya positif. Oleh karena itu secara rinci sampel pertama Anda dengan nilai bukan contoh yang tepat. Cara lain untuk melihat ini adalah dengan mencatat bahwa rata-rata nol koefisien akan menjadi tidak pasti dan rata-rata pernah negatif koefisien akan negatif, dengan asumsi dalam kasus terakhir bahwa standar deviasi adalah positif. Kasus mana pun akan membuat ukuran tidak berguna sebagai ukuran variabilitas relatif, atau memang untuk tujuan lain. 0

Pernyataan yang setara adalah bahwa koefisien variasi menarik dan bermanfaat hanya jika logaritma didefinisikan dengan cara yang biasa untuk semua nilai, dan memang menggunakan koefisien variasi sama dengan melihat variabilitas logaritma.

0

Seperti dalam kasus contoh-contoh aneh dari klimatologi, yang saya biarkan tidak direferensikan karena penulis tidak layak mendapatkan penghargaan maupun rasa malu, koefisien variasi telah digunakan secara berlebihan di beberapa bidang. Kadang-kadang ada kecenderungan untuk menganggapnya sebagai semacam ukuran ringkasan ajaib yang merangkum rata-rata dan standar deviasi. Ini adalah pemikiran primitif secara alami, karena bahkan ketika rasio itu masuk akal, mean dan standar deviasi tidak dapat dipulihkan darinya.

Dalam statistik, koefisien variasi adalah parameter yang cukup alami jika variasi mengikuti gamma atau lognormal, seperti yang dapat dilihat dengan melihat bentuk koefisien variasi untuk distribusi tersebut.

Meskipun koefisien variasi dapat berguna, dalam kasus di mana ia menerapkan langkah yang lebih berguna adalah bekerja pada skala logaritmik, baik dengan transformasi logaritmik atau dengan menggunakan fungsi tautan logaritmik dalam model linier umum.

σ/|μ|

Nick Cox
sumber
3
+1 Posting ini mencakup poin-poin utama tentang logaritma dan kepositifan yang seharusnya menjadi bagian dari setiap diskusi tentang masalah ini. "Kisah-kisah perang" membuatnya menjadi bacaan yang bagus juga.
whuber
Saya pikir Anda tidak dapat menghitung CV jika suatu variabel = 0?
1
@ Jerf: Pikirkan baik-baik. Jika semua nilai 0, maka tidak ada variasi dan tidak ada yang dihitung. Tidak ada masalah hanya karena beberapa nilai individual adalah 0, karena itu sendiri tidak mengesampingkan mean menjadi 0. Namun Anda selalu dapat menemukan contoh di mana beberapa nilai tidak nol namun mean adalah 0, misalnya -1, 0, 1 dalam yang mana CV tidak pasti. Namun dalam praktiknya, CV paling bermanfaat ketika semua nilai positif.
Nick Cox
13

Bayangkan saya berkata, "Ada 1.625.330 orang di kota ini. Plus atau minus lima." Anda akan terkesan dengan pengetahuan demografis saya yang akurat.

Tetapi jika saya berkata, "Ada lima orang di rumah ini. Plus atau minus lima." Anda akan berpikir saya tidak tahu berapa banyak orang di rumah.

Deviasi standar yang sama, CV yang jauh berbeda.

Bart
sumber
1
Ini adalah cara yang masuk akal untuk menjelaskan apa CoV itu, tetapi tidak jelas seberapa relevan dengan pertanyaan OP.
gung - Reinstate Monica
OP bertanya: "Dalam hal varians keduanya sama; hanya berarti mereka berbeda. Jadi apa gunanya koefisien variasi di sini?" Saya pikir contoh saya menggambarkan penggunaan CV sebagai cara menafsirkan varians.
Bart
1
Saya tidak menurunkan suara Anda. 2 pertanyaan eksplisit OP adalah: "bagaimana cara menafsirkan hasil itu?", & "Apa gunanya koefisien variasi di sini?". Penjelasan Anda baik, tetapi memahami apa CoV itu, hanyalah langkah pertama dalam menjawab pertanyaan-pertanyaan itu, bukan seluruh jawaban untuk pertanyaan-pertanyaan itu.
gung - Pasang kembali Monica
4

Biasanya, Anda menggunakan koefisien variasi untuk variabel unit ukuran yang berbeda atau skala yang sangat berbeda. Anda dapat menganggapnya sebagai rasio noise / sinyal. Misalnya, Anda mungkin ingin membandingkan keragaman berat dan tinggi siswa; variabilitas PDB AS dan Monako.

Dalam kasus Anda, koefisien variasi mungkin tidak masuk akal sama sekali, karena nilainya tidak jauh berbeda.

Aksakal
sumber
2

s/x¯

Macond
sumber
2

Pada kenyataannya, kedua statistik ini dapat menyesatkan jika Anda tidak mengetahui atau memahami hipotesis dan eksperimen Anda. Pertimbangkan contoh mengerikan ini ... Berjalan melintasi dua gedung bertingkat di atas tali yang berlawanan dengan berjalan di atas papan. Katakanlah tali pengikat memiliki diameter 1 inci, sedangkan papannya memiliki lebar 12 inci. 5 orang diminta berjalan tali dan 5 diminta berjalan papan. Kami menemukan hasil berikut:

Jarak rata-rata setiap langkah dari tepi (atau sisi) tali (inci): 0,5, 0,2, 0,3, 0,6, 0,1

Jarak rata-rata setiap langkah dari tepi (atau sisi) papan (inci): 5.5, 5.2, 5.3, 5.6, 5.1

Sama seperti pada contoh Anda, contoh ini akan menghasilkan standar deviasi yang sama karena nilai untuk papan hanyalah selisih +5 dengan nilai untuk tali pengikat. Namun, jika saya katakan kepada Anda bahwa standar deviasi untuk setiap percobaan adalah 0,2074 Anda mungkin mengatakan baik maka kedua percobaan itu setara. Namun, jika saya memberi tahu Anda bahwa CV untuk percobaan tali di atas hampir 61% dibandingkan dengan di bawah 4% untuk papan, Anda mungkin cenderung bertanya kepada saya berapa banyak orang yang jatuh dari tali.

pengguna62371
sumber
0

CV adalah variabilitas relatif yang digunakan untuk membandingkan variabilitas dataset sampel yang berbeda. Sebagai contoh Anda, standar deviasi / varians yang sama dengan rata-rata yang lebih kecil akan menghasilkan CV yang lebih kecil. ini menunjukkan bahwa dataset CV yang lebih kecil memiliki variabilitas relatif yang lebih kecil. Anggaplah Anda mendapat 10.000 setiap bulan, dan saya mendapat 100. (rata-rata berbeda) kita semua mungkin kehilangan 100 bulanan (vriation), saya akan lebih terluka daripada Anda karena saya mendapatkan CV yang lebih besar (cv = 1 dibandingkan dengan Anda 0,01), relatif variasi yang lebih besar.

Sun Ke
sumber
1
Saya harus mengatakan bahwa ini tidak menambah apa pun pada jawaban yang ada.
Nick Cox
0

dalam hal ini, cv bukan alat statistik yang tepat untuk menjelaskan hasilnya.

tergantung pada sifat penelitian yang dilakukan maka tujuannya, peneliti memiliki hipotesis atau titik bukti spesifik. Ia harus merancang, melaksanakan eksperimen, dan menganalisis data menggunakan alat statistik terbaik dan tepat, yaitu jika eksperimen tersebut membandingkan pertumbuhan kelompok 1 dan kelompok 2, meskipun cv keduanya sama, tetapi menggunakan uji-T atau pasangan T- Tes atau Anova (percobaan lebih besar) itu dapat dengan mudah membuktikan perbedaan antara kedua kelompok.

Kuncinya di sini adalah untuk menerapkan alat statistik yang sesuai untuk memberikan penjelasan yang bermakna tentang hasilnya. Ingat cv hanyalah salah satu pilihan dalam statistik deskriptif.

2 sen saya

lokmal
sumber