Mengapa koefisien variasi tidak valid ketika menggunakan data dengan nilai positif dan negatif?

10

Sepertinya saya tidak dapat menemukan jawaban yang pasti untuk pertanyaan saya.

Data saya terdiri dari beberapa plot dengan rata-rata yang diukur bervariasi dari 0,27 hingga 0,57. Dalam kasus saya, semua nilai data positif, tetapi pengukuran itu sendiri didasarkan pada rasio nilai reflektansi yang dapat berkisar dari -1 hingga +1. Plot mewakili nilai NDVI , indikator turunan dari "produktivitas" vegetasi.

Tujuan saya adalah untuk membandingkan variabilitas nilai pada setiap plot, tetapi karena setiap plot memiliki rata-rata yang berbeda, saya memilih untuk menggunakan CV untuk mengukur dispersi relatif dari nilai-nilai NDVI per plot.

Dari apa yang saya pahami, mengambil CV dari plot ini tidak halal karena setiap plot dapat memiliki nilai positif dan negatif. Mengapa tidak pantas menggunakan CV dalam hal seperti itu? Apa yang akan menjadi beberapa alternatif yang layak (yaitu, uji dispersi relatif yang serupa, transformasi data, dll.)?

Nabi60091
sumber
1
Apa tujuan membandingkan variabilitas? Mengapa Anda tidak membandingkan ukuran variabilitas aktual, seperti SD, MAD, rentang, atau apa pun, alih-alih ukuran relatif seperti CV (yang tidak masuk akal di sini)?
whuber
Saya menggunakan CV untuk menjelaskan perbedaan cara antara plot. Apakah itu tidak masuk akal karena nilainya berkisar antara -1 dan +1 di semua plot? yaitu, "variabilitas aktual" akan lebih menunjukkan perbedaan antar plot?
Nabi60091
2
CV adalah ukuran relatif variasi, menurut definisi. Ini memberikan hasil yang tidak masuk akal untuk setiap rata-rata negatif (Anda tidak dapat menafsirkan jumlah dispersi atau penyebaran negatif). Untuk cara positif, itu membuat jumlah spread tertentu terlihat jauh lebih besar ketika rata-rata kecil. Ketika ini diinginkan, apa yang Anda lakukan secara efektif setara dengan membandingkan data Anda pada skala logaritmik - dan itu tidak masuk akal setiap kali salah satu data bisa nol atau negatif. Mungkin saja data Anda mungkin memerlukan semacam ekspresi ulang untuk memungkinkan perbandingan variabilitas yang baik; itu tergantung pada bagaimana mereka dihasilkan.
whuber
+1 untuk penjelasan. Meskipun semua plot saya positif, mungkin ada nilai negatif dalam setiap plot. Berdasarkan hal di atas, dan jawaban Peter di bawah ini, tampaknya menggunakan CV tidak dijamin. Saya akan melihat kemungkinan menskalakan nilai-nilai dan / atau menggunakan ukuran variabilitas aktual.
Nabi60091
1
Jika Anda dapat dengan tepat menskala ulang data Anda dengan menambahkan konstanta, maka itu juga berarti CV bukanlah ide yang baik. Ini karena menambahkan konstanta akan mengubah CV tetapi tidak mengubah variasi.
Peter Flom - Reinstate Monica

Jawaban:

11

Pikirkan tentang apa itu CV: Rasio deviasi standar terhadap artinya. Tetapi jika variabel dapat memiliki nilai positif dan negatif, nilai rata-rata bisa mendekati 0; dengan demikian, CV tidak lagi melakukan apa yang seharusnya dilakukan: Yaitu, berikan rasa seberapa besar sd, dibandingkan dengan mean.

EDIT: Dalam komentar, saya mengatakan bahwa jika Anda secara wajar dapat menambahkan konstanta ke variabel, CV tidak baik. Berikut ini sebuah contoh:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 hanyalah x + 10. Saya pikir secara intuitif jelas bahwa keduanya sama-sama variabel; tetapi CV berbeda.

Contoh kehidupan nyata dari ini adalah jika x adalah suhu dalam derajat C dan x2 adalah suhu dalam derajat K (walaupun ada yang bisa berpendapat bahwa K adalah skala yang tepat, karena ia memiliki 0 yang ditentukan).

Peter Flom - Pasang kembali Monica
sumber
Terima kasih! Jadi kekhawatirannya adalah tentang memiliki mean mendekati nol, dan belum tentu memiliki nilai positif dan negatif dalam data Anda. Jika demikian, seberapa dekat dengan rata-rata nol dianggap "sangat dekat"? Dalam kasus saya, saya akan mengatakan saya jauh dari memiliki kemampuan saya mendekati nol. Apakah ada cara pasti untuk menentukan ini?
Nabi60091
Tidak, masalahnya adalah CV tidak lagi melakukan apa yang seharusnya dilakukan, bahkan jika hanya ada 1 nilai negatif. Jika Anda memiliki nilai negatif, jangan gunakan CV. Juga, jika nilai Anda dalam skala arbitrer, jangan gunakan CV.
Peter Flom - Reinstate Monica
Untuk kelengkapan, dapatkah Anda memberikan sedikit penjelasan lebih lanjut tentang mengapa menggunakan skala arbitrer membatalkan penggunaan CV? Terima kasih!
Nabi 60091
Dalam semua keadilan, saya pikir @whuber tidak menganjurkan perbandingan data yang diubah vs yang tidak diubah, tetapi poin Anda masih diambil: penskalaan akan mempengaruhi CV, ketika orang mungkin berpikir hasilnya harus tetap sama. +1 untuk kode R mainan!
Nabi 60091
Saya tidak memiliki argumen dengan komentar @whuber di utas ini.
Peter Flom - Reinstate Monica
0

Saya menganggap ini sebagai model variasi yang berbeda. Ada model statistik di mana CV adalah konstan. Di mana mereka bekerja, seseorang dapat melaporkan CV. Ada model di mana deviasi standar adalah fungsi kekuatan rata-rata. Ada model di mana standar deviasi konstan. Sebagai aturan, model CV konstan adalah tebakan awal yang lebih baik daripada model SD konstan, untuk variabel skala rasio. Anda dapat berspekulasi tentang mengapa itu benar, mungkin didasarkan pada prevalensi interaksi multiplikatif daripada aditif.

Pemodelan Constant-CV sering dikaitkan dengan transformasi logaritmik. (Pengecualian penting adalah respons non-negatif yang kadang-kadang nol.) Ada beberapa cara untuk melihatnya. Pertama, jika CV konstan maka log adalah transformasi penstabilan varians konvensional. Atau, jika model kesalahan Anda lognormal dengan konstanta SD dalam skala log, maka CV adalah transformasi sederhana dari SD itu. CV hampir sama dengan skala log SD ketika keduanya kecil.

Dua cara menerapkan metode statistik 101 seperti deviasi standar adalah dengan cara data Anda mendapatkannya atau (terutama jika itu adalah skala rasio) ke log mereka. Anda membuat tebakan pertama yang terbaik yang dapat Anda ketahui bahwa alam dapat menjadi lebih rumit dan bahwa studi lebih lanjut mungkin dilakukan. Mempertimbangkan apa yang orang-orang sebelumnya temukan produktif dengan jenis data Anda.

Inilah kasus di mana hal-hal ini penting. Konsentrasi kimia kadang-kadang dirangkum dengan CV atau dimodelkan dalam skala log. Namun, pH adalah konsentrasi log.

hotgas
sumber
3
Terima kasih atas kontribusi Anda, dan selamat datang di situs kami! Bisakah Anda memperjelas bagaimana jawaban Anda menjawab pertanyaan tentang validitas menggunakan CV sama sekali untuk mengkarakterisasi data yang dapat memiliki nilai negatif? Situasi itu tampaknya tidak tercakup oleh komentar Anda.
whuber