Ukuran yang kuat (non-parametrik) seperti Koefisien Variasi - IQR / median, atau alternatif?

12

Untuk set data yang diberikan, spread sering dihitung baik sebagai standar deviasi atau sebagai IQR (rentang antar-kuartil).

Sedangkan a standard deviationdinormalisasi (skor-z, dll.) Dan dapat digunakan untuk membandingkan penyebaran dari dua populasi yang berbeda, ini bukan kasus dengan IQR karena sampel dari dua populasi yang berbeda dapat memiliki nilai pada dua skala yang sangat berbeda,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Apa yang saya kejar adalah ukuran yang kuat (non-parametrik) yang dapat saya gunakan untuk membandingkan variasi dalam populasi yang berbeda.

Pilihan 1: IQR / Median- ini akan dengan analogi dengan koefisien variasi , yaitu untuk .σμ

Pilihan 2: Range / IQR

Pertanyaan: Manakah ukuran yang lebih bermakna untuk membandingkan variasi antar populasi? Dan jika itu adalah Pilihan 1, apakah Pilihan 2 berguna untuk apa pun / bermakna, atau apakah itu ukuran yang secara mendasar cacat?

Assad Ebrahim
sumber
Terima kasih atas diskusi yang sangat membantu. Beberapa tindak lanjut yang bermanfaat - definisi kuartil yang berbeda dan karenanya IQR (John), standar deviasi bukan standar (Harvey), dan plot QQ sebagai alat untuk membandingkan dua distribusi (Peter). (+1 untuk ketiga jawaban!)
Assad Ebrahim

Jawaban:

13

Pertanyaannya menyiratkan bahwa deviasi standar (SD) entah bagaimana dinormalisasi sehingga dapat digunakan untuk membandingkan variabilitas dua populasi yang berbeda. Tidak begitu. Seperti yang dikatakan Peter dan John, normalisasi ini dilakukan seperti ketika menghitung koefisien variasi (CV), yang sama dengan SD / Mean. SD ada di dalam unit yang sama dengan data asli. Sebaliknya, CV adalah rasio tanpa unit.

Pilihan Anda 1 (IQR / Median) analog dengan CV. Seperti CV, itu hanya masuk akal ketika data adalah data rasio. Ini berarti nol benar-benar nol. Berat nol bukanlah berat. Panjang nol adalah panjang. Sebagai contoh balasan, tidak masuk akal untuk suhu dalam C atau F, karena suhu nol derajat (C atau F) tidak berarti tidak ada suhu. Cukup beralih antara menggunakan skala C atau F akan memberi Anda nilai yang berbeda untuk CV atau untuk rasio IQR / Median, yang membuat kedua rasio itu tidak berarti.

Saya setuju dengan Peter dan John bahwa ide kedua Anda (Range / IQR) tidak akan terlalu kuat untuk outlier, jadi mungkin tidak akan berguna.

Harvey Motulsky
sumber
2
Harvey - terima kasih - Anda benar, SD tidak dinormalisasi sama sekali ... Saya bingung konsep z-scoresuntuk menstandarkan nilai-nilai dan menormalkan posisi mereka dalam distribusi dalam hal mean dan standar deviasi, dengan masalah ini, yang adalah tentang kemampuan untuk menentukan peringkat kelompok produk berdasarkan variabilitasnya. Memilih jawaban Anda sebagai jawaban yang benar karena sementara Peter dan John sama-sama sangat membantu, jawaban Anda mengingatkan saya pada campur tangan konseptual. Poin bagus tentang Pilihan 1 adalah penggunaan terbatas dekat median 0. Untungnya, dalam masalah saya, saya tidak perlu khawatir tentang ini.
Assad Ebrahim
Saya ingin menggunakan ini di kertas. Apakah ada tempat yang baik yang dirujuk (buku / tempat ditinjau sejawat)?
Ben Bolker
15

Penting untuk menyadari minimum dan maksimum sering statistik yang tidak terlalu baik untuk digunakan (yaitu, mereka dapat sangat berfluktuasi dari sampel ke sampel, dan tidak mengikuti distribusi normal karena, katakanlah, mean mungkin karena Teorema Batas Pusat) . Akibatnya, rentang jarang merupakan pilihan yang baik untuk apa pun selain untuk menyatakan kisaran sampel yang tepat ini . Untuk statistik nonparametrik yang sederhana untuk merepresentasikan variabilitas, Kisaran Inter-Kuartil jauh lebih baik. Namun, sementara saya melihat analogi antara IQR / median dan koefisien variasi, saya tidak berpikir ini mungkin menjadi pilihan terbaik.

Anda mungkin ingin melihat deviasi absolut median dari median ( MADM ). Yaitu: Saya menduga analogi nonparametrik yang lebih baik dengan koefisien variasi adalah MADM / median, daripada IQR / median.

MADM=median(|ximedian(x)|)
gung - Pasang kembali Monica
sumber
1
Pilihan yang menarik MADM/median, pada dasarnya perbedaan tengah dari nilai tengah. Mari kita sebut Pilihan 3. Setuju dengan penilaian Anda atas Pilihan 1, jadi keluar, terima kasih. Saat Anda menyarankan 'lebih baik', atribut apa yang mungkin digunakan seseorang untuk membandingkan Pilihan 2 dengan Pilihan 3 untuk melihat mana yang lebih baik?
Assad Ebrahim
1
Atribut yang akan Anda gunakan akan tergantung pada apa tujuan Anda untuk metrik. Namun, saya hanya bermaksud bahwa ini analogi yang lebih baik untuk CoV. NB bahwa kuartil ke-3 adalah median data Anda yang di atas median, & q pertama adalah median dari yang di bawah ini, jadi IQR / 2 dalam jangka panjang akan sama dengan MADM (nb, mereka tidak dijamin sama dengan dalam sampel yang diberikan). IQR akan lebih bervariasi, pada ave, dari nilai sebenarnya di pop, tapi saya tidak yakin apa, jika ada, implikasi yang akan terjadi, & pendirian. berbuat salah. IQR / 2 harus sama dengan SE dari MADM.
gung - Reinstate Monica
Begitu ya, terima kasih atas klarifikasi. Poin bagus tentang interpretasi median Q3 dan Q1. Saya akan MADM/medianmencoba bersama IQR/median. Perbandingan berdampingan mungkin menarik. (+1 untuk saran yang menarik)
Assad Ebrahim
6

"Pilihan 1" adalah apa yang Anda inginkan jika Anda menggunakan non-parametrik untuk tujuan umum mengurangi efek pencilan. Bahkan jika Anda menggunakannya karena kemiringan yang juga memiliki efek samping yang umumnya memiliki nilai ekstrem di ekor, itu mungkin outlier. "Pilihan 2" Anda dapat dipengaruhi secara dramatis oleh pencilan atau nilai ekstrem apa pun sementara komponen persamaan pertama Anda relatif kuat terhadapnya.

[Ini akan sedikit tergantung pada jenis IQR apa yang Anda pilih (lihat bantuan R pada kuantil).]

John
sumber
Anda benar, saya seharusnya mengatakan "ini analog dengan definisi koefisien variasi ... (diperbaiki sekarang dalam pertanyaan)!
Assad Ebrahim
Terima kasih atas komentar yang tergantung pada jenis IQR yang Anda pilih ... - Saya tidak menyadari ada begitu banyak definisi yang memungkinkan untuk kuartil / kuantil! Saya menggunakan quartile( )fungsi bawaan Excel , lalu mengambil IQR := Q3 - Q1. Angka saya berasal dari serangkaian waktu pengukuran mingguan selama setahun. Pengukuran adalah ukuran kinerja industri dan juga dari distribusi berkelanjutan. Populasi yang berbeda adalah kelompok produk yang berbeda. Dalam situasi ini, saya tidak berpikir perbedaan definisi akan jauh berbeda dalam praktiknya?
Assad Ebrahim
6

Saya lebih suka tidak menghitung ukuran seperti CV karena saya hampir selalu memiliki asal sembarang untuk variabel acak. Mengenai pilihan ukuran dispersi yang kuat, sulit untuk mengalahkan perbedaan rata-rata Gini, yang merupakan rata-rata dari semua nilai absolut yang mungkin dari perbedaan antara dua pengamatan. Untuk perhitungan yang efisien, lihat misalnya fungsi rmspaket R. GiniMdDi bawah normalitas, perbedaan rata-rata Gini adalah 0,98 seefisien SD untuk memperkirakan dispersi.

Frank Harrell
sumber
3

Seperti @John, saya belum pernah mendengar definisi koefisien variasi. Saya tidak akan menyebutnya bahwa jika saya menggunakannya, itu akan membingungkan orang.

"Mana yang paling berguna?" akan tergantung pada apa yang ingin Anda gunakan. Tentu saja pilihan 1 lebih kuat untuk pencilan, jika Anda yakin itulah yang Anda inginkan. Tapi apa tujuan membandingkan kedua distribusi? Apa yang sedang Anda coba lakukan?

Salah satu alternatifnya adalah dengan membakukan kedua langkah tersebut dan kemudian melihat ringkasannya.

Lainnya adalah plot QQ.

Ada banyak lainnya juga.

Peter Flom - Pasang kembali Monica
sumber
Poin yang baik - seharusnya dikatakan analog dengan koefisien variasi (saya telah membuat koreksi).
Assad Ebrahim
Angka saya berasal dari serangkaian waktu pengukuran mingguan selama setahun. Pengukuran adalah ukuran kinerja industri dan juga dari distribusi berkelanjutan. Populasi yang berbeda adalah kelompok produk yang berbeda dan saya memiliki sekitar 50 kelompok produk. Apa yang saya coba lakukan adalah dapat membandingkan variabilitas yang melekat antara kelompok produk yang berbeda. Secara khusus, saya ingin dapat membuat peringkat kelompok produk dalam mengurangi urutan variabilitas.
Assad Ebrahim
Apa maksud Anda 'menstandarkan kedua langkah dan kemudian melihat ringkasan'? Saya pikir Pilihan 1 membakukan mereka ...!
Assad Ebrahim
2

Makalah ini menyajikan dua alternatif kuat yang baik untuk koefisien variasi. Salah satunya adalah rentang interkuartil dibagi dengan median, yaitu:

IQR / median = (Q3-Q1) / median

Yang lainnya adalah median deviasi absolut dibagi dengan median, yaitu:

MAD / median

Mereka membandingkannya dan menyimpulkan secara umum yang kedua sedikit kurang variabel dan mungkin lebih baik untuk sebagian besar aplikasi.

Armando
sumber