Untuk set data yang diberikan, spread sering dihitung baik sebagai standar deviasi atau sebagai IQR (rentang antar-kuartil).
Sedangkan a standard deviation
dinormalisasi (skor-z, dll.) Dan dapat digunakan untuk membandingkan penyebaran dari dua populasi yang berbeda, ini bukan kasus dengan IQR karena sampel dari dua populasi yang berbeda dapat memiliki nilai pada dua skala yang sangat berbeda,
e.g.
Pop A: 100, 67, 89, 75, 120, ...
Pop B: 19, 22, 43, 8, 12, ...
Apa yang saya kejar adalah ukuran yang kuat (non-parametrik) yang dapat saya gunakan untuk membandingkan variasi dalam populasi yang berbeda.
Pilihan 1:
IQR / Median
- ini akan dengan analogi dengan koefisien variasi , yaitu untuk .
Pilihan 2:
Range / IQR
Pertanyaan: Manakah ukuran yang lebih bermakna untuk membandingkan variasi antar populasi? Dan jika itu adalah Pilihan 1, apakah Pilihan 2 berguna untuk apa pun / bermakna, atau apakah itu ukuran yang secara mendasar cacat?
sumber
Jawaban:
Pertanyaannya menyiratkan bahwa deviasi standar (SD) entah bagaimana dinormalisasi sehingga dapat digunakan untuk membandingkan variabilitas dua populasi yang berbeda. Tidak begitu. Seperti yang dikatakan Peter dan John, normalisasi ini dilakukan seperti ketika menghitung koefisien variasi (CV), yang sama dengan SD / Mean. SD ada di dalam unit yang sama dengan data asli. Sebaliknya, CV adalah rasio tanpa unit.
Pilihan Anda 1 (IQR / Median) analog dengan CV. Seperti CV, itu hanya masuk akal ketika data adalah data rasio. Ini berarti nol benar-benar nol. Berat nol bukanlah berat. Panjang nol adalah panjang. Sebagai contoh balasan, tidak masuk akal untuk suhu dalam C atau F, karena suhu nol derajat (C atau F) tidak berarti tidak ada suhu. Cukup beralih antara menggunakan skala C atau F akan memberi Anda nilai yang berbeda untuk CV atau untuk rasio IQR / Median, yang membuat kedua rasio itu tidak berarti.
Saya setuju dengan Peter dan John bahwa ide kedua Anda (Range / IQR) tidak akan terlalu kuat untuk outlier, jadi mungkin tidak akan berguna.
sumber
z-scores
untuk menstandarkan nilai-nilai dan menormalkan posisi mereka dalam distribusi dalam hal mean dan standar deviasi, dengan masalah ini, yang adalah tentang kemampuan untuk menentukan peringkat kelompok produk berdasarkan variabilitasnya. Memilih jawaban Anda sebagai jawaban yang benar karena sementara Peter dan John sama-sama sangat membantu, jawaban Anda mengingatkan saya pada campur tangan konseptual. Poin bagus tentang Pilihan 1 adalah penggunaan terbatas dekat median 0. Untungnya, dalam masalah saya, saya tidak perlu khawatir tentang ini.Penting untuk menyadari minimum dan maksimum sering statistik yang tidak terlalu baik untuk digunakan (yaitu, mereka dapat sangat berfluktuasi dari sampel ke sampel, dan tidak mengikuti distribusi normal karena, katakanlah, mean mungkin karena Teorema Batas Pusat) . Akibatnya, rentang jarang merupakan pilihan yang baik untuk apa pun selain untuk menyatakan kisaran sampel yang tepat ini . Untuk statistik nonparametrik yang sederhana untuk merepresentasikan variabilitas, Kisaran Inter-Kuartil jauh lebih baik. Namun, sementara saya melihat analogi antara IQR / median dan koefisien variasi, saya tidak berpikir ini mungkin menjadi pilihan terbaik.
Anda mungkin ingin melihat deviasi absolut median dari median ( MADM ). Yaitu: Saya menduga analogi nonparametrik yang lebih baik dengan koefisien variasi adalah MADM / median, daripada IQR / median.
sumber
MADM/median
, pada dasarnya perbedaan tengah dari nilai tengah. Mari kita sebut Pilihan 3. Setuju dengan penilaian Anda atas Pilihan 1, jadi keluar, terima kasih. Saat Anda menyarankan 'lebih baik', atribut apa yang mungkin digunakan seseorang untuk membandingkan Pilihan 2 dengan Pilihan 3 untuk melihat mana yang lebih baik?MADM/median
mencoba bersamaIQR/median
. Perbandingan berdampingan mungkin menarik. (+1 untuk saran yang menarik)"Pilihan 1" adalah apa yang Anda inginkan jika Anda menggunakan non-parametrik untuk tujuan umum mengurangi efek pencilan. Bahkan jika Anda menggunakannya karena kemiringan yang juga memiliki efek samping yang umumnya memiliki nilai ekstrem di ekor, itu mungkin outlier. "Pilihan 2" Anda dapat dipengaruhi secara dramatis oleh pencilan atau nilai ekstrem apa pun sementara komponen persamaan pertama Anda relatif kuat terhadapnya.
[Ini akan sedikit tergantung pada jenis IQR apa yang Anda pilih (lihat bantuan R pada kuantil).]
sumber
quartile( )
fungsi bawaan Excel , lalu mengambilIQR := Q3 - Q1
. Angka saya berasal dari serangkaian waktu pengukuran mingguan selama setahun. Pengukuran adalah ukuran kinerja industri dan juga dari distribusi berkelanjutan. Populasi yang berbeda adalah kelompok produk yang berbeda. Dalam situasi ini, saya tidak berpikir perbedaan definisi akan jauh berbeda dalam praktiknya?Saya lebih suka tidak menghitung ukuran seperti CV karena saya hampir selalu memiliki asal sembarang untuk variabel acak. Mengenai pilihan ukuran dispersi yang kuat, sulit untuk mengalahkan perbedaan rata-rata Gini, yang merupakan rata-rata dari semua nilai absolut yang mungkin dari perbedaan antara dua pengamatan. Untuk perhitungan yang efisien, lihat misalnya fungsi
rms
paket R.GiniMd
Di bawah normalitas, perbedaan rata-rata Gini adalah 0,98 seefisien SD untuk memperkirakan dispersi.sumber
Seperti @John, saya belum pernah mendengar definisi koefisien variasi. Saya tidak akan menyebutnya bahwa jika saya menggunakannya, itu akan membingungkan orang.
"Mana yang paling berguna?" akan tergantung pada apa yang ingin Anda gunakan. Tentu saja pilihan 1 lebih kuat untuk pencilan, jika Anda yakin itulah yang Anda inginkan. Tapi apa tujuan membandingkan kedua distribusi? Apa yang sedang Anda coba lakukan?
Salah satu alternatifnya adalah dengan membakukan kedua langkah tersebut dan kemudian melihat ringkasannya.
Lainnya adalah plot QQ.
Ada banyak lainnya juga.
sumber
Makalah ini menyajikan dua alternatif kuat yang baik untuk koefisien variasi. Salah satunya adalah rentang interkuartil dibagi dengan median, yaitu:
IQR / median = (Q3-Q1) / median
Yang lainnya adalah median deviasi absolut dibagi dengan median, yaitu:
MAD / median
Mereka membandingkannya dan menyimpulkan secara umum yang kedua sedikit kurang variabel dan mungkin lebih baik untuk sebagian besar aplikasi.
sumber