Ada beberapa statistik ringkasan. Ketika Anda ingin menggambarkan penyebaran distribusi yang dapat Anda gunakan misalnya standar deviasi atau koefisien Gini .
Saya tahu bahwa standar deviasi didasarkan pada kecenderungan sentral, yaitu deviasi dari nilai tengah, dan koefisien Gini merupakan ukuran umum dari dispersi. Saya juga tahu bahwa koefisien Gini memiliki batas bawah dan atas [0 1], dan standar deviasi tidak . Sifat-sifat ini baik untuk diketahui tetapi wawasan apa yang dapat diberikan oleh deviasi standar yang Gini tidak dapat dan sebaliknya? Jika saya harus memilih untuk menggunakan salah satu dari keduanya, apa kelebihan menggunakan satu dibandingkan dengan yang lain ketika menjadi informatif dan wawasan.
standard-deviation
descriptive-statistics
gini
Olivier_s_j
sumber
sumber
Jawaban:
Dua hal yang perlu dipertimbangkan
Gini adalah skala independen sedangkan SD berada di unit aslinya
Misalkan kita memiliki ukuran yang dibatasi di atas dan di bawah. SD mengambil nilai maksimumnya jika setengah pengukuran berada di setiap batas sedangkan Gini mengambil maksimum adalah satu di satu batas dan semua sisanya di lainnya.
sumber
Koefisien Gini adalah invarian untuk skala dan dibatasi, standar deviasi invarian terhadap perubahan, dan tidak terikat, sehingga sulit untuk dibandingkan secara langsung. Sekarang Anda dapat menentukan versi skala-invarian dari standar deviasi, dengan membaginya dengan rata-rata (koefisien variasi).
Namun, indeks Gini masih didasarkan pada nilai, yang kedua pada nilai kuadrat, sehingga Anda dapat mengharapkan yang kedua akan lebih dipengaruhi oleh pencilan (nilai yang terlalu rendah atau tinggi). Ini dapat ditemukan dalam langkah-langkah ketimpangan pendapatan , F De Maio, 2007:
Jadi, kecuali jika Anda ingin menandai distribusi yang hampir Gaussian, jika Anda ingin mengukur sparsity, gunakan indeks Gini, jika Anda ingin mempromosikan sparsity di antara model yang berbeda, Anda dapat mencoba rasio norma seperti itu.
Kuliah tambahan: Perbedaan rata-rata Gini: ukuran variabilitas yang unggul untuk distribusi tidak normal , Shlomo Yitzhaki, 2003, yang abstraknya mungkin tampak menarik:
sumber
Deviasi standar memiliki skala (misalnya, ° K, meter, mmHg, ...). Biasanya, ini memengaruhi penilaian kita tentang besarnya. Jadi kita cenderung lebih suka koefisien variasi atau bahkan lebih baik (pada sampel hingga) kesalahan standar.
sumber