Perbedaannya adalah ringkasan statistik: koefisien Gini dan standar deviasi

12

Ada beberapa statistik ringkasan. Ketika Anda ingin menggambarkan penyebaran distribusi yang dapat Anda gunakan misalnya standar deviasi atau koefisien Gini .

Saya tahu bahwa standar deviasi didasarkan pada kecenderungan sentral, yaitu deviasi dari nilai tengah, dan koefisien Gini merupakan ukuran umum dari dispersi. Saya juga tahu bahwa koefisien Gini memiliki batas bawah dan atas [0 1], dan standar deviasi tidak . Sifat-sifat ini baik untuk diketahui tetapi wawasan apa yang dapat diberikan oleh deviasi standar yang Gini tidak dapat dan sebaliknya? Jika saya harus memilih untuk menggunakan salah satu dari keduanya, apa kelebihan menggunakan satu dibandingkan dengan yang lain ketika menjadi informatif dan wawasan.

Olivier_s_j
sumber
1
Anda memiliki pilihan tag yang aneh. Saya mengeditnya.
amoeba

Jawaban:

8

Dua hal yang perlu dipertimbangkan

Gini adalah skala independen sedangkan SD berada di unit aslinya

Misalkan kita memiliki ukuran yang dibatasi di atas dan di bawah. SD mengambil nilai maksimumnya jika setengah pengukuran berada di setiap batas sedangkan Gini mengambil maksimum adalah satu di satu batas dan semua sisanya di lainnya.

Nyonya
sumber
Apakah Anda pikir kami dapat memperluas penggunaan Gini untuk memperhitungkan konsentrasi / heterogenitas dalam meta-analisis? Ini bisa menarik sebagai alat untuk mengukur konsentrasi dalam heterogenitas ...
Joe_74
1
Karena asumsinya adalah bahwa efeknya normal, maka tidak. Tapi saya pikir diskusi yang lebih lengkap adalah di luar topik di utas ini
mdewey
@mdewey Kalimat terakhir itu berwawasan luas dan paling membantu saya. Terima kasih!
Olivier_s_j
@mdewey Saya menguji ini sendiri dengan beberapa kode, tetapi apakah ada publikasi di suatu tempat yang membahas hal ini? Atau buktinya? (Saya mengacu pada kalimat terakhir)
Olivier_s_j
@Ojtwist artikel Wikipedia en.wikipedia.org/wiki/Gini_coefisien sangat membantu.
mdewey
10

Koefisien Gini adalah invarian untuk skala dan dibatasi, standar deviasi invarian terhadap perubahan, dan tidak terikat, sehingga sulit untuk dibandingkan secara langsung. Sekarang Anda dapat menentukan versi skala-invarian dari standar deviasi, dengan membaginya dengan rata-rata (koefisien variasi).

Namun, indeks Gini masih didasarkan pada nilai, yang kedua pada nilai kuadrat, sehingga Anda dapat mengharapkan yang kedua akan lebih dipengaruhi oleh pencilan (nilai yang terlalu rendah atau tinggi). Ini dapat ditemukan dalam langkah-langkah ketimpangan pendapatan , F De Maio, 2007:

Ukuran ketimpangan pendapatan ini dihitung dengan membagi standar deviasi distribusi pendapatan dengan rata-ratanya. Distribusi pendapatan yang lebih setara akan memiliki standar deviasi yang lebih kecil; dengan demikian, CV akan lebih kecil di masyarakat yang lebih setara. Meskipun menjadi salah satu ukuran ketimpangan yang paling sederhana, penggunaan CV telah cukup terbatas dalam literatur kesehatan masyarakat dan belum ditampilkan dalam penelitian tentang hipotesis ketimpangan pendapatan. Ini mungkin dikaitkan dengan batasan penting dari ukuran CV: (1) tidak memiliki batas atas, tidak seperti koefisien Gini, 18 membuat interpretasi dan perbandingan agak lebih sulit; dan (2) dua komponen CV (rata-rata dan deviasi standar) dapat sangat dipengaruhi oleh nilai pendapatan rendah atau tinggi secara anomali. Dengan kata lain,

1(xm)=|xnm|1/2N2(x)1(x)N2(x)

1/2

1/2

Jadi, kecuali jika Anda ingin menandai distribusi yang hampir Gaussian, jika Anda ingin mengukur sparsity, gunakan indeks Gini, jika Anda ingin mempromosikan sparsity di antara model yang berbeda, Anda dapat mencoba rasio norma seperti itu.

Kuliah tambahan: Perbedaan rata-rata Gini: ukuran variabilitas yang unggul untuk distribusi tidak normal , Shlomo Yitzhaki, 2003, yang abstraknya mungkin tampak menarik:

Dari semua ukuran variabilitas, varians sejauh ini yang paling populer. Makalah ini berpendapat bahwa Gini's Mean Difference (GMD), indeks variabilitas alternatif, berbagi banyak properti dengan varians, tetapi dapat lebih informatif tentang sifat-sifat distribusi yang menyimpang dari normalitas.

Laurent Duval
sumber
1

Deviasi standar memiliki skala (misalnya, ° K, meter, mmHg, ...). Biasanya, ini memengaruhi penilaian kita tentang besarnya. Jadi kita cenderung lebih suka koefisien variasi atau bahkan lebih baik (pada sampel hingga) kesalahan standar.

[0,1]

Horst Grünbusch
sumber