Menjinakkan kemiringan ... Mengapa ada begitu banyak fungsi kemiringan?

9

Saya berharap memiliki wawasan lebih tentang empat jenis kemiringan dari komunitas ini.

Jenis yang saya rujuk disebutkan dalam http://www.inside-r.org/packages/cran/e1071/docs/skewness help page.

Metode lama tidak disebutkan di halaman bantuan, tapi saya tetap memasukkannya.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

Inilah makalah yang dirujuk oleh penulis e1071: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes dan CA Gill (1998), Membandingkan ukuran skewness sampel dan kurtosis.

Dari pembacaan saya tentang makalah itu, mereka menyarankan bahwa tipe # 3 memiliki kesalahan paling sedikit.

Berikut ini contoh kemiringan dari kode di atas:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

Saya juga memperhatikan bahwa penulis e1071 menulis fungsi miring yang berbeda dari catatan di halaman bantuan. Perhatikan sqrt:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

Adakah ide mengapa sqrt (n) ada dalam persamaan pertama? Persamaan manakah yang menangani overflow / underflow lebih baik? Adakah ide lain mengapa mereka berbeda (tetapi menghasilkan hasil yang sama)?

Chris
sumber
3
Pertanyaan Anda menyebutkan "empat jenis kemiringan" ... tetapi kemudian memberikan tautan dan diluncurkan ke sekelompok kode (bahasa mana yang bahkan tidak Anda sebutkan). Jadi orang-orang tidak perlu membaca tautan untuk menemukan apa yang Anda minta, dan untuk kepentingan orang-orang yang tidak membaca R, dan mereka yang menemukan kode membaca tidak membantu dalam menyampaikan pemahaman, itu akan membantu untuk menentukan empat yang mana ukuran kemiringan yang Anda maksud sebelumnya (atau lebih baik daripada) sepotong kode. [Ketika Anda mengatakan "empat", daripada mengatakan "empat ini", mengapa menurut Anda ada empat, bukan lima atau tujuh atau angka lainnya?]
Glen_b -Reinstate Monica
1
Saya telah berusaha memberikan beberapa bentuk jawaban untuk pertanyaan-pertanyaan spesifik yang dapat saya temukan di pos Anda dan membahas sejumlah masalah di sepanjang jalan, tetapi di luar itu "berharap untuk memiliki lebih banyak wawasan" terlalu samar untuk ditanggapi. Bisakah Anda lebih jelas mengidentifikasi hal-hal yang ingin Anda ketahui tentang? Ada banyak pertanyaan di situs kami yang berkaitan dengan kemiringan.
Glen_b -Reinstate Monica
Glen terima kasih, untuk posting Anda. Saya menyertakan R untuk tujuan ilustrasi dan untuk menunjukkan formula. Juga saya tidak tahu Lateks. :(
Chris

Jawaban:

10

Mari kita mulai dengan yang Anda gambarkan sebagai "metode lama"; ini adalah kemiringan Pearson kedua, atau kemiringan median ; pada kenyataannya skewness momen dan vintage secara umum sama (skewness median sebenarnya sedikit lebih muda sejak saat skewness mendahului upaya Pearson).

Sebuah diskusi kecil tentang beberapa sejarah dapat ditemukan di sini ; posting itu juga dapat memberikan sedikit pertanyaan pada beberapa pertanyaan Anda yang lain.

Jika Anda mencari situs kami menggunakan kemiringan Pearson kedua, Anda akan mendapatkan beberapa posting yang berisi beberapa diskusi tentang perilaku pengukuran ini.

Ini bukan benar-benar lebih aneh daripada saat ukuran kecondongan dalam pikiran saya; mereka berdua kadang-kadang melakukan beberapa hal aneh yang tidak sesuai dengan harapan orang-orang akan ukuran kemiringan.


b1

snsn1g1

G1

b1n2(n1)(n2)n,(n-1)(n-2)

Ketiganya adalah variasi yang sedikit berbeda pada kemiringan momen ketiga. Dalam sampel yang sangat besar benar-benar tidak ada perbedaan yang Anda gunakan. Dalam sampel yang lebih kecil mereka semua memiliki bias dan varians yang sedikit berbeda.


Bentuk-bentuk yang dibahas di sini tidak melelahkan definisi kemiringan (saya telah melihat sekitar selusin, saya kira - artikel Wikipedia mencantumkan cukup banyak, tetapi bahkan itu tidak mencakup keseluruhan), atau bahkan definisi yang terkait dengan ketiga kemiringan -benar, yang saya telah melihat lebih dari tiga Anda membesarkan di sini.

Mengapa ada banyak ukuran kemiringan?

Jadi (memperlakukan semua skewness momen ketiga sebagai satu momen) mengapa banyak skewness yang berbeda? Sebagian karena kemiringan sebagai gagasan sebenarnya cukup sulit untuk dijabarkan. Ini adalah hal yang licin yang tidak dapat Anda sebutkan ke satu nomor. Akibatnya, semua definisi kurang memadai dalam beberapa hal, namun demikian biasanya sesuai dengan pengertian luas kita tentang apa yang harus kita lakukan sebagai ukuran kemiringan. Orang-orang terus berusaha menghasilkan definisi yang lebih baik, tetapi langkah-langkah lama, seperti keyboard QWERTY, tidak ke mana-mana.

Mengapa ada beberapa ukuran kemiringan berdasarkan momen ke-3?

Adapun mengapa begitu banyak skewness momen ketiga, itu hanya karena ada lebih dari satu cara untuk mengubah ukuran populasi menjadi ukuran sampel. Kami melihat dua rute berdasarkan momen dan satu lagi berdasarkan kumulan. Kita masih bisa membangun lebih banyak lagi; misalnya, kita mungkin mencoba untuk mendapatkan ukuran (sampel kecil) yang tidak bias dengan asumsi distribusi, atau ukuran kesalahan rata-rata kuadrat minimum atau kuantitas lain semacam itu.

Anda mungkin menemukan beberapa posting di situs yang berkaitan dengan pencerahan skewness; ada beberapa yang menunjukkan contoh distribusi yang tidak simetris tetapi memiliki kemiringan nol momen ketiga. Ada beberapa yang menunjukkan kemiringan median Pearson dan kemiringan momen ketiga dapat memiliki tanda yang berlawanan.

Berikut ini tautan ke beberapa pos yang berkaitan dengan kemiringan:

Apakah mean = median menyiratkan bahwa distribusi unimodal simetris?

Dalam data miring kiri, apa hubungan antara rata-rata dan median?

cara menentukan kemiringan dari histogram dengan pencilan?


b1

n(x-x¯)3((x-x¯)2)3/2 #dari e1071 :: sumber skewness

(x-x¯)3/n((x-x¯)2/n)3/2 #dari momen dan halaman bantuan e1071

32n

Glen_b -Reinstate Monica
sumber