Saya berharap memiliki wawasan lebih tentang empat jenis kemiringan dari komunitas ini.
Jenis yang saya rujuk disebutkan dalam http://www.inside-r.org/packages/cran/e1071/docs/skewness help page.
Metode lama tidak disebutkan di halaman bantuan, tapi saya tetap memasukkannya.
require(moments)
require(e1071)
x=rnorm(100)
n=length(x)
hist(x)
###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page
###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)
###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); } #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)
###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...
Inilah makalah yang dirujuk oleh penulis e1071: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes dan CA Gill (1998), Membandingkan ukuran skewness sampel dan kurtosis.
Dari pembacaan saya tentang makalah itu, mereka menyarankan bahwa tipe # 3 memiliki kesalahan paling sedikit.
Berikut ini contoh kemiringan dari kode di atas:
e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532
Saya juga memperhatikan bahwa penulis e1071 menulis fungsi miring yang berbeda dari catatan di halaman bantuan. Perhatikan sqrt:
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page
Adakah ide mengapa sqrt (n) ada dalam persamaan pertama? Persamaan manakah yang menangani overflow / underflow lebih baik? Adakah ide lain mengapa mereka berbeda (tetapi menghasilkan hasil yang sama)?
Jawaban:
Mari kita mulai dengan yang Anda gambarkan sebagai "metode lama"; ini adalah kemiringan Pearson kedua, atau kemiringan median ; pada kenyataannya skewness momen dan vintage secara umum sama (skewness median sebenarnya sedikit lebih muda sejak saat skewness mendahului upaya Pearson).
Sebuah diskusi kecil tentang beberapa sejarah dapat ditemukan di sini ; posting itu juga dapat memberikan sedikit pertanyaan pada beberapa pertanyaan Anda yang lain.
Jika Anda mencari situs kami menggunakan kemiringan Pearson kedua, Anda akan mendapatkan beberapa posting yang berisi beberapa diskusi tentang perilaku pengukuran ini.
Ini bukan benar-benar lebih aneh daripada saat ukuran kecondongan dalam pikiran saya; mereka berdua kadang-kadang melakukan beberapa hal aneh yang tidak sesuai dengan harapan orang-orang akan ukuran kemiringan.
Ketiganya adalah variasi yang sedikit berbeda pada kemiringan momen ketiga. Dalam sampel yang sangat besar benar-benar tidak ada perbedaan yang Anda gunakan. Dalam sampel yang lebih kecil mereka semua memiliki bias dan varians yang sedikit berbeda.
Bentuk-bentuk yang dibahas di sini tidak melelahkan definisi kemiringan (saya telah melihat sekitar selusin, saya kira - artikel Wikipedia mencantumkan cukup banyak, tetapi bahkan itu tidak mencakup keseluruhan), atau bahkan definisi yang terkait dengan ketiga kemiringan -benar, yang saya telah melihat lebih dari tiga Anda membesarkan di sini.
Mengapa ada banyak ukuran kemiringan?
Jadi (memperlakukan semua skewness momen ketiga sebagai satu momen) mengapa banyak skewness yang berbeda? Sebagian karena kemiringan sebagai gagasan sebenarnya cukup sulit untuk dijabarkan. Ini adalah hal yang licin yang tidak dapat Anda sebutkan ke satu nomor. Akibatnya, semua definisi kurang memadai dalam beberapa hal, namun demikian biasanya sesuai dengan pengertian luas kita tentang apa yang harus kita lakukan sebagai ukuran kemiringan. Orang-orang terus berusaha menghasilkan definisi yang lebih baik, tetapi langkah-langkah lama, seperti keyboard QWERTY, tidak ke mana-mana.
Mengapa ada beberapa ukuran kemiringan berdasarkan momen ke-3?
Adapun mengapa begitu banyak skewness momen ketiga, itu hanya karena ada lebih dari satu cara untuk mengubah ukuran populasi menjadi ukuran sampel. Kami melihat dua rute berdasarkan momen dan satu lagi berdasarkan kumulan. Kita masih bisa membangun lebih banyak lagi; misalnya, kita mungkin mencoba untuk mendapatkan ukuran (sampel kecil) yang tidak bias dengan asumsi distribusi, atau ukuran kesalahan rata-rata kuadrat minimum atau kuantitas lain semacam itu.
Anda mungkin menemukan beberapa posting di situs yang berkaitan dengan pencerahan skewness; ada beberapa yang menunjukkan contoh distribusi yang tidak simetris tetapi memiliki kemiringan nol momen ketiga. Ada beberapa yang menunjukkan kemiringan median Pearson dan kemiringan momen ketiga dapat memiliki tanda yang berlawanan.
Berikut ini tautan ke beberapa pos yang berkaitan dengan kemiringan:
Apakah mean = median menyiratkan bahwa distribusi unimodal simetris?
Dalam data miring kiri, apa hubungan antara rata-rata dan median?
cara menentukan kemiringan dari histogram dengan pencilan?
sumber