Perbedaan dalam definisi kurtosis dan interpretasinya

10

Baru-baru ini saya menyadari bahwa ada perbedaan dalam nilai kurtosis yang diberikan oleh SPSS dan Stata.

Lihat http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm

Pemahaman saya adalah bahwa interpretasi yang sama karenanya akan berbeda.

Adakah saran tentang cara menangani hal ini?

Cesare Camestre
sumber
Saya tahu tentang dua formula pertama dan cukup mudah untuk membedakannya; Saya belum melihat formula ketiga itu.
Peter Flom - Reinstate Monica

Jawaban:

9

Tiga formula

Tiga formula untuk kurtosis umumnya digunakan oleh program yang berbeda. Saya akan menyatakan ketiga formula ( , G 2 dan b 2 ) dan program yang menggunakannya.g2G2b2

The Rumus pertama dan definisi khas digunakan dalam banyak buku teks adalah (ini adalah rumus kedua di link yang Anda berikan) manamrmenunjukkanmomen sampel:

g2=m4m22
mr

mr=1n(xix¯)r

Terkadang, istilah koreksi -3 ditambahkan ke rumus ini sehingga distribusi normal memiliki kurtosis 0. Formula kurtosis dengan jangka waktu -3 disebut kelebihan kurtosis (rumus pertama dalam tautan yang Anda berikan).

The Rumus kedua adalah (digunakan oleh SAS, SPSS dan MS Excel, ini adalah rumus ketiga dalam link yang Anda berikan)

G2=k4k22=n1(n2)(n3)[(n+1)g2+6]

g2

b2=m4s43=(n1n)2m4m223

s2

s2=1n1(xix¯)2

Rkurtosise1071typeg23G2b2

Kedua makalah ini membahas dan membandingkan ketiga formula: pertama , kedua .

Ringkasan perbedaan antara formula

  1. g2G2b2
  2. G2G2E(G2)=0
  3. Untuk sampel besar, perbedaan antara formula dapat diabaikan dan pilihannya tidak terlalu menjadi masalah.
  4. mse(g2)<mse(b2)<mse(G2)g2G2G2G2Var(b2)<Var(g2)<Var(G2)
  5. bias(G2)<bias(g2)<bias(b2)mse(G2)<mse(g2)<mse(b2)G2b2 memiliki rata-rata kesalahan kuadrat dan bias.
  6. n>200bias(G2)<bias(g2)<bias(b2)mse(b2)<mse(g2)<mse(G2)

Lihat juga halaman Wikipedia dan halaman MathWorld tentang kurtosis.

COOLSerdash
sumber
Saya menyebutnya interpretasi yang bagus dan jelas tentang "kisah yang biasa". Saya akan menambahkan bahwa istilah leptokurtic, mesokurtic, platykurtic hanya bagasi yang harus kita tinggalkan di abad ke-20: kita memiliki ukuran, yang harus kita pikirkan secara kuantitatif. Lebih serius lagi, interpretasi yang memuncak versus yang rata hanya tidak sesuai dengan variasi besar dalam bentuk distribusi yang mungkin, bahkan yang semuanya simetris. Akhirnya, bias dalam praktik tidak menggigit banyak kecuali Anda bermain dengan sampel kecil yang tidak tepat, tetapi varians benar-benar melakukannya!
Nick Cox
G2γ2g2
G2γ2g2
G2=0
7

Tautan yang dimaksud berbicara tentang SAS juga. Tetapi sebenarnya tidak ada dalam pertanyaan ini, kecuali kemungkinan fokus poster itu sendiri, membatasi itu untuk program-program tertentu yang disebutkan.

Saya pikir kita perlu memisahkan berbagai jenis masalah di sini, beberapa di antaranya adalah ilusi dan beberapa di antaranya asli.

  1. Beberapa program melakukan, dan beberapa tidak, mengurangi 3 sehingga ukuran kurtosis yang dilaporkan adalah 3 untuk variabel Gaussian / normal tanpa pengurangan dan 0 dengan pengurangan. Saya telah melihat orang-orang bingung dengan itu, sering kali ketika perbedaannya ternyata adalah 2.999 dan tidak tepat 3.

  2. n

Jadi, ada masalah kecil formula, # 1 menjadi kesepakatan yang jauh lebih besar dari # 2, tetapi keduanya minor jika dipahami. Sarannya jelas adalah melihat dokumentasi untuk program yang Anda gunakan, dan jika tidak ada dokumentasi yang menjelaskan perincian semacam itu untuk segera meninggalkan program itu. Tetapi kasus uji sesederhana variabel (1, 2) menghasilkan kurtosis 1 atau 4 tergantung pada # 1 saja (tanpa faktor koreksi).

Pertanyaannya kemudian bertanya tentang penafsiran, tetapi ini adalah masalah yang jauh lebih terbuka dan kontroversial.

Sebelum kita sampai ke area utama diskusi, kesulitan yang sering dilaporkan tetapi sedikit diketahui adalah bahwa estimasi kurtosis dibatasi sebagai fungsi dari ukuran sampel. Saya menulis ulasan di Cox, NJ 2010. Batas-batas skewness sampel dan kurtosis. Stata Journal 10 (3): 482-495. http://www.stata-journal.com/article.html?article=st0204

Abstrak: Kecenderungan sampel dan kurtosis dibatasi oleh fungsi ukuran sampel. Batas-batas, atau perkiraan mereka, telah berulang kali ditemukan kembali selama beberapa dekade terakhir, namun demikian tampaknya tetap hanya kurang dikenal. Batasan memberikan bias pada estimasi dan, dalam kasus ekstrim, menyiratkan bahwa tidak ada sampel yang dapat memberikan kesaksian yang tepat untuk distribusi induknya. Hasil utama dijelaskan dalam ulasan tutorial, dan ditunjukkan bagaimana Stata dan Mata dapat digunakan untuk mengkonfirmasi dan mengeksplorasi konsekuensinya.

Sekarang untuk apa yang biasanya dianggap sebagai inti dari masalah ini:

Banyak orang menerjemahkan kurtosis sebagai puncaknya, tetapi yang lain menekankan bahwa kurtosis sering berfungsi sebagai ukuran berat ekor. Faktanya, kedua interpretasi itu bisa menjadi kata-kata yang masuk akal untuk beberapa distribusi. Hampir tidak terhindarkan bahwa tidak ada interpretasi verbal sederhana tentang kurtosis: bahasa kita tidak cukup kaya pada perbandingan jumlah kekuatan penyimpangan keempat dari mean dan jumlah kekuatan kedua yang sama.

Dalam klasik kecil dan sering diabaikan, Irving Kaplansky (1945a) menarik perhatian pada empat contoh distribusi dengan nilai-nilai berbeda dari kurtosis dan perilaku yang tidak konsisten dengan beberapa diskusi tentang kurtosis.

xc=π

(1)   (1/3c)(9/4+x4)exp(x2)

(2)   (3/(c8))exp(x2/2)(1/6c)(9/4+x4)exp(x2)

(3)   (1/6c)(exp(x2/4)+4exp(x2))

(4)   (33/16c)(2+x2)exp(3x2/4)

Sangat membantu untuk merencanakan kepadatan ini. Pengguna stata dapat mengunduh kaplanskyprogram saya dari SSC. Menggunakan skala logaritmik untuk kepadatan dapat membantu.

Tanpa memberikan rincian lengkap, contoh-contoh ini merongrong setiap cerita sederhana yang kurtosis rendah atau tinggi memiliki interpretasi yang jelas dalam hal puncaknya atau memang ada satu kontras lainnya.

Jika nama Irving Kaplansky berbunyi, mungkin karena Anda tahu karyanya dalam aljabar modern. Dia (1917-2006) adalah ahli matematika Kanada (kemudian Amerika) dan mengajar dan meneliti di Harvard, Chicago dan Berkeley, dengan tahun perang di Grup Matematika Terapan Dewan Pertahanan Nasional di Universitas Columbia. Kaplansky memberikan kontribusi besar pada teori grup, teori cincin, teori aljabar operator, dan teori lapangan. Dia adalah seorang pianis dan penulis lirik ulung dan seorang ekspositor matematika yang antusias dan jernih. Perhatikan juga beberapa kontribusi lain untuk probabilitas dan statistik oleh Kaplansky (1943, 1945b) dan Kaplansky dan Riordan (1945).

Kaplansky, I. 1943. Karakterisasi distribusi normal. Sejarah Statistik Matematika 14: 197-198.

Kaplansky, I. 1945a. Kesalahan umum tentang kurtosis. Jurnal, Asosiasi Statistik Amerika 40: 259 saja.

Kaplansky, I. 1945b. Distribusi asimptotik dari run elemen berurutan. Sejarah Statistik Matematika 16: 200-203.

Kaplansky, I. dan Riordan, J. 1945. Pencocokan ganda dan dijalankan dengan metode simbolik. Sejarah Statistik Matematika 16: 272-277.

Nick Cox
sumber
1
+1 Komentar menarik tentang Kaplansky, dengan karya aljabar yang telah lama saya kenal.
whuber
Nick, komentar Anda, "Sebenarnya, dua interpretasi (puncak dan ekor) bisa menjadi kata-kata yang masuk akal untuk beberapa distribusi." itu salah dan karena itu tidak membantu, hanya karena kurtosis tidak memberi tahu Anda tentang "puncaknya". Serius, bisakah Anda mendefinisikan apa arti "puncak"? Dan, tindak lanjutnya, jika saya boleh: Mengingat definisi Anda tentang "puncak" (dengan asumsi Anda dapat menemukan satu), bagaimana hubungannya, secara matematis, dengan kurtosis?
Peter Westfall
@Peter Westfall Jika kita dapat setuju bahwa kurtosis adalah yang diukur oleh kurtosis, maka argumen saya hanyalah argumen Kaplansky, yang didasarkan pada kurva konkret dan hasil numerik, bukan sparring verbal, yaitu bahwa kurtosis yang lebih tinggi terkadang berjalan dengan kepadatan puncak yang lebih tinggi, dan sebaliknya untuk kurtosis lebih rendah. Saya sama sekali tidak memihak istilah peakedness, dan ketika diwajibkan untuk menyederhanakan secara verbal cenderung untuk menyatakan bahwa dalam praktiknya kurtosis sebagian besar merupakan kisah berat ekor. Saya pikir rumus di sini melakukan semua pekerjaan dan membawa semua bobot statistik dan menemukan polemik verbal kurang membantu.
Nick Cox
Selain itu, saya kira tidak mungkin ada karakterisasi mudah dari kurtosis kecuali untuk distribusi yang sepenuhnya simetris. Saya tidak berpikir siapa pun berkewajiban untuk menentukan puncaknya sama sekali; definisi yang ada adalah tentang kurtosis dan pertanyaan praktisnya adalah bagaimana memikirkannya dan sejauh mana penggunaannya.
Nick Cox
Pernyataan "hanya karena kurtosis tidak memberi tahu Anda tentang puncaknya" itu sendiri tidak terbukti. Referensi yang hilang tentu akan menyertakan makalah Anda di TAS, yang dapat diakses oleh orang-orang yang tertarik untuk mempertimbangkan diskusi panjang Anda sendiri.
Nick Cox