Saya ingin tahu bahwa berapa kisaran nilai skewness dan kurtosis dimana data dianggap terdistribusi secara normal.
Saya telah membaca banyak argumen dan sebagian besar jawaban saya campur aduk. Beberapa mengatakan untuk kemiringan dan ( - 2 , 2 ) untuk kurtosis adalah kisaran yang dapat diterima untuk didistribusikan secara normal. Beberapa mengatakan ( - 1.96 , 1.96 ) untuk kemiringan adalah rentang yang dapat diterima. Saya menemukan diskusi terperinci di sini: Apa kisaran kemiringan dan kurtosis yang dapat diterima untuk distribusi data normal mengenai masalah ini. Tetapi saya tidak dapat menemukan pernyataan yang menentukan.
Apa dasar untuk memutuskan interval seperti itu? Apakah ini pilihan subjektif? Atau adakah penjelasan matematis di balik interval ini?
sumber
Jawaban:
Posting asli melewatkan beberapa poin utama: (1) Tidak ada "data" yang dapat didistribusikan secara normal. Data harus diskrit. Pertanyaan yang valid adalah, "apakah proses yang menghasilkan data merupakan proses yang terdistribusi normal?" Tetapi (2) jawaban untuk pertanyaan kedua selalu "tidak", terlepas dari apa yang diberikan tes statistik atau penilaian lain berdasarkan data. Proses yang terdistribusi secara normal menghasilkan data dengan kontinuitas tak terbatas, simetri sempurna, dan probabilitas yang ditentukan secara tepat dalam rentang standar deviasi (mis. 68-95-99.7), tidak ada yang benar-benar tepat untuk proses yang menimbulkan data yang dapat kita ukur dengan apa pun perangkat pengukuran yang dapat digunakan manusia.
Jadi Anda tidak pernah dapat mempertimbangkan data untuk didistribusikan secara normal, dan Anda tidak pernah dapat mempertimbangkan proses yang menghasilkan data sebagai proses yang terdistribusi secara normal. Tapi, seperti yang ditunjukkan Glen_b, itu mungkin tidak terlalu penting, tergantung pada apa yang Anda coba lakukan dengan data.
Statistik kemiringan dan kurtosis dapat membantu Anda menilai beberapa jenis penyimpangan dari normalitas proses pembuatan data Anda. Mereka adalah statistik yang sangat bervariasi. Kesalahan standar yang diberikan di atas tidak berguna karena mereka hanya valid di bawah normalitas, yang berarti mereka hanya berguna sebagai tes untuk normalitas, latihan yang pada dasarnya tidak berguna. Akan lebih baik menggunakan bootstrap untuk menemukan se, meskipun sampel besar akan diperlukan untuk mendapatkan se's yang akurat.
Juga, kurtosis sangat mudah untuk ditafsirkan, bertentangan dengan posting di atas. Ini adalah rata-rata (atau nilai yang diharapkan) dari nilai Z, masing-masing diambil ke kekuatan keempat. Besar | Z | nilai-nilai adalah outlier dan berkontribusi besar terhadap kurtosis. Kecil | Z | nilai-nilai, di mana "puncak" dari distribusi adalah, memberikan nilai Z ^ 4 yang kecil dan pada dasarnya tidak memberikan kontribusi apa pun untuk kurtosis. Saya membuktikan dalam artikel saya https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ bahwa kurtosis didekati dengan sangat baik oleh rata-rata nilai Z ^ 4 * I (| Z |> 1). Oleh karena itu kurtosis mengukur kecenderungan proses pembuatan data untuk menghasilkan outlier.
sumber
Apa yang tampaknya Anda tanyakan di sini adalah kesalahan standar untuk skewness dan kurtosis dari sampel yang diambil dari populasi normal. Perhatikan bahwa ada berbagai cara untuk memperkirakan hal-hal seperti kemiringan atau lemak-ekor (kurtosis), yang jelas akan memengaruhi apa kesalahan standarnya. Langkah-langkah paling umum yang dipikirkan orang lebih dikenal secara teknis sebagai momen standar ke-3 dan ke-4.
Untuk apa nilainya, kesalahan standar adalah:
Ikhtisar pengantar yang baik tentang skewness dan kurtosis dapat ditemukan di sini .
sumber
[Dalam penjelasan berikut, saya berasumsi Anda mengusulkan sesuatu seperti "periksa skewness sampel dan kurtosis, jika keduanya berada dalam beberapa rentang yang ditentukan sebelumnya menggunakan beberapa prosedur teori normal, jika tidak gunakan sesuatu yang lain".]
Ada sejumlah aspek untuk ini, yang mana kita hanya akan memiliki ruang untuk beberapa pertimbangan. Saya akan mulai dengan membuat daftar apa yang menurut saya masalah-masalah penting yang mungkin perlu dilihat sebelum melompat menggunakan kriteria seperti ini. Saya akan berusaha untuk kembali dan menulis sedikit tentang setiap item nanti:
Masalah yang harus dipertimbangkan
Seberapa parah berbagai jenis ketidaknormalan itu penting terhadap apa pun yang kita lakukan?
Seberapa sulit untuk mengambil penyimpangan tersebut menggunakan rentang pada kemiringan dan kurtosis sampel?
Satu hal yang saya setujui dalam proposal - ia melihat sepasang tindakan yang berkaitan dengan ukuran efek ( berapa banyak penyimpangan dari normalitas) daripada signifikansi. Dalam hal itu akan lebih dekat untuk mengatasi sesuatu yang berguna bahwa tes hipotesis formal akan, yang akan cenderung untuk menolak penyimpangan bahkan sepele pada ukuran sampel besar, sambil menawarkan penghiburan palsu dari penolakan terhadap penyimpangan yang jauh lebih besar (dan lebih berdampak) di ukuran sampel kecil. (Tes hipotesis menjawab pertanyaan yang salah di sini.)
Tentu saja pada ukuran sampel kecil itu masih bermasalah dalam arti bahwa langkah-langkahnya sangat "berisik", jadi kita masih bisa tersesat di sana (interval kepercayaan akan membantu kita melihat seberapa buruk itu sebenarnya).
Itu tidak memberi tahu kita bagaimana penyimpangan dalam skewness atau kurtosis berhubungan dengan masalah dengan apa pun yang kita inginkan normalitas - dan prosedur yang berbeda bisa sangat berbeda dalam tanggapannya terhadap non-normalitas.
Itu tidak membantu kita jika penyimpangan kita dari keadaan normal adalah jenis kemiringan dan kurtosis yang menjadi buta.
Jika Anda menggunakan statistik sampel ini sebagai dasar untuk memutuskan antara dua prosedur, apa dampaknya pada sifat-sifat inferensi yang dihasilkan (misalnya untuk tes hipotesis, seperti apa tingkat signifikansi dan kekuatan Anda seperti melakukan ini?)
Ada jumlah tak terbatas dari distribusi yang memiliki kemiringan dan kurtosis yang persis sama dengan distribusi normal tetapi jelas non-normal. Mereka bahkan tidak perlu simetris! Bagaimana keberadaan hal-hal tersebut berdampak pada penggunaan prosedur tersebut? Apakah perusahaan akan hancur sejak awal?
Berapa banyak variasi dalam kemiringan dan kurtosis sampel yang dapat Anda lihat dalam sampel yang diambil dari distribusi normal? (Berapa proporsi sampel normal yang pada akhirnya akan kita buang dengan aturan tertentu?)
[Sebagian masalah ini terkait dengan beberapa hal yang dibahas gung dalam jawabannya.]
Mungkinkah ada sesuatu yang lebih baik untuk dilakukan?
Akhirnya, jika setelah mempertimbangkan semua masalah ini, kami memutuskan bahwa kami harus melanjutkan dan menggunakan pendekatan ini, kami tiba pada pertimbangan yang berasal dari pertanyaan Anda:
apa batas yang baik untuk ditempatkan pada kemiringan dan pada kurtosis untuk berbagai prosedur? Variabel apa yang perlu kita khawatirkan dalam prosedur apa?
(misalnya jika kita sedang melakukan regresi, perhatikan bahwa tidak tepat untuk berurusan dengan IV apa pun dan bahkan DV mentah dengan cara ini - tidak ada yang diasumsikan diambil dari distribusi normal yang sama)
Saya akan kembali dan menambahkan beberapa pemikiran, tetapi komentar / pertanyaan yang Anda miliki sementara itu mungkin berguna.
sumber