Saya ingin tahu cara memeriksa set data untuk normalitas di Excel, hanya untuk memverifikasi bahwa persyaratan untuk menggunakan uji-t terpenuhi .
Untuk ekor kanan, apakah tepat untuk hanya menghitung mean dan standar deviasi, tambahkan 1, 2 & 3 standar deviasi dari rata-rata untuk membuat rentang kemudian membandingkannya dengan normal 68/95 / 99.7 untuk distribusi normal standar setelah menggunakan fungsi norm.dist di excel untuk menguji setiap nilai standar deviasi.
Atau adakah cara yang lebih baik untuk menguji normalitas?
normal-distribution
excel
Eudora
sumber
sumber
Jawaban:
Anda punya ide yang tepat. Ini dapat dilakukan secara sistematis, komprehensif, dan dengan perhitungan yang relatif sederhana. Grafik hasil disebut plot probabilitas normal (atau kadang-kadang plot PP). Dari sini Anda dapat melihat lebih banyak detail daripada yang ditampilkan dalam representasi grafis lainnya, terutama histogram , dan dengan sedikit latihan Anda bahkan dapat belajar menentukan cara untuk mengekspresikan kembali data Anda untuk membuatnya lebih dekat ke Normal dalam situasi di mana hal itu diperlukan.
Berikut ini sebuah contoh:
Data ada di kolom
A
(dan diberi namaData
). Sisanya adalah semua perhitungan, meskipun Anda dapat mengontrol nilai "peringkat engsel" yang digunakan agar sesuai dengan garis referensi ke plot.Plot ini adalah sebar membandingkan data dengan nilai-nilai yang akan diperoleh dengan angka yang diambil secara independen dari distribusi Normal standar. Ketika titik-titik berbaris di sepanjang diagonal, mereka dekat dengan Normal; keberangkatan horisontal (sepanjang sumbu data) menunjukkan keberangkatan dari normalitas. Dalam contoh ini poin-poinnya sangat dekat dengan garis referensi; keberangkatan terbesar terjadi pada nilai tertinggi, yaitu sekitar unit di sebelah kiri garis. Dengan demikian kita melihat sekilas bahwa data ini sangat dekat dengan terdistribusi secara normal tetapi mungkin memiliki ekor kanan yang sedikit "ringan". Ini sangat baik untuk menerapkan uji-t.1.5
Nilai perbandingan pada sumbu vertikal dihitung dalam dua langkah. Pertama, setiap nilai data diberi peringkat dari hingga , jumlah data (ditunjukkan di bidang dalam sel ). Ini dikonversi secara proporsional ke nilai dalam rentang hingga . Rumus yang baik untuk digunakan adalah (Lihat http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm untuk dari mana asalnya.) Kemudian ini dikonversi ke nilai Normal standar melalui fungsi. Nilai-nilai ini muncul di kolom. Plot di sebelah kanan adalah sebaran XY dari1 n 0 1 ( Rank - 1 / 6 ) / ( n + 2 / 3 ) .
Count
F2
NormSInv
Normal score
Normal Score
terhadap data. (Dalam beberapa referensi Anda akan melihat transpos plot ini, yang mungkin lebih alami, tetapi Excel lebih suka menempatkan kolom paling kiri pada sumbu horizontal dan kolom paling kanan pada sumbu vertikal, jadi saya membiarkannya melakukan apa yang diinginkannya. )(Seperti yang dapat Anda lihat, saya mensimulasikan data ini dengan penarikan acak independen dari distribusi Normal dengan rata-rata dan standar deviasi Oleh karena itu, tidak mengherankan jika plot probabilitas terlihat begitu baik.) Hanya ada dua rumus untuk diketikkan, yang Anda merambat ke bawah untuk mencocokkan data: mereka muncul dalam sel dan bergantung pada nilai yang dihitung dalam sel . Itu benar-benar semua yang ada untuk itu, terlepas dari merencanakan.5 2
B2:C2
Count
F2
Selebihnya dari lembar ini tidak perlu tetapi sangat membantu untuk menilai plot: ini memberikan perkiraan yang kuat dari garis referensi. Ini dilakukan dengan memilih dua titik yang sama-sama jauh dari kiri dan kanan plot dan menghubungkannya dengan garis. Dalam contoh titik-titik ini adalah yang terendah ketiga dan ketiga, sebagaimana ditentukan oleh dalam sel ,. Sebagai bonus, kemiringan dan intersepnya masing-masing merupakan estimasi kuat dari standar deviasi dan rata-rata data.3
Hinge Rank
F3
Untuk memplot garis referensi, dua titik ekstrim dihitung dan ditambahkan ke plot: kalkulasinya terjadi dalam kolom
I:J
, berlabelX
danY
.sumber
Anda bisa menggambar histogram menggunakan paket alat analisis data di Excel . Pendekatan grafis lebih cenderung mengkomunikasikan tingkat ketidaknormalan, yang biasanya lebih relevan untuk pengujian asumsi (lihat diskusi tentang normalitas ini ).
Paket alat analisis data di Excel juga akan memberi Anda skewness dan kurtosis jika Anda meminta statistik deskriptif dan memilih opsi "ringkasan statistik". Misalnya, Anda dapat mempertimbangkan nilai kemiringan di atas plus atau minus yang menjadi bentuk non-normalitas substantif.
Yang mengatakan, asumsi dengan uji-t adalah bahwa residu terdistribusi normal dan bukan variabel. Selain itu, mereka juga cukup kuat sehingga bahkan dengan jumlah non-normalitas yang cukup besar, nilai-p masih cukup valid.
sumber
Pertanyaan ini juga berbatasan dengan teori statistik - pengujian normalitas dengan data terbatas mungkin dipertanyakan (walaupun kita semua telah melakukan ini dari waktu ke waktu).
Sebagai alternatif, Anda dapat melihat koefisien kurtosis dan skewness. Dari Hahn dan Shapiro: Model Statistik dalam Rekayasa beberapa latar belakang disediakan pada properti Beta1 dan Beta2 (halaman 42 hingga 49) dan Gambar 6-1 dari Halaman 197. Teori tambahan di balik ini dapat ditemukan di Wikipedia (lihat Distribusi Pearson).
Pada dasarnya Anda perlu menghitung properti yang disebut Beta1 dan Beta2. Beta1 = 0 dan Beta2 = 3 menunjukkan bahwa kumpulan data mendekati normalitas. Ini adalah tes kasar tetapi dengan data yang terbatas dapat dikatakan bahwa tes apa pun dapat dianggap kasar.
Beta1 terkait dengan momen 2 dan 3, atau varians dan kemiringan , masing-masing. Di Excel, ini adalah VAR dan SKEW. Di mana ... adalah array data Anda, rumusnya adalah:
Beta2 terkait dengan momen 2 dan 4, atau varians dan kurtosis , masing-masing. Di Excel, ini adalah VAR dan KURT. Di mana ... adalah array data Anda, rumusnya adalah:
Kemudian Anda dapat memeriksanya dengan nilai masing-masing 0 dan 3. Ini memiliki keunggulan yang berpotensi mengidentifikasi distribusi lain (termasuk Distribusi Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Misalnya, banyak distribusi yang umum digunakan seperti Uniform, Normal, Student's t, Beta, Gamma, Exponential, dan Log-Normal dapat ditunjukkan dari properti ini:
Ini diilustrasikan dalam Hahn dan Shapiro Gambar 6-1.
Memang ini adalah tes yang sangat kasar (dengan beberapa masalah) tetapi Anda mungkin ingin menganggapnya sebagai pemeriksaan awal sebelum pergi ke metode yang lebih ketat.
Ada juga mekanisme penyesuaian untuk perhitungan Beta1 dan Beta2 di mana data terbatas - tetapi itu di luar pos ini.
sumber