Bagaimana cara memeriksa distribusi normal menggunakan Excel untuk melakukan uji-t?

21

Saya ingin tahu cara memeriksa set data untuk normalitas di Excel, hanya untuk memverifikasi bahwa persyaratan untuk menggunakan uji-t terpenuhi .

Untuk ekor kanan, apakah tepat untuk hanya menghitung mean dan standar deviasi, tambahkan 1, 2 & 3 standar deviasi dari rata-rata untuk membuat rentang kemudian membandingkannya dengan normal 68/95 / 99.7 untuk distribusi normal standar setelah menggunakan fungsi norm.dist di excel untuk menguji setiap nilai standar deviasi.

Atau adakah cara yang lebih baik untuk menguji normalitas?

Eudora
sumber

Jawaban:

15

Anda punya ide yang tepat. Ini dapat dilakukan secara sistematis, komprehensif, dan dengan perhitungan yang relatif sederhana. Grafik hasil disebut plot probabilitas normal (atau kadang-kadang plot PP). Dari sini Anda dapat melihat lebih banyak detail daripada yang ditampilkan dalam representasi grafis lainnya, terutama histogram , dan dengan sedikit latihan Anda bahkan dapat belajar menentukan cara untuk mengekspresikan kembali data Anda untuk membuatnya lebih dekat ke Normal dalam situasi di mana hal itu diperlukan.

Berikut ini sebuah contoh:

Spreadsheet dengan plot probabilitas

Data ada di kolom A(dan diberi nama Data). Sisanya adalah semua perhitungan, meskipun Anda dapat mengontrol nilai "peringkat engsel" yang digunakan agar sesuai dengan garis referensi ke plot.

Plot ini adalah sebar membandingkan data dengan nilai-nilai yang akan diperoleh dengan angka yang diambil secara independen dari distribusi Normal standar. Ketika titik-titik berbaris di sepanjang diagonal, mereka dekat dengan Normal; keberangkatan horisontal (sepanjang sumbu data) menunjukkan keberangkatan dari normalitas. Dalam contoh ini poin-poinnya sangat dekat dengan garis referensi; keberangkatan terbesar terjadi pada nilai tertinggi, yaitu sekitar unit di sebelah kiri garis. Dengan demikian kita melihat sekilas bahwa data ini sangat dekat dengan terdistribusi secara normal tetapi mungkin memiliki ekor kanan yang sedikit "ringan". Ini sangat baik untuk menerapkan uji-t.1.5

Nilai perbandingan pada sumbu vertikal dihitung dalam dua langkah. Pertama, setiap nilai data diberi peringkat dari hingga , jumlah data (ditunjukkan di bidang dalam sel ). Ini dikonversi secara proporsional ke nilai dalam rentang hingga . Rumus yang baik untuk digunakan adalah (Lihat http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm untuk dari mana asalnya.) Kemudian ini dikonversi ke nilai Normal standar melalui fungsi. Nilai-nilai ini muncul di kolom. Plot di sebelah kanan adalah sebaran XY dari1nCountF201(pangkat-1/6)/(n+2/3).NormSInvNormal scoreNormal Scoreterhadap data. (Dalam beberapa referensi Anda akan melihat transpos plot ini, yang mungkin lebih alami, tetapi Excel lebih suka menempatkan kolom paling kiri pada sumbu horizontal dan kolom paling kanan pada sumbu vertikal, jadi saya membiarkannya melakukan apa yang diinginkannya. )

Spreadsheet: perhitungan skor normal

(Seperti yang dapat Anda lihat, saya mensimulasikan data ini dengan penarikan acak independen dari distribusi Normal dengan rata-rata dan standar deviasi Oleh karena itu, tidak mengherankan jika plot probabilitas terlihat begitu baik.) Hanya ada dua rumus untuk diketikkan, yang Anda merambat ke bawah untuk mencocokkan data: mereka muncul dalam sel dan bergantung pada nilai yang dihitung dalam sel . Itu benar-benar semua yang ada untuk itu, terlepas dari merencanakan.52B2:C2CountF2

Selebihnya dari lembar ini tidak perlu tetapi sangat membantu untuk menilai plot: ini memberikan perkiraan yang kuat dari garis referensi. Ini dilakukan dengan memilih dua titik yang sama-sama jauh dari kiri dan kanan plot dan menghubungkannya dengan garis. Dalam contoh titik-titik ini adalah yang terendah ketiga dan ketiga, sebagaimana ditentukan oleh dalam sel ,. Sebagai bonus, kemiringan dan intersepnya masing-masing merupakan estimasi kuat dari standar deviasi dan rata-rata data.3Hinge RankF3

Untuk memplot garis referensi, dua titik ekstrim dihitung dan ditambahkan ke plot: kalkulasinya terjadi dalam kolom I:J, berlabel Xdan Y.

Spreadsheet: perhitungan garis referensi

whuber
sumber
Untuk rumus di Kolom B, akankah Anda menjelaskan alasan untuk menambahkan 1 dan membaginya dengan 6 dan 3 ("+ 1/6" dan "+ 1/3")? Juga apakah ada alasan Anda memilih untuk membaginya dengan 6 di Sel Peringkat Engsel?
@Michael Pertanyaan bagus. adalah salah satu cara sederhana dan terkenal untuk menetapkan titik-titik plotting probabilitas. Saya ingat John Tukey merekomendasikan ini dalam bukunya, EDA . Formula peringkat engsel adalah misterius: Saya seharusnya menjelaskan bahwa saya memilih dua poin yang sama jauh dari ujung pada persentil dan . Pengganda apa pun yang secara substansial lebih besar dari dan kurang dari akan bekerja. populer: sesuai dengan kuartil. Begitu juga , sesuai dengan 1 SD untuk distribusi Normal. 100 × 1 / 6 100 × 5 / 6 0 1 / 2 1 / 4 0.161/6100×1/6100×5/601/21/40,16
whuber
Formula (peringkat + 1/6) / (n + 1/3) tampaknya tidak simetris seperti yang mungkin kita antisipasi. misalnya dengan pengamatan tengah dari 3 pangkat adalah 2 dan ini akan menyarankan persentil yang sesuai dari 0,65 daripada apa yang tampaknya alami untuk diambil untuk pengamatan tengah (0,5). Apakah saya melewatkan sesuatu yang jelas? [Saya telah melihat Tukey menggunakan beberapa formula berbeda di tempat yang berbeda, termasuk (i-1/3) / (n + 1/3). Rumus pada tautan Anda cocok dengan skema (ia) / (n + 1-2a) yang umum tetapi rumus yang Anda berikan dalam jawaban Anda tidak]
Glen_b -Reinstate Monica
@ Glen_b Terima kasih telah menangkap itu. Saya telah salah mengutip formula. Sumber saya adalah (halaman saya sendiri!) Di quantdec.com/envstats/notes/class_02/… , di mana formula yang benar diberikan dan dibenarkan: umumnya seseorang menggunakan mana adalah rank (dari sampai ) dan biasanya adalah angka antara dan , sering . Itu menghasilkan sebagai formula yang diinginkan. ( 1/3 memberikan rumus Tukey yang Anda kutip.) Saya telah memperbaiki rumus dan ilustrasi Excel.
r-Sebuahn+1-2Sebuah
r1nSebuah011/6(r-1/6)/(n+2/3)Sebuah=1/3
whuber
5

Anda bisa menggambar histogram menggunakan paket alat analisis data di Excel . Pendekatan grafis lebih cenderung mengkomunikasikan tingkat ketidaknormalan, yang biasanya lebih relevan untuk pengujian asumsi (lihat diskusi tentang normalitas ini ).

Paket alat analisis data di Excel juga akan memberi Anda skewness dan kurtosis jika Anda meminta statistik deskriptif dan memilih opsi "ringkasan statistik". Misalnya, Anda dapat mempertimbangkan nilai kemiringan di atas plus atau minus yang menjadi bentuk non-normalitas substantif.

Yang mengatakan, asumsi dengan uji-t adalah bahwa residu terdistribusi normal dan bukan variabel. Selain itu, mereka juga cukup kuat sehingga bahkan dengan jumlah non-normalitas yang cukup besar, nilai-p masih cukup valid.

Jeromy Anglim
sumber
4

Pertanyaan ini juga berbatasan dengan teori statistik - pengujian normalitas dengan data terbatas mungkin dipertanyakan (walaupun kita semua telah melakukan ini dari waktu ke waktu).

Sebagai alternatif, Anda dapat melihat koefisien kurtosis dan skewness. Dari Hahn dan Shapiro: Model Statistik dalam Rekayasa beberapa latar belakang disediakan pada properti Beta1 dan Beta2 (halaman 42 hingga 49) dan Gambar 6-1 dari Halaman 197. Teori tambahan di balik ini dapat ditemukan di Wikipedia (lihat Distribusi Pearson).

Pada dasarnya Anda perlu menghitung properti yang disebut Beta1 dan Beta2. Beta1 = 0 dan Beta2 = 3 menunjukkan bahwa kumpulan data mendekati normalitas. Ini adalah tes kasar tetapi dengan data yang terbatas dapat dikatakan bahwa tes apa pun dapat dianggap kasar.

Beta1 terkait dengan momen 2 dan 3, atau varians dan kemiringan , masing-masing. Di Excel, ini adalah VAR dan SKEW. Di mana ... adalah array data Anda, rumusnya adalah:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 terkait dengan momen 2 dan 4, atau varians dan kurtosis , masing-masing. Di Excel, ini adalah VAR dan KURT. Di mana ... adalah array data Anda, rumusnya adalah:

Beta2 = KURT(...)/VAR(...)^2

Kemudian Anda dapat memeriksanya dengan nilai masing-masing 0 dan 3. Ini memiliki keunggulan yang berpotensi mengidentifikasi distribusi lain (termasuk Distribusi Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Misalnya, banyak distribusi yang umum digunakan seperti Uniform, Normal, Student's t, Beta, Gamma, Exponential, dan Log-Normal dapat ditunjukkan dari properti ini:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Ini diilustrasikan dalam Hahn dan Shapiro Gambar 6-1.

Memang ini adalah tes yang sangat kasar (dengan beberapa masalah) tetapi Anda mungkin ingin menganggapnya sebagai pemeriksaan awal sebelum pergi ke metode yang lebih ketat.

Ada juga mekanisme penyesuaian untuk perhitungan Beta1 dan Beta2 di mana data terbatas - tetapi itu di luar pos ini.

AsymLabs
sumber
Banyak materi ini dapat bekerja dengan baik untuk dataset besar dan saya setuju dengan penilaian awal Anda bahwa pengujian normal dapat dibatasi atau dipertanyakan dengan dataset kecil. Tetapi mengingat besar variabilitas skewness dan kurtosis, akan terlihat bahwa setiap usaha untuk mengidentifikasi jenis mendasari distribusi berdasarkan statistik ini akan lebih dipertanyakan dan kurang tertentu. Akibatnya, bukankah pendekatan ini akan (paling-paling) menyesatkan bahkan sebagai pemeriksaan pendahuluan?
whuber
1
Mungkin yang terbaik adalah mengkualifikasikan metode lebih lanjut: Hahn dan Shapiro (sebagaimana dirujuk di atas) menyarankan agar kehati-hatian dilakukan, terutama ketika ukuran sampel kurang dari 200 - dan merekomendasikan agar ini diikuti dengan verifikasi lebih lanjut, seperti tabel frekuensi yang membandingkan distribusi yang sesuai dengan data aktual. Tetapi dalam pandangan saya itu adalah metode yang berguna yang dapat menyarankan di mana data mungkin berada dalam spektrum kemungkinan. Saya telah menggunakannya pada kumpulan data yang tidak lebih kecil dari sekitar 3000 dan telah membangunnya menjadi perangkat lunak simulasi komputer yang terbukti bermanfaat.
AsymLabs
Saya dapat melihat metode Anda memberikan informasi yang bermanfaat dengan kumpulan data 3000 atau lebih. Namun, maka tidak perlu melakukan pengujian distribusi untuk menilai penerapan uji-t dari rata-rata.
whuber
Apakah seseorang memandang ini sebagai teknik yang berguna, seperti yang saya lakukan, atau sebaliknya, seperti yang Anda lihat, itu tetap merupakan alternatif yang cepat dan telah lama digunakan (oleh Pearson) untuk menguji normalitas (dan aplikasi Student-t) di konteks utas ini. Tolong jangan salah paham, saya mengakui dan setuju dengan keprihatinan Anda. Tapi kami berdua akan setuju, kan, bahwa tanpa informasi sebelumnya, mencoba menentukan apakah seluruh populasi dapat dimodelkan pada Gaussian dari sampel data yang sangat kecil adalah kesempatan terbaik dalam kegelapan dengan metode apa pun, dan yang terburuk adalah berbahaya.
AsymLabs
1
Betul sekali. Yang saya katakan adalah bahwa jika berbahaya untuk mencoba, dari sampel kecil, untuk menguji apakah populasinya Gaussian, maka paling tidak berbahaya menggunakan kemiringan dan kurtosis untuk mengidentifikasi seperti apa distribusi yang mendasarinya! Bahkan, sepertinya upaya seperti itu sebenarnya akan lebih buruk karena bergantung pada statistik yang tidak stabil seperti kurtosis. Meskipun sistem Pearson dapat menjadi panduan yang kuat untuk membantu orang mengidentifikasi kemungkinan distribusi, ia memberikan wawasan yang lebih sedikit daripada bahkan tampilan grafis terbatas seperti histogram.
whuber