Benarkah pemeriksaan normal harus digunakan hanya untuk data kontinu (rasio, tingkat interval pengukuran) dan bukan untuk data kategorikal (nominal, ordinal)?
Apakah ada cara untuk memeriksa normalitas data kategorikal?
sumber
Benarkah pemeriksaan normal harus digunakan hanya untuk data kontinu (rasio, tingkat interval pengukuran) dan bukan untuk data kategorikal (nominal, ordinal)?
Apakah ada cara untuk memeriksa normalitas data kategorikal?
Data kategorikal bukan dari distribusi normal.
Distribusi normal hanya masuk akal jika Anda berurusan dengan setidaknya data interval, dan distribusi normal kontinu dan di seluruh garis nyata. Jika salah satu dari itu tidak benar, Anda tidak perlu memeriksa distribusi data untuk menyimpulkan bahwa itu tidak konsisten dengan normalitas.
[Perhatikan bahwa jika ini bukan interval, Anda memiliki masalah yang lebih besar daripada yang terkait dengan asumsi bentuk distribusi, karena bahkan perhitungan rata-rata menyiratkan bahwa Anda memiliki skala interval. Untuk mengatakan bahwa "Tinggi" + "Sangat Rendah" = "Sedang" + "Rendah" dan "Sangat Tinggi" + "Sedang" = "Tinggi" + "Tinggi" (yaitu hal-hal yang perlu Anda pegang untuk mulai bahkan mulai menambahkan nilai di tempat pertama), Anda dipaksa untuk menganggap skala interval pada saat itu.]
Agak jarang untuk memiliki sampel yang tampak normal sekalipun dengan data rasio aktual, karena data rasio umumnya tidak negatif dan biasanya agak miring.
Ketika langkah-langkah Anda bersifat kategoris, bukan berarti Anda tidak dapat "memeriksanya" karena umumnya tidak masuk akal untuk melakukannya - Anda sudah tahu itu bukan sampel dari distribusi normal. Memang, ide bahkan mencoba tidak masuk akal dalam hal data nominal, karena kategori bahkan tidak memiliki pesanan! [Satu-satunya distribusi yang tidak sesuai dengan pengaturan ulang sewenang-wenang akan menjadi seragam diskrit.]
Jika data Anda disusun kategorikal, intervalnya berubah-ubah, dan sekali lagi, kami dibiarkan dengan gagasan bahwa kami tidak bisa berbuat banyak; bahkan gagasan yang lebih sederhana seperti simetri tidak benar-benar bertahan di bawah perubahan interval yang sewenang-wenang.
Untuk mulai merenungkan bahkan perkiraan normalitas berarti kita setidaknya harus menganggap kategori kita adalah interval / telah diperbaiki, yang dikenal "skor".
Tetapi bagaimanapun, pertanyaan "apakah itu normal?" sebenarnya bukan pertanyaan yang berguna - karena kapan data nyata benar-benar diambil sampel dari distribusi normal ?
[Mungkin ada situasi di mana bisa bermakna untuk mempertimbangkan apakah kategori yang dipesan memiliki variabel mendasar (laten) dengan (katakanlah) distribusi normal, tapi itu jenis pertimbangan yang sangat berbeda.]
Pertanyaan yang lebih berguna disarankan oleh George Box:
Ingat bahwa semua model salah; pertanyaan praktisnya adalah seberapa salah mereka harus tidak berguna.
(Saya percaya itu ada di Box and Draper, bersama dengan aforismenya yang lebih terkenal.)
Jika Anda memiliki data diskrit yang setidaknya interval, dan memiliki cukup banyak kategori, mungkin masuk akal untuk memeriksa bahwa itu tidak terlalu condong, katakan, tetapi Anda tidak akan benar-benar percaya itu diambil dari populasi normal - tidak mungkin.
Untuk beberapa prosedur inferensial, normalitas aktual mungkin tidak terlalu penting, terutama pada ukuran sampel yang lebih besar.