Bagaimana saya bisa menentukan apakah data kategorikal terdistribusi normal?

9
  1. Benarkah pemeriksaan normal harus digunakan hanya untuk data kontinu (rasio, tingkat interval pengukuran) dan bukan untuk data kategorikal (nominal, ordinal)?

  2. Apakah ada cara untuk memeriksa normalitas data kategorikal?

NoraNorad
sumber

Jawaban:

17

Data kategorikal bukan dari distribusi normal.

Distribusi normal hanya masuk akal jika Anda berurusan dengan setidaknya data interval, dan distribusi normal kontinu dan di seluruh garis nyata. Jika salah satu dari itu tidak benar, Anda tidak perlu memeriksa distribusi data untuk menyimpulkan bahwa itu tidak konsisten dengan normalitas.

[Perhatikan bahwa jika ini bukan interval, Anda memiliki masalah yang lebih besar daripada yang terkait dengan asumsi bentuk distribusi, karena bahkan perhitungan rata-rata menyiratkan bahwa Anda memiliki skala interval. Untuk mengatakan bahwa "Tinggi" + "Sangat Rendah" = "Sedang" + "Rendah" dan "Sangat Tinggi" + "Sedang" = "Tinggi" + "Tinggi" (yaitu hal-hal yang perlu Anda pegang untuk mulai bahkan mulai menambahkan nilai di tempat pertama), Anda dipaksa untuk menganggap skala interval pada saat itu.]

Agak jarang untuk memiliki sampel yang tampak normal sekalipun dengan data rasio aktual, karena data rasio umumnya tidak negatif dan biasanya agak miring.

Ketika langkah-langkah Anda bersifat kategoris, bukan berarti Anda tidak dapat "memeriksanya" karena umumnya tidak masuk akal untuk melakukannya - Anda sudah tahu itu bukan sampel dari distribusi normal. Memang, ide bahkan mencoba tidak masuk akal dalam hal data nominal, karena kategori bahkan tidak memiliki pesanan! [Satu-satunya distribusi yang tidak sesuai dengan pengaturan ulang sewenang-wenang akan menjadi seragam diskrit.]

Jika data Anda disusun kategorikal, intervalnya berubah-ubah, dan sekali lagi, kami dibiarkan dengan gagasan bahwa kami tidak bisa berbuat banyak; bahkan gagasan yang lebih sederhana seperti simetri tidak benar-benar bertahan di bawah perubahan interval yang sewenang-wenang.

Untuk mulai merenungkan bahkan perkiraan normalitas berarti kita setidaknya harus menganggap kategori kita adalah interval / telah diperbaiki, yang dikenal "skor".

Tetapi bagaimanapun, pertanyaan "apakah itu normal?" sebenarnya bukan pertanyaan yang berguna - karena kapan data nyata benar-benar diambil sampel dari distribusi normal ?

[Mungkin ada situasi di mana bisa bermakna untuk mempertimbangkan apakah kategori yang dipesan memiliki variabel mendasar (laten) dengan (katakanlah) distribusi normal, tapi itu jenis pertimbangan yang sangat berbeda.]

Pertanyaan yang lebih berguna disarankan oleh George Box:

Ingat bahwa semua model salah; pertanyaan praktisnya adalah seberapa salah mereka harus tidak berguna.

(Saya percaya itu ada di Box and Draper, bersama dengan aforismenya yang lebih terkenal.)

Jika Anda memiliki data diskrit yang setidaknya interval, dan memiliki cukup banyak kategori, mungkin masuk akal untuk memeriksa bahwa itu tidak terlalu condong, katakan, tetapi Anda tidak akan benar-benar percaya itu diambil dari populasi normal - tidak mungkin.

Untuk beberapa prosedur inferensial, normalitas aktual mungkin tidak terlalu penting, terutama pada ukuran sampel yang lebih besar.

Glen_b -Reinstate Monica
sumber
Tetapi bagaimana saya bisa memeriksa normalitas untuk data kategorikal nominal yang diperlukan untuk uji-z untuk proporsi? Di sini dikatakan bahwa itu harus distribusi normal standar: newonlinecourses.science.psu.edu/stat414/node/268
vasili111
Jangan bingung antara kategori dengan jumlah nilai dalam kategori tersebut. Seperangkat respons kategoris seperti "merah, biru, pink, biru ..." tidak mungkin normal. Namun hitungan dalam kategori adalah cerita yang berbeda. Secara spesifik set jumlah dalam kategori dapat (diberikan beberapa asumsi sederhana) dimodelkan sebagai distribusi multinomial yang jika jumlah yang diharapkan tidak terlalu rendah dapat didekati dengan baik sebagai normal (degenerasi) multivariat. Dengan uji-z untuk proporsi - 2 hasil - penghitungan pada salah satu hasil (dengan asumsi) akan menjadi binomial (& kira-kira normal dengan n besar).
Glen_b -Reinstate Monica