Saya telah berdebat dengan profesor statistik tingkat pascasarjana saya tentang "distribusi normal". Saya berpendapat bahwa untuk benar-benar mendapatkan distribusi normal kita harus memiliki mode mean = median =, semua data harus terkandung di bawah kurva lonceng, dan simetris sempurna di sekitar mean. Oleh karena itu, secara teknis, sebenarnya TIDAK ADA distribusi normal dalam studi nyata, dan kita harus menyebutnya sesuatu yang lain, mungkin "hampir normal".
Dia bilang aku terlalu pemilih, dan jika skew / kurtosis kurang dari 1,0 itu adalah distribusi normal dan melepas poin pada ujian. Dataset adalah jumlah total jatuh / tahun dalam pengambilan sampel acak dari 52 panti jompo yang merupakan sampel acak dari populasi yang lebih besar. Adakah wawasan?
Masalah:
PERTANYAAN: 3. Hitung ukuran skewness dan kurtosis untuk data ini. Sertakan histogram dengan kurva normal. Diskusikan temuan Anda. Apakah data terdistribusi normal?
Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a
Sebuah. Ada beberapa mode. Nilai terkecil ditampilkan
Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650
Jawabanku:
Data bersifat platykurtic dan hanya memiliki sedikit kemiringan positif, dan BUKAN distribusi normal karena rata-rata dan median dan mode tidak sama dan data tidak terdistribusi secara merata di sekitar rata-rata. Pada kenyataannya hampir tidak ada data yang pernah menjadi distribusi normal yang sempurna, meskipun kita dapat mendiskusikan "distribusi normal" seperti tinggi, berat, suhu, atau panjang jari manis dewasa dalam kelompok populasi besar.
Jawaban profesor:
Anda benar bahwa tidak ada distribusi normal. Tapi, kami tidak mencari kesempurnaan. Kita perlu melihat data di samping histogram dan ukuran kecenderungan sentral. Apa yang dikatakan statistik skewness dan kurtosis tentang distribusi? Karena keduanya berada di antara nilai kritis -1 dan +1, data ini dianggap terdistribusi normal.
sumber
Jawaban:
Masalah dengan diskusi Anda dengan profesor adalah salah satu terminologi, ada kesalahpahaman yang menghalangi cara menyampaikan ide yang berpotensi berguna. Di tempat yang berbeda, Anda berdua membuat kesalahan.
Jadi hal pertama yang harus diatasi: penting untuk cukup jelas tentang apa distribusi .
Distribusi normal adalah objek matematika tertentu, yang dapat Anda pertimbangkan sebagai model untuk populasi nilai yang tak terbatas. (Tidak ada populasi terbatas yang benar-benar dapat memiliki distribusi berkelanjutan.)
Secara longgar, apa yang dilakukan distribusi ini (setelah Anda menentukan parameter) adalah mendefinisikan (melalui ekspresi aljabar) proporsi nilai populasi yang terletak di dalam interval tertentu pada garis nyata. Sedikit kurang longgar, itu mendefinisikan probabilitas bahwa nilai tunggal dari populasi itu akan terletak pada interval tertentu.
Sampel yang diamati tidak benar-benar memiliki distribusi normal; sampel mungkin (berpotensi) diambil dari distribusi normal, jika ada. Jika Anda melihat cdf empiris sampel, itu diskrit. Jika Anda membuangnya (seperti dalam histogram) sampel memiliki "distribusi frekuensi", tetapi itu bukan distribusi normal. Distribusi dapat memberi tahu kita beberapa hal (dalam arti probabilistik) tentang sampel acak dari populasi, dan sampel juga dapat memberi tahu kita beberapa hal tentang populasi.
Interpretasi yang masuk akal dari frasa seperti "sampel yang terdistribusi normal" * adalah "sampel acak dari populasi yang berdistribusi normal".
* (Saya biasanya mencoba untuk tidak mengatakannya sendiri, untuk alasan yang diharapkan cukup jelas di sini; biasanya saya berhasil membatasi diri pada jenis ekspresi kedua.)
Setelah mendefinisikan istilah (jika masih sedikit longgar), mari kita lihat pertanyaan secara rinci. Saya akan membahas bagian spesifik dari pertanyaan.
Ini tentu saja merupakan kondisi pada distribusi probabilitas normal, meskipun bukan persyaratan pada sampel yang diambil dari distribusi normal; sampel mungkin asimetris, mungkin memiliki perbedaan rata-rata dari median dan sebagainya. [Namun, kita bisa mendapatkan gambaran seberapa jauh jarak yang kita harapkan dari mereka jika sampel benar-benar berasal dari populasi normal.]
Saya tidak yakin apa artinya "terkandung di bawah" dalam arti ini.
Tidak; Anda berbicara tentang data di sini, dan sampel dari populasi normal (pasti simetris) tidak dengan sendirinya simetris sempurna.
Saya setuju dengan kesimpulan Anda tetapi alasannya tidak benar; itu bukan konsekuensi dari fakta bahwa data tidak simetris sempurna (dll); itu fakta bahwa populasi itu sendiri tidak sepenuhnya normal .
Jika dia mengatakan ini dengan cara seperti itu, dia pasti salah.
Kemiringan sampel mungkin jauh lebih dekat dengan 0 daripada itu (mengambil "kurang dari" berarti dalam besaran absolut bukan nilai sebenarnya), dan kurtosis kelebihan sampel juga mungkin jauh lebih dekat dengan 0 dari itu (mereka mungkin bahkan, apakah secara kebetulan atau konstruksi, berpotensi hampir nol), namun distribusi dari mana sampel diambil dengan mudah dapat menjadi tidak normal.
Kita bisa melangkah lebih jauh - bahkan jika kita secara ajaib mengetahui kecondongan populasi dan kurtosis adalah normal, itu masih tidak dengan sendirinya memberi tahu kita bahwa populasinya normal, atau bahkan sesuatu yang mendekati normal.
Distribusi jumlah penduduk tidak pernah normal. Hitungannya diskrit dan non-negatif, distribusi normal kontinu dan di seluruh garis nyata.
Tapi kami benar-benar fokus pada masalah yang salah di sini. Model probabilitas hanya itu, model . Jangan sampai kita membingungkan model kita dengan yang asli .
Masalahnya bukan "apakah data itu sendiri normal?" (tidak mungkin), bahkan "apakah populasi dari mana data diambil normal?" (Ini hampir tidak akan terjadi).
Pertanyaan yang lebih berguna untuk didiskusikan adalah "seberapa buruk kesimpulan saya akan terpengaruh jika saya memperlakukan populasi dengan distribusi normal?"
Ini juga pertanyaan yang jauh lebih sulit untuk dijawab dengan baik, dan mungkin membutuhkan kerja lebih banyak daripada melirik beberapa diagnosa sederhana.
Statistik sampel yang Anda tunjukkan tidak terlalu konsisten dengan normalitas (Anda bisa melihat statistik seperti itu atau "lebih buruk" tidak terlalu jarang jika Anda memiliki sampel acak sebesar itu dari populasi normal), tetapi itu tidak dengan sendirinya berarti bahwa populasi aktual dari mana sampel diambil secara otomatis "cukup dekat" ke normal untuk beberapa tujuan tertentu. Penting untuk mempertimbangkan tujuan (pertanyaan apa yang Anda jawab), dan kekokohan metode yang digunakan untuk itu, dan bahkan kemudian kita mungkin masih tidak yakin bahwa itu "cukup baik"; kadang-kadang mungkin lebih baik untuk tidak mengasumsikan apa yang kita tidak punya alasan bagus untuk menganggap apriori (misalnya berdasarkan pengalaman dengan set data yang serupa).
Data - bahkan data yang diambil dari populasi normal - tidak pernah memiliki sifat populasi yang tepat; dari angka-angka itu saja Anda tidak memiliki dasar yang baik untuk menyimpulkan bahwa populasi di sini tidak normal.
Di sisi lain kita juga tidak memiliki dasar yang cukup kuat untuk mengatakan bahwa itu "cukup dekat" dengan normal - kita bahkan belum mempertimbangkan tujuan dari asumsi normalitas, jadi kita tidak tahu fitur distribusi apa yang sensitif.
Misalnya, jika saya memiliki dua sampel untuk pengukuran yang dibatasi, yang saya tahu tidak akan terlalu terpisah (tidak hanya mengambil beberapa nilai yang berbeda) dan cukup dekat dengan simetris, saya mungkin relatif senang menggunakan dua sampel uji-t pada ukuran sampel yang tidak terlalu kecil; itu cukup kuat untuk penyimpangan ringan dari asumsi (agak tingkat-kuat, tidak begitu kuat). Tapi saya akan jauh lebih berhati-hati dengan asumsi normalitas normal ketika menguji kesetaraan penyebaran, misalnya, karena tes terbaik berdasarkan asumsi itu cukup sensitif terhadap asumsi.
Jika itu benar-benar kriteria dimana seseorang memutuskan untuk menggunakan model distribusi normal, maka itu kadang-kadang akan membawa Anda ke dalam analisis yang sangat buruk.
Nilai-nilai statistik itu memberi kita beberapa petunjuk tentang populasi dari mana sampel diambil, tetapi itu sama sekali tidak sama dengan menyarankan bahwa nilai-nilai mereka dengan cara apa pun merupakan 'panduan aman' untuk memilih analisis.
Sekarang untuk mengatasi masalah mendasar dengan versi yang lebih baik dari pertanyaan seperti yang Anda miliki:
Seluruh proses melihat sampel untuk memilih model penuh dengan masalah - melakukan hal itu mengubah sifat-sifat dari setiap pilihan analisis selanjutnya berdasarkan pada apa yang Anda lihat! misalnya untuk uji hipotesis, tingkat signifikansi Anda, nilai-p dan kekuatan semua tidak seperti yang Anda pilih / hitung , karena perhitungan tersebut didasarkan pada analisis yang tidak didasarkan pada data.
Lihat, misalnya Gelman dan Loken (2014), " Krisis Statistik dalam Sains ," American Scientist , Volume 102, Number 6, p 460 (DOI: 10.1511 / 2014.111.460) yang membahas masalah dengan analisis yang bergantung pada data tersebut.
sumber
Anda melewatkan poin dan mungkin juga sedang "sulit," yang tidak dihargai di industri. Dia menunjukkan contoh mainan kepada Anda, untuk melatih Anda dalam penilaian normalitas suatu set data, yaitu apakah set data tersebut berasal dari distribusi normal . Melihat momen distribusi adalah salah satu cara untuk memeriksa normalitas, misalnya tes Jarque Bera didasarkan pada penilaian seperti itu.
Ya, distribusi normal sangat simetris. Namun, jika Anda mengambil sampel dari distribusi normal yang sebenarnya, sampel tersebut kemungkinan besar tidak akan simetris sempurna. Ini adalah titik Anda benar-benar hilang. Anda dapat dengan mudah menguji ini sendiri. Cukup hasilkan sampel dari distribusi Gaussian, dan periksa momennya. Mereka tidak akan pernah benar-benar "normal," meskipun distribusinya benar .
Berikut adalah contoh Python konyol. Saya menghasilkan 100 sampel dari 100 angka acak, kemudian mendapatkan nilai rata-rata dan median mereka. Saya mencetak sampel pertama untuk menunjukkan bahwa mean dan median berbeda, kemudian menunjukkan histogram perbedaan antara rata-rata dan median. Anda dapat melihat bahwa ini agak sempit, tetapi perbedaannya pada dasarnya tidak pernah nol. Perhatikan, bahwa angkanya benar - benar berasal dari distribusi normal .
kode:
output:
PS
Sekarang, apakah contoh dari pertanyaan Anda harus dianggap normal atau tidak tergantung pada konteksnya. Dalam konteks apa yang diajarkan di ruang kelas Anda, Anda salah, karena profesor Anda ingin melihat apakah Anda tahu tes praktis yang dia berikan kepada Anda, yaitu bahwa kurtosis miring dan berlebih harus dalam -1 hingga 1 jarak.
Saya pribadi tidak pernah menggunakan aturan khusus ini (saya tidak bisa menyebutnya ujian), dan bahkan tidak tahu itu ada. Tampaknya, beberapa orang di beberapa bidang memang menggunakannya. Jika Anda memasukkan deskripsi kumpulan data Anda ke dalam uji JB, itu akan menolak normalitas. Oleh karena itu, Anda tidak salah untuk menyarankan bahwa kumpulan data tidak normal, tentu saja, tetapi Anda salah dalam arti bahwa Anda gagal menerapkan aturan yang diharapkan dari Anda berdasarkan apa yang diajarkan di kelas.
Jika saya adalah Anda, saya akan dengan sopan mendekati profesor Anda dan menjelaskan diri saya, serta menunjukkan hasil uji JB. Saya akan mengakui bahwa berdasarkan tesnya jawaban saya salah, tentu saja. Jika Anda mencoba untuk berdebat dengannya seperti cara Anda berdebat di sini, peluang Anda sangat rendah untuk mendapatkan poin kembali dalam ujian, karena alasan Anda lemah tentang median dan sarana dan sampel, itu menunjukkan kurangnya pemahaman tentang sampel vs populasi. Jika Anda mengubah nada, maka Anda akan memiliki kasing.
sumber
Guru jelas keluar dari elemennya, dan mungkin tidak boleh mengajar statistik. Tampaknya lebih buruk bagi saya untuk mengajarkan sesuatu yang salah daripada tidak mengajarkannya sama sekali.
Semua masalah ini dapat diselesaikan dengan mudah jika perbedaan antara "data" dan "proses yang menghasilkan data" dibuat lebih jelas. Data menargetkan proses yang menghasilkan data. Distribusi normal adalah model untuk proses ini.
Tidak masuk akal untuk berbicara tentang apakah data terdistribusi secara normal. Untuk satu alasan, data selalu diskrit. Untuk alasan lain, distribusi normal menggambarkan tak terhingga jumlah potensial yang dapat diamati, bukan sekumpulan terbatas jumlah tertentu yang diamati.
Lebih lanjut, jawaban atas pertanyaan "adalah proses yang menghasilkan data, proses yang terdistribusi normal " juga selalu "tidak," terlepas dari data. Dua alasan sederhana: (i) pengukuran apa pun yang kami ambil harus diskrit, dibulatkan ke tingkat tertentu. (ii) simetri sempurna, seperti lingkaran sempurna, tidak ada di alam yang dapat diamati. Selalu ada ketidaksempurnaan.
Paling-paling, jawaban atas pertanyaan "apa yang dikatakan data ini tentang normalitas proses pembuatan data" dapat diberikan sebagai berikut: "data ini konsisten dengan apa yang kita harapkan untuk dilihat, apakah data benar-benar berasal dari proses terdistribusi normal. " Jawaban itu dengan benar tidak menyimpulkan bahwa distribusinya normal.
Masalah-masalah ini sangat mudah dipahami dengan menggunakan simulasi. Hanya mensimulasikan data dari distribusi normal dan membandingkannya dengan data yang ada. Jika data dihitung (0,1,2,3, ...), maka jelas model normal salah karena tidak menghasilkan angka seperti 0,1,2,3, ...; alih-alih, ia menghasilkan angka dengan desimal yang berlangsung selamanya (atau setidaknya sejauh yang dimungkinkan oleh komputer.) Simulasi semacam itu harus menjadi hal pertama yang Anda lakukan ketika mempelajari tentang pertanyaan normalitas. Maka Anda dapat lebih benar menafsirkan grafik dan statistik ringkasan.
sumber
Saya seorang insinyur, jadi di dunia saya, ahli statistik terapan adalah yang paling saya lihat, dan mendapatkan nilai paling konkret. Jika Anda akan bekerja di bidang terapan, maka Anda harus memiliki landasan yang kuat dalam praktik atas teori: apakah itu elegan, pesawat harus terbang dan tidak jatuh.
Ketika saya memikirkan pertanyaan ini, cara saya mendekatinya, seperti yang banyak dilakukan oleh atasan teknis saya di sini, adalah memikirkan "seperti apa dunia nyata dengan kehadiran suara".
Hal kedua yang saya lakukan adalah, seringkali, membuat simulasi yang memungkinkan saya untuk menjawab pertanyaan itu.
Berikut ini adalah eksplorasi yang sangat singkat:
Ini memberikan ini sebagai output:
Catatan: berhati-hatilah dengan sumbu x, karena ini berskala log, tidak berskala seragam.
Saya tahu bahwa mean dan median persis sama. Kode mengatakannya. Realisasi empiris sangat sensitif terhadap ukuran sampel, dan jika tidak ada sampel yang benar-benar tak terbatas, maka mereka tidak akan pernah bisa cocok dengan teori.
Anda dapat berpikir tentang apakah ketidakpastian dalam median menyelimuti estimasi rata-rata atau sebaliknya. Jika estimasi terbaik dari rata-rata adalah dalam CI 95% dari estimasi untuk median, maka data tidak dapat membedakannya. Data mengatakan mereka secara teori sama. Jika Anda mendapatkan lebih banyak data, maka lihat apa yang dikatakannya.
sumber
Dalam statistik medis, kami hanya mengomentari bentuk dan distribusi yang tampak. Fakta bahwa tidak ada sampel terbatas diskrit yang dapat menjadi normal adalah tidak relevan dan bertele-tele. Saya akan menandai Anda salah untuk itu.
Jika distribusi terlihat "kebanyakan" normal, kami merasa nyaman menyebutnya normal. Ketika saya menggambarkan distribusi untuk audiens non-statistik, saya sangat nyaman dengan memanggil sesuatu yang mendekati normal bahkan ketika saya tahu distribusi normal bukanlah model probabilitas yang mendasarinya, saya mendapatkan pengertian bahwa saya akan memihak guru Anda di sini ... tapi kami tidak memiliki histogram atau dataset untuk diverifikasi.
Sebagai tip, saya akan melakukan inspeksi berikut dengan sangat dekat:
sumber
Saya pikir Anda dan profesor Anda berbicara dalam konteks yang berbeda. Kesetaraan mean = median = mode adalah karakteristik distribusi teoritis dan ini bukan satu-satunya karakteristik. Anda tidak dapat mengatakan bahwa jika untuk distribusi apa pun di atas penangguhan properti maka distribusi normal. Distribusi T juga simetris tetapi tidak normal. Jadi, Anda berbicara tentang properti teoritis dari distribusi normal yang berlaku selalu untuk distribusi normal.
Profesor Anda berbicara tentang distribusi data sampel. Dia benar, Anda tidak akan pernah mendapatkan data dalam kehidupan nyata, di mana Anda akan menemukan mean = median = mode. Ini hanya karena kesalahan pengambilan sampel . Demikian pula, sangat tidak mungkin, Anda akan mendapatkan nol koefisien skewness untuk data sampel dan nol kelebihan kurtosis. Profesor Anda hanya memberi Anda aturan sederhana untuk mendapatkan ide tentang distribusi dari statistik sampel. Yang tidak benar secara umum (tanpa mendapatkan informasi lebih lanjut).
sumber
Untuk tujuan praktis, proses mendasar seperti ini biasanya didekati dengan baik oleh distribusi normal tanpa ada yang mengangkat alis.
Namun, jika Anda ingin bertele-tele, proses yang mendasari dalam kasus ini tidak dapat didistribusikan secara normal, karena tidak dapat menghasilkan nilai negatif (jumlah jatuh tidak bisa negatif). Saya tidak akan terkejut jika itu sebenarnya setidaknya distribusi bi-modal dengan puncak kedua mendekati nol.
sumber