Apakah "Distribusi Normal" perlu memiliki mode mean = median =?

17

Saya telah berdebat dengan profesor statistik tingkat pascasarjana saya tentang "distribusi normal". Saya berpendapat bahwa untuk benar-benar mendapatkan distribusi normal kita harus memiliki mode mean = median =, semua data harus terkandung di bawah kurva lonceng, dan simetris sempurna di sekitar mean. Oleh karena itu, secara teknis, sebenarnya TIDAK ADA distribusi normal dalam studi nyata, dan kita harus menyebutnya sesuatu yang lain, mungkin "hampir normal".

Dia bilang aku terlalu pemilih, dan jika skew / kurtosis kurang dari 1,0 itu adalah distribusi normal dan melepas poin pada ujian. Dataset adalah jumlah total jatuh / tahun dalam pengambilan sampel acak dari 52 panti jompo yang merupakan sampel acak dari populasi yang lebih besar. Adakah wawasan?

Masalah:

PERTANYAAN: 3. Hitung ukuran skewness dan kurtosis untuk data ini. Sertakan histogram dengan kurva normal. Diskusikan temuan Anda. Apakah data terdistribusi normal?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

Sebuah. Ada beberapa mode. Nilai terkecil ditampilkan

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Jawabanku:

Data bersifat platykurtic dan hanya memiliki sedikit kemiringan positif, dan BUKAN distribusi normal karena rata-rata dan median dan mode tidak sama dan data tidak terdistribusi secara merata di sekitar rata-rata. Pada kenyataannya hampir tidak ada data yang pernah menjadi distribusi normal yang sempurna, meskipun kita dapat mendiskusikan "distribusi normal" seperti tinggi, berat, suhu, atau panjang jari manis dewasa dalam kelompok populasi besar.

Jawaban profesor:

Anda benar bahwa tidak ada distribusi normal. Tapi, kami tidak mencari kesempurnaan. Kita perlu melihat data di samping histogram dan ukuran kecenderungan sentral. Apa yang dikatakan statistik skewness dan kurtosis tentang distribusi? Karena keduanya berada di antara nilai kritis -1 dan +1, data ini dianggap terdistribusi normal.

Possum-Pie
sumber
3
Saya ingin tahu kata-kata profesor Anda. Pada prinsipnya distribusi normal memiliki mean, median dan mode identik (tetapi demikian juga banyak distribusi lainnya) dan memiliki kemiringan 0 dan (disebut kelebihan) kurtosis 0 (dan begitu juga beberapa distribusi lainnya). Paling-paling distribusi dengan (misalnya) sedikit kemiringan atau kurtosis kira - kira normal. Perhatikan bahwa hampir semua data nyata paling mendekati perkiraan distribusi dalam teori menagerie.
Nick Cox
22
Saya tidak setuju dengan @ user2974951 Di perusahaan dengan setiap teks yang bagus saya tahu saya sangat senang berpikir bahwa distribusi normal memiliki median dan mode. Dan itu berlaku luas untuk distribusi kontinu, walaupun saya tidak ragu bahwa contoh tandingan patologis dapat diidentifikasi.
Nick Cox
4
Terima kasih untuk detail spesifik, yang menunjukkan prestasi di kedua sisi, tetapi saya tidak menilai Anda berdua. Namun, saya sangat berbeda dari istilah nilai kritis seperti yang digunakan oleh Profesor Anda, karena batas untuk skewness dan kurtosis tidak memiliki posisi apa pun selain aturan praktis yang mungkin digunakan. Tergantung pada apa yang Anda lakukan dengan data, kemiringan < 1 mungkin sejalan dengan keinginan untuk mengubah data dan kemiringan > 1 mungkin sejalan dengan meninggalkan data apa adanya, dan demikian pula untuk kurtosis. ±1<1>1
Nick Cox
6
Jika kita dengan serius membiarkan diri kita memeluk seni nitpicking, kita harus mengamati bahwa tidak ada air terjun yang negatif, dan air terjun itu terpisah, sehingga distribusi de facto tidak mungkin normal. Ini menjadikan pertanyaan batal sejak awal. Pada catatan yang lebih serius, pertanyaannya jelas merupakan contoh palsu yang bertujuan memeriksa aturan praktis tertentu. Pada kenyataannya, tergantung pada tujuan penelitian kami, mungkin masuk akal atau tidak untuk menganggap distribusi normal. Sebenarnya kita tidak akan pernah tahu, karena kita hanya memiliki sampel.
Ioannis
5
@ user2974951 Anda harus mempertimbangkan untuk menghapus komentar pertama Anda, karena Anda tidak setuju dengan itu sekarang. Sejauh ini telah menipu tiga pembaca untuk memberi isyarat bahwa mereka setuju dengan itu!
whuber

Jawaban:

25

Masalah dengan diskusi Anda dengan profesor adalah salah satu terminologi, ada kesalahpahaman yang menghalangi cara menyampaikan ide yang berpotensi berguna. Di tempat yang berbeda, Anda berdua membuat kesalahan.

Jadi hal pertama yang harus diatasi: penting untuk cukup jelas tentang apa distribusi .

Distribusi normal adalah objek matematika tertentu, yang dapat Anda pertimbangkan sebagai model untuk populasi nilai yang tak terbatas. (Tidak ada populasi terbatas yang benar-benar dapat memiliki distribusi berkelanjutan.)

Secara longgar, apa yang dilakukan distribusi ini (setelah Anda menentukan parameter) adalah mendefinisikan (melalui ekspresi aljabar) proporsi nilai populasi yang terletak di dalam interval tertentu pada garis nyata. Sedikit kurang longgar, itu mendefinisikan probabilitas bahwa nilai tunggal dari populasi itu akan terletak pada interval tertentu.

Sampel yang diamati tidak benar-benar memiliki distribusi normal; sampel mungkin (berpotensi) diambil dari distribusi normal, jika ada. Jika Anda melihat cdf empiris sampel, itu diskrit. Jika Anda membuangnya (seperti dalam histogram) sampel memiliki "distribusi frekuensi", tetapi itu bukan distribusi normal. Distribusi dapat memberi tahu kita beberapa hal (dalam arti probabilistik) tentang sampel acak dari populasi, dan sampel juga dapat memberi tahu kita beberapa hal tentang populasi.

Interpretasi yang masuk akal dari frasa seperti "sampel yang terdistribusi normal" * adalah "sampel acak dari populasi yang berdistribusi normal".

* (Saya biasanya mencoba untuk tidak mengatakannya sendiri, untuk alasan yang diharapkan cukup jelas di sini; biasanya saya berhasil membatasi diri pada jenis ekspresi kedua.)

Setelah mendefinisikan istilah (jika masih sedikit longgar), mari kita lihat pertanyaan secara rinci. Saya akan membahas bagian spesifik dari pertanyaan.

distribusi normal seseorang harus memiliki mean = median = mode

Ini tentu saja merupakan kondisi pada distribusi probabilitas normal, meskipun bukan persyaratan pada sampel yang diambil dari distribusi normal; sampel mungkin asimetris, mungkin memiliki perbedaan rata-rata dari median dan sebagainya. [Namun, kita bisa mendapatkan gambaran seberapa jauh jarak yang kita harapkan dari mereka jika sampel benar-benar berasal dari populasi normal.]

semua data harus terkandung di bawah kurva lonceng

Saya tidak yakin apa artinya "terkandung di bawah" dalam arti ini.

dan simetris sempurna di sekitar mean.

Tidak; Anda berbicara tentang data di sini, dan sampel dari populasi normal (pasti simetris) tidak dengan sendirinya simetris sempurna.

Oleh karena itu, secara teknis, hampir tidak ada distribusi normal dalam studi nyata,

Saya setuju dengan kesimpulan Anda tetapi alasannya tidak benar; itu bukan konsekuensi dari fakta bahwa data tidak simetris sempurna (dll); itu fakta bahwa populasi itu sendiri tidak sepenuhnya normal .

jika condong / kurtosis kurang dari 1.0 itu adalah distribusi normal

Jika dia mengatakan ini dengan cara seperti itu, dia pasti salah.

Kemiringan sampel mungkin jauh lebih dekat dengan 0 daripada itu (mengambil "kurang dari" berarti dalam besaran absolut bukan nilai sebenarnya), dan kurtosis kelebihan sampel juga mungkin jauh lebih dekat dengan 0 dari itu (mereka mungkin bahkan, apakah secara kebetulan atau konstruksi, berpotensi hampir nol), namun distribusi dari mana sampel diambil dengan mudah dapat menjadi tidak normal.

Kita bisa melangkah lebih jauh - bahkan jika kita secara ajaib mengetahui kecondongan populasi dan kurtosis adalah normal, itu masih tidak dengan sendirinya memberi tahu kita bahwa populasinya normal, atau bahkan sesuatu yang mendekati normal.

Dataset adalah jumlah total jatuh / tahun dalam pengambilan sampel acak dari 52 panti jompo yang merupakan sampel acak dari populasi yang lebih besar.

Distribusi jumlah penduduk tidak pernah normal. Hitungannya diskrit dan non-negatif, distribusi normal kontinu dan di seluruh garis nyata.

Tapi kami benar-benar fokus pada masalah yang salah di sini. Model probabilitas hanya itu, model . Jangan sampai kita membingungkan model kita dengan yang asli .

Masalahnya bukan "apakah data itu sendiri normal?" (tidak mungkin), bahkan "apakah populasi dari mana data diambil normal?" (Ini hampir tidak akan terjadi).

Pertanyaan yang lebih berguna untuk didiskusikan adalah "seberapa buruk kesimpulan saya akan terpengaruh jika saya memperlakukan populasi dengan distribusi normal?"

Ini juga pertanyaan yang jauh lebih sulit untuk dijawab dengan baik, dan mungkin membutuhkan kerja lebih banyak daripada melirik beberapa diagnosa sederhana.

Statistik sampel yang Anda tunjukkan tidak terlalu konsisten dengan normalitas (Anda bisa melihat statistik seperti itu atau "lebih buruk" tidak terlalu jarang jika Anda memiliki sampel acak sebesar itu dari populasi normal), tetapi itu tidak dengan sendirinya berarti bahwa populasi aktual dari mana sampel diambil secara otomatis "cukup dekat" ke normal untuk beberapa tujuan tertentu. Penting untuk mempertimbangkan tujuan (pertanyaan apa yang Anda jawab), dan kekokohan metode yang digunakan untuk itu, dan bahkan kemudian kita mungkin masih tidak yakin bahwa itu "cukup baik"; kadang-kadang mungkin lebih baik untuk tidak mengasumsikan apa yang kita tidak punya alasan bagus untuk menganggap apriori (misalnya berdasarkan pengalaman dengan set data yang serupa).

ini BUKAN distribusi normal

Data - bahkan data yang diambil dari populasi normal - tidak pernah memiliki sifat populasi yang tepat; dari angka-angka itu saja Anda tidak memiliki dasar yang baik untuk menyimpulkan bahwa populasi di sini tidak normal.

Di sisi lain kita juga tidak memiliki dasar yang cukup kuat untuk mengatakan bahwa itu "cukup dekat" dengan normal - kita bahkan belum mempertimbangkan tujuan dari asumsi normalitas, jadi kita tidak tahu fitur distribusi apa yang sensitif.

Misalnya, jika saya memiliki dua sampel untuk pengukuran yang dibatasi, yang saya tahu tidak akan terlalu terpisah (tidak hanya mengambil beberapa nilai yang berbeda) dan cukup dekat dengan simetris, saya mungkin relatif senang menggunakan dua sampel uji-t pada ukuran sampel yang tidak terlalu kecil; itu cukup kuat untuk penyimpangan ringan dari asumsi (agak tingkat-kuat, tidak begitu kuat). Tapi saya akan jauh lebih berhati-hati dengan asumsi normalitas normal ketika menguji kesetaraan penyebaran, misalnya, karena tes terbaik berdasarkan asumsi itu cukup sensitif terhadap asumsi.

Karena keduanya berada di antara nilai kritis -1 dan +1, data ini dianggap terdistribusi normal. "

Jika itu benar-benar kriteria dimana seseorang memutuskan untuk menggunakan model distribusi normal, maka itu kadang-kadang akan membawa Anda ke dalam analisis yang sangat buruk.

Nilai-nilai statistik itu memberi kita beberapa petunjuk tentang populasi dari mana sampel diambil, tetapi itu sama sekali tidak sama dengan menyarankan bahwa nilai-nilai mereka dengan cara apa pun merupakan 'panduan aman' untuk memilih analisis.


Sekarang untuk mengatasi masalah mendasar dengan versi yang lebih baik dari pertanyaan seperti yang Anda miliki:

Seluruh proses melihat sampel untuk memilih model penuh dengan masalah - melakukan hal itu mengubah sifat-sifat dari setiap pilihan analisis selanjutnya berdasarkan pada apa yang Anda lihat! misalnya untuk uji hipotesis, tingkat signifikansi Anda, nilai-p dan kekuatan semua tidak seperti yang Anda pilih / hitung , karena perhitungan tersebut didasarkan pada analisis yang tidak didasarkan pada data.

Lihat, misalnya Gelman dan Loken (2014), " Krisis Statistik dalam Sains ," American Scientist , Volume 102, Number 6, p 460 (DOI: 10.1511 / 2014.111.460) yang membahas masalah dengan analisis yang bergantung pada data tersebut.

Glen_b -Reinstate Monica
sumber
Hai Peter, maaf saya tidak melihat posting Anda di sana.
Glen_b -Reinstate Monica
Percakapan ini telah dipindahkan ke obrolan .
Glen_b -Reinstate Monica
41

Anda melewatkan poin dan mungkin juga sedang "sulit," yang tidak dihargai di industri. Dia menunjukkan contoh mainan kepada Anda, untuk melatih Anda dalam penilaian normalitas suatu set data, yaitu apakah set data tersebut berasal dari distribusi normal . Melihat momen distribusi adalah salah satu cara untuk memeriksa normalitas, misalnya tes Jarque Bera didasarkan pada penilaian seperti itu.

Ya, distribusi normal sangat simetris. Namun, jika Anda mengambil sampel dari distribusi normal yang sebenarnya, sampel tersebut kemungkinan besar tidak akan simetris sempurna. Ini adalah titik Anda benar-benar hilang. Anda dapat dengan mudah menguji ini sendiri. Cukup hasilkan sampel dari distribusi Gaussian, dan periksa momennya. Mereka tidak akan pernah benar-benar "normal," meskipun distribusinya benar .

Berikut adalah contoh Python konyol. Saya menghasilkan 100 sampel dari 100 angka acak, kemudian mendapatkan nilai rata-rata dan median mereka. Saya mencetak sampel pertama untuk menunjukkan bahwa mean dan median berbeda, kemudian menunjukkan histogram perbedaan antara rata-rata dan median. Anda dapat melihat bahwa ini agak sempit, tetapi perbedaannya pada dasarnya tidak pernah nol. Perhatikan, bahwa angkanya benar - benar berasal dari distribusi normal .

kode:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

output: masukkan deskripsi gambar di sini

PS

Sekarang, apakah contoh dari pertanyaan Anda harus dianggap normal atau tidak tergantung pada konteksnya. Dalam konteks apa yang diajarkan di ruang kelas Anda, Anda salah, karena profesor Anda ingin melihat apakah Anda tahu tes praktis yang dia berikan kepada Anda, yaitu bahwa kurtosis miring dan berlebih harus dalam -1 hingga 1 jarak.

Saya pribadi tidak pernah menggunakan aturan khusus ini (saya tidak bisa menyebutnya ujian), dan bahkan tidak tahu itu ada. Tampaknya, beberapa orang di beberapa bidang memang menggunakannya. Jika Anda memasukkan deskripsi kumpulan data Anda ke dalam uji JB, itu akan menolak normalitas. Oleh karena itu, Anda tidak salah untuk menyarankan bahwa kumpulan data tidak normal, tentu saja, tetapi Anda salah dalam arti bahwa Anda gagal menerapkan aturan yang diharapkan dari Anda berdasarkan apa yang diajarkan di kelas.

Jika saya adalah Anda, saya akan dengan sopan mendekati profesor Anda dan menjelaskan diri saya, serta menunjukkan hasil uji JB. Saya akan mengakui bahwa berdasarkan tesnya jawaban saya salah, tentu saja. Jika Anda mencoba untuk berdebat dengannya seperti cara Anda berdebat di sini, peluang Anda sangat rendah untuk mendapatkan poin kembali dalam ujian, karena alasan Anda lemah tentang median dan sarana dan sampel, itu menunjukkan kurangnya pemahaman tentang sampel vs populasi. Jika Anda mengubah nada, maka Anda akan memiliki kasing.

Aksakal
sumber
23
(+1) Persis. Membingungkan variabel acak dan sampel realisasi dari variabel acak itu.
Xi'an
15
t
Apakah adil untuk mengatakan bahwa jika sampel Anda terdistribusi normal, itu adalah bukti string bahwa sampel tidak acak?
JimmyJames
@JimmyJames, 4 tahun lalu ada sebuah makalah di Science yang mengklaim percakapan 20 menit dengan seorang gay canvasser dapat mengubah perasaan Anda terhadap orang-orang gay. Ternyata penulis membuat data survei mereka. Mereka terlalu malas dan menghasilkan suara Gaussian yang sempurna, dan itulah cara mereka ditangkap - lihat Irregularities in LaCour (2014) oleh Broockman et al
Aksakal
@ Akakal Saya tidak yakin itu persis sama dengan apa yang saya tanyakan. Dalam hal ini saya pikir argumen dalam kasus itu adalah bahwa data nyata tidak pernah sepenuhnya normal. Saya mulai dari pernyataan Anda "Namun, jika Anda mengambil sampel dari distribusi normal yang sebenarnya, sampel itu kemungkinan besar tidak akan simetris sempurna." Jika saya mengambil sampel secara acak dari distribusi normal yang sempurna, saya tidak akan berharap bahwa setiap titik data berturut-turut akan jatuh tepat di tempat yang diperlukan untuk mengisi kurva normal yang sempurna. Bagi saya itu seperti proses seleksi non-acak.
JimmyJames
6

Guru jelas keluar dari elemennya, dan mungkin tidak boleh mengajar statistik. Tampaknya lebih buruk bagi saya untuk mengajarkan sesuatu yang salah daripada tidak mengajarkannya sama sekali.

Semua masalah ini dapat diselesaikan dengan mudah jika perbedaan antara "data" dan "proses yang menghasilkan data" dibuat lebih jelas. Data menargetkan proses yang menghasilkan data. Distribusi normal adalah model untuk proses ini.

Tidak masuk akal untuk berbicara tentang apakah data terdistribusi secara normal. Untuk satu alasan, data selalu diskrit. Untuk alasan lain, distribusi normal menggambarkan tak terhingga jumlah potensial yang dapat diamati, bukan sekumpulan terbatas jumlah tertentu yang diamati.

Lebih lanjut, jawaban atas pertanyaan "adalah proses yang menghasilkan data, proses yang terdistribusi normal " juga selalu "tidak," terlepas dari data. Dua alasan sederhana: (i) pengukuran apa pun yang kami ambil harus diskrit, dibulatkan ke tingkat tertentu. (ii) simetri sempurna, seperti lingkaran sempurna, tidak ada di alam yang dapat diamati. Selalu ada ketidaksempurnaan.

Paling-paling, jawaban atas pertanyaan "apa yang dikatakan data ini tentang normalitas proses pembuatan data" dapat diberikan sebagai berikut: "data ini konsisten dengan apa yang kita harapkan untuk dilihat, apakah data benar-benar berasal dari proses terdistribusi normal. " Jawaban itu dengan benar tidak menyimpulkan bahwa distribusinya normal.

Masalah-masalah ini sangat mudah dipahami dengan menggunakan simulasi. Hanya mensimulasikan data dari distribusi normal dan membandingkannya dengan data yang ada. Jika data dihitung (0,1,2,3, ...), maka jelas model normal salah karena tidak menghasilkan angka seperti 0,1,2,3, ...; alih-alih, ia menghasilkan angka dengan desimal yang berlangsung selamanya (atau setidaknya sejauh yang dimungkinkan oleh komputer.) Simulasi semacam itu harus menjadi hal pertama yang Anda lakukan ketika mempelajari tentang pertanyaan normalitas. Maka Anda dapat lebih benar menafsirkan grafik dan statistik ringkasan.

Peter Westfall
sumber
10
Saya tidak menurunkan peringkat jawaban Anda, tetapi pertimbangkan bahwa Anda menilai seorang profesor lulusan dari kata-kata seorang siswa. Seberapa besar kemungkinan seorang siswa benar dan seorang guru salah? Bukankah itu lebih mungkin bahwa siswa salah mengartikan profesornya dan konteks percakapan?
Aksakal
Berdasarkan pengalaman saya, dan pada kata-kata siswa, saya akan mengatakan bahwa kemungkinan besar gurunya salah. Ada guru dengan sedikit pelatihan formal yang mengajarkan kursus, bahkan kursus pascasarjana, di universitas di mana pun. Jika lembaga akreditasi hanya tahu yang sebenarnya!
Peter Westfall
6
@ Possum-Pie, saya bisa menebak apa yang diharapkan dari Anda. Ini mungkin 101-ish saja dalam statistik, jadi Anda harus melihat skewness dan kurtosis. Jika mereka tidak cukup dekat dengan 0 dan 3, maka Anda mengatakan itu tidak normal. Itu saja. Sebenarnya itulah yang dilakukan uji JB dengan cara yang lebih formal. Inti dari latihan ini adalah agar Anda ingat bahwa Gaussian memiliki kecenderungan 0 dan kurtosis 3. Anda mengubah latihan yang konyol tapi perlu ini menjadi diskusi filosofis.
Aksakal
2
Komentar guru "Karena keduanya berada di antara nilai kritis -1 dan +1, data ini dianggap terdistribusi secara normal" jelas menunjukkan (i) kurangnya pemahaman atau (ii) kesediaan untuk mengajar apa yang dia tahu menjadi salah. Saya tidak berpikir bahwa ini adalah diskusi filosofis untuk mempertanyakan kesiapan guru atau metode pedagogis.
Peter Westfall
3
Bahasa "Konsistensi" baik. Tetapi seperti yang dicatat oleh Possum-Pie, guru memberi tahu siswa, "berdasarkan tes / diagnostik ini, datanya normal," yang salah pada beberapa hal. Guru (psikis dan lainnya) perlu (i) membedakan proses pembuatan data dari data, (ii) memberi tahu siswa bahwa model normal dan model lainnya adalah model untuk proses pembuatan data, (iii) memberi tahu mereka bahwa distribusi normal selalu salah sebagai model, terlepas dari diagnosa, dan (iv) memberi tahu mereka bahwa tujuan latihan adalah mendiagnosis tingkat non-normalitas, tidak menjawab ya / tidak. Kemudian jelaskan mengapa itu penting.
Peter Westfall
4

Saya seorang insinyur, jadi di dunia saya, ahli statistik terapan adalah yang paling saya lihat, dan mendapatkan nilai paling konkret. Jika Anda akan bekerja di bidang terapan, maka Anda harus memiliki landasan yang kuat dalam praktik atas teori: apakah itu elegan, pesawat harus terbang dan tidak jatuh.

Ketika saya memikirkan pertanyaan ini, cara saya mendekatinya, seperti yang banyak dilakukan oleh atasan teknis saya di sini, adalah memikirkan "seperti apa dunia nyata dengan kehadiran suara".

Hal kedua yang saya lakukan adalah, seringkali, membuat simulasi yang memungkinkan saya untuk menjawab pertanyaan itu.

Berikut ini adalah eksplorasi yang sangat singkat:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Ini memberikan ini sebagai output: masukkan deskripsi gambar di sini

Catatan: berhati-hatilah dengan sumbu x, karena ini berskala log, tidak berskala seragam.

Saya tahu bahwa mean dan median persis sama. Kode mengatakannya. Realisasi empiris sangat sensitif terhadap ukuran sampel, dan jika tidak ada sampel yang benar-benar tak terbatas, maka mereka tidak akan pernah bisa cocok dengan teori.

Anda dapat berpikir tentang apakah ketidakpastian dalam median menyelimuti estimasi rata-rata atau sebaliknya. Jika estimasi terbaik dari rata-rata adalah dalam CI 95% dari estimasi untuk median, maka data tidak dapat membedakannya. Data mengatakan mereka secara teori sama. Jika Anda mendapatkan lebih banyak data, maka lihat apa yang dikatakannya.

EngrStudent - Pasang kembali Monica
sumber
1
Grafik yang menarik. Saya akan mengira Mean akan secara umum lebih besar dari median pada awalnya mengingat rata-rata mengejar outlier ... dengan kata lain bar merah akan berarti dan hijau menjadi median. Apa yang saya lewatkan?
Possum-Pie
1
@ Possum-Pie Ingatlah bahwa outlier dapat berada di arah mana pun ... distribusi normal memiliki ekor kiri dan ekor kanan!
Silverfish
2
@Apakah itu implementasi standar boxplot yang cukup standar.
Glen_b -Reinstate Monica
1
@ Glen_b Saya telah melihat banyak buku teks yang tidak mengajarkan penggunaan titik-titik untuk outlier, sehingga dapat memahami seseorang yang tidak terbiasa dengan mereka. Tetapi menurut Hadley , titik-titik itu telah ada bahkan ketika Tukey memperkenalkan "plot skematis" -nya pada tahun 1970.
Silverfish,
1
Ya, versi tanpa outlier di dalamnya (hanya berdasarkan ringkasan nomor 5) pada dasarnya akan menjadi plot jangkauan Mary Spear (1952). (NB kertas yang merindukan beberapa prekursor boxplot sejarah penting, pra 1952)
Glen_b -Reinstate Monica
4

Dalam statistik medis, kami hanya mengomentari bentuk dan distribusi yang tampak. Fakta bahwa tidak ada sampel terbatas diskrit yang dapat menjadi normal adalah tidak relevan dan bertele-tele. Saya akan menandai Anda salah untuk itu.

Jika distribusi terlihat "kebanyakan" normal, kami merasa nyaman menyebutnya normal. Ketika saya menggambarkan distribusi untuk audiens non-statistik, saya sangat nyaman dengan memanggil sesuatu yang mendekati normal bahkan ketika saya tahu distribusi normal bukanlah model probabilitas yang mendasarinya, saya mendapatkan pengertian bahwa saya akan memihak guru Anda di sini ... tapi kami tidak memiliki histogram atau dataset untuk diverifikasi.

Sebagai tip, saya akan melakukan inspeksi berikut dengan sangat dekat:

  • siapa outlier, berapa banyak dan apa nilainya?
  • Apakah datanya bimodal?
  • Apakah data tampaknya mengambil bentuk miring sehingga beberapa transformasi (seperti log) akan lebih baik mengukur "jarak" antara pengamatan?
  • Apakah ada pemotongan atau penumpukan yang jelas sehingga pengujian atau laboratorium gagal mendeteksi kisaran nilai tertentu secara andal?
AdamO
sumber
Tampaknya di bidang dengan begitu banyak matematika, orang akan lebih ketat antara mengatakan sesuatu adalah "distribusi normal" yang memiliki konotasi yang sangat ketat, dan mengatakan itu "hampir normal". Saya tidak akan pernah mengatakan bahwa 1.932 adalah 2. tetapi saya dapat mengatakan itu hampir 2.
Possum-Pie
1
"Tidak relevan dan bertele-tele"? Serius? Saya setuju dengan Possum-Pie. Saya juga tidak akan pernah mengatakan bahwa 1.932 sama dengan 2.0. Mengatakan bahwa data "normal" membingungkan segalanya, dari arti distribusi normal sebagai model untuk proses yang menghasilkan data, hingga kenyataan bahwa distribusi normal tidak pernah secara tepat memodelkan proses kami. Setiap orang harus diajari bahwa ketika mereka mempelajari distribusi normal sehingga mereka tidak membuat pernyataan konyol.
Peter Westfall
2
@PeterWestfall Saya pikir bagian dari masalah di sini adalah bahwa "data berasal dari distribusi normal" hampir tidak pernah benar, dan bahkan jika itu benar, kemungkinan tidak mungkin untuk membuktikannya secara meyakinkan. Jadi karena frasa tersebut hampir tidak pernah benar secara harfiah, orang-orang akan menggunakan "data itu normal" sebagai jalan pintas yang mudah untuk berarti "data tersebut tampaknya cukup dekat dengan normalitas untuk tujuan praktis" atau "distribusi normal adalah baik." model yang cukup untuk DGP kami ".
Silverfish
Jadi mengapa mengajarkan apa yang salah ketika begitu sederhana untuk mengajarkan apa yang benar?
Peter Westfall
3
@ PeterW Titik linguistik bukan hanya tentang pengajaran, ini tentang cara frasa yang digunakan (dan dimaksudkan untuk ditafsirkan) dalam kehidupan sehari-hari: "data normal" hampir tidak pernah digunakan untuk berarti "Saya tahu pasti bahwa populasi data yang diambil dari sampel adalah normal ", karena hampir tidak pernah bisa berarti itu. Akan lebih baik jika orang mengatakan "data tampak normal" atau bahkan "data tampak normal " (yaitu tampaknya cukup dekat dengan normal sehingga kita tidak peduli dengan penyimpangan dari normalitas), tetapi khususnya dalam pengaturan yang diterapkan, orang akan sering mengatakan hal-hal seperti itu.
Silverfish
2

Saya pikir Anda dan profesor Anda berbicara dalam konteks yang berbeda. Kesetaraan mean = median = mode adalah karakteristik distribusi teoritis dan ini bukan satu-satunya karakteristik. Anda tidak dapat mengatakan bahwa jika untuk distribusi apa pun di atas penangguhan properti maka distribusi normal. Distribusi T juga simetris tetapi tidak normal. Jadi, Anda berbicara tentang properti teoritis dari distribusi normal yang berlaku selalu untuk distribusi normal.

Profesor Anda berbicara tentang distribusi data sampel. Dia benar, Anda tidak akan pernah mendapatkan data dalam kehidupan nyata, di mana Anda akan menemukan mean = median = mode. Ini hanya karena kesalahan pengambilan sampel . Demikian pula, sangat tidak mungkin, Anda akan mendapatkan nol koefisien skewness untuk data sampel dan nol kelebihan kurtosis. Profesor Anda hanya memberi Anda aturan sederhana untuk mendapatkan ide tentang distribusi dari statistik sampel. Yang tidak benar secara umum (tanpa mendapatkan informasi lebih lanjut).

Neeraj
sumber
3
Profesor dikatakan sebagai wanita.
Nick Cox
Mengapa Anda tidak mendapatkan mode mean = median = sebagian besar karena banyak distribusi yang benar-benar miring! (Ketat, mean = median = mode dimungkinkan dengan distribusi miring juga, terlepas dari apa yang dikatakan banyak buku teks.)
Nick Cox
1
Saya tidak setuju bahwa kurangnya kesetaraan mean / median / mode = kesalahan pengambilan sampel. Misalkan Anda mengambil sampel acak 52 panti jompo untuk tingkat jatuh. Rumah 27, 34, dan 52 memiliki staf yang pendek dan memiliki jumlah jatuh yang di atas rata-rata. Rumah-rumah itu mendorong ke arah ekor dan bukan karena kesalahan pengambilan sampel.
Possum-Pie
1
@Possum Pie Apa data di sini adalah sekunder, tetapi Anda memberikan sinyal berbeda di tempat yang berbeda. Di sini Anda berbicara tentang beberapa panti jompo - tetapi dalam pertanyaan Anda menyatakan "di panti jompo". Tidak jelas tentang detail insidental sekalipun tidak membantu.
Nick Cox
@Nick Cox Maaf, saya mengklarifikasi itu. Jumlah jatuh / tahun dalam sampel 52 panti jompo
Possum-Pie
1

Untuk tujuan praktis, proses mendasar seperti ini biasanya didekati dengan baik oleh distribusi normal tanpa ada yang mengangkat alis.

Namun, jika Anda ingin bertele-tele, proses yang mendasari dalam kasus ini tidak dapat didistribusikan secara normal, karena tidak dapat menghasilkan nilai negatif (jumlah jatuh tidak bisa negatif). Saya tidak akan terkejut jika itu sebenarnya setidaknya distribusi bi-modal dengan puncak kedua mendekati nol.

Honza Brabec
sumber
Ini bimodal dengan mode di 4 jatuh dan 13 jatuh. Tidak ada laporan penurunan nol.
Possum-Pie