Katakanlah saya menghitung ketinggian (dalam cm) dan angkanya harus lebih tinggi dari nol.
Berikut daftar sampelnya:
0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981
Mean: 0.41138725956196015
Std: 0.2860541519582141
Dalam contoh ini, menurut distribusi normal, 99,7% dari nilai harus antara ± 3 kali standar deviasi dari rata-rata. Namun, bahkan dua kali standar deviasi menjadi negatif:
-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468
Namun, angka saya harus positif. Jadi mereka harus di atas 0. Saya bisa mengabaikan angka negatif tapi saya ragu ini adalah cara yang benar untuk menghitung probabilitas menggunakan standar deviasi.
Dapatkah seseorang membantu saya untuk mengerti jika saya menggunakan ini dengan cara yang benar? Atau apakah saya perlu memilih metode yang berbeda?
Yah jujur saja, matematika itu matematika. Tidak masalah apakah itu distribusi normal atau tidak. Jika berfungsi dengan angka yang tidak ditandatangani, itu harus bekerja dengan angka positif juga! Apakah aku salah?
EDIT1: Menambahkan histogram
Agar lebih jelas, saya telah menambahkan histogram data nyata saya
EDIT2: Beberapa nilai
Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
Jawaban:
Jika angka Anda hanya bisa positif, maka memodelkannya sebagai distribusi normal mungkin tidak diinginkan tergantung pada kasus penggunaan Anda, karena distribusi normal didukung pada semua bilangan real.
Mungkin Anda ingin memodelkan tinggi sebagai distribusi eksponensial, atau mungkin distribusi normal terpotong?
EDIT: Setelah melihat data Anda, sepertinya cocok dengan distribusi eksponensial dengan baik! Anda bisa memperkirakan parameter dengan mengambil, misalnya, pendekatan kemungkinan maksimum.λ
sumber
"Apa cara yang benar untuk menerapkan 68-95-99.7 pada kasus saya?"
Seseorang seharusnya hanya mengharapkan aturan praktis untuk cakupan berlaku persis hanya jika Anda (1) melihat seluruh populasi (tak terbatas) atau distribusi probabilitas teoretis , dan (2) distribusi itu persis normal .
Jika Anda mengambil sampel acak ukuran 20, bahkan dari distribusi yang benar-benar normal, Anda tidak akan selalu menemukan bahwa 95% dari data (19 dari 20 item) berada dalam 2 (atau 1.960) standar deviasi rata-rata. Faktanya tidak ada jaminan bahwa 19 dari 20 item akan berada dalam 1.960 standar deviasi populasi dari rata-rata populasi, atau 19 dari 20 item berada dalam 1.960 standar deviasi sampel dari mean sampel.
Jika Anda mengambil sampel data dari distribusi yang tidak terdistribusi secara normal, maka orang tidak akan mengharapkan aturan 68-95-99.7 berlaku secara tepat. Tetapi mungkin hampir mendekati melakukannya, terutama jika ukuran sampel besar (aturan "cakupan 99,7%" mungkin tidak terlalu berarti dengan ukuran sampel di bawah 1000) dan distribusi cukup dekat dengan normalitas. Secara teori, banyak data seperti tinggi atau berat tidak dapat berasal dari distribusi normal yang tepat atau yang menyiratkan kemungkinan kecil, tetapi tidak nol, kemungkinan data tersebut negatif. Namun demikian, untuk data dengan distribusi yang hampir simetris dan unimodal, di mana nilai menengah lebih umum dan nilai yang sangat tinggi atau rendah turun dalam probabilitas, model distribusi normal mungkin memadai untuk tujuan praktis.Jika histogram saya menunjukkan kurva berbentuk lonceng, dapatkah saya mengatakan bahwa data saya terdistribusi secara normal?
Jika Anda ingin batas yang mengikat secara teoritis yang berlaku untuk distribusi apa pun, maka lihat ketidaksetaraan Chebyshev , yang menyatakan bahwa paling banyak nilai dapat terletak lebih dari k1 / k2 k standar deviasi dari mean. Ini menjamin bahwa setidaknya 75% data berada dalam dua standar deviasi rata-rata, dan 89% dalam tiga standar deviasi. Tetapi angka-angka itu hanya minimum yang dijamin secara teoritis. Untuk banyak distribusi berbentuk lonceng, Anda akan menemukan bahwa angka cakupan deviasi dua standar datang lebih dekat ke 95% daripada 75%, dan "aturan praktis" dari distribusi normal masih berguna. Di sisi lain, jika data Anda berasal dari distribusi yang tidak berbentuk lonceng, Anda mungkin dapat menemukan model alternatif yang menggambarkan data lebih baik dan memiliki aturan cakupan yang berbeda.
(Satu hal yang baik tentang 68-95-99.7 aturan adalah bahwa hal itu berlaku untuk setiap distribusi normal, terlepas dari parameter untuk deviasi rata-rata atau standar. Demikian pula, ketidaksamaan Chebyshev berlaku tanpa parameter, atau bahkan distribusi, meskipun hanya memberikan batas yang lebih rendah untuk cakupan. Tetapi jika Anda menerapkan, misalnya, model normal terpotong atau condong , maka tidak ada padanan sederhana dari cakupan "68-95-99.7", karena itu akan tergantung pada parameter distribusi .)
sumber
Oh, itu mudah. Tidak, Anda tidak menggunakannya dengan benar.
Pertama, Anda menggunakan kumpulan data yang agak kecil. Mencoba untuk menghapus perilaku statistik dari set ukuran ini tentu mungkin, tetapi batas kepercayaan (ahem) agak besar. Untuk set data kecil, penyimpangan dari distribusi yang diharapkan setara untuk kursus, dan semakin kecil set semakin besar masalahnya. Ingat, "Hukum Rata-rata tidak hanya mengizinkan kebetulan yang paling keterlaluan, itu juga mengharuskan mereka."
Lebih buruk lagi, kumpulan data tertentu yang Anda gunakan tidak terlihat seperti distribusi normal. Pikirkan tentang hal ini - dengan rata-rata 0,498 Anda punya dua sampel di bawah 0,1, dan tiga lagi di 0,748 atau lebih tinggi. Maka Anda memiliki sekelompok 3 poin antara 0,17 dan 0,22. Melihat kumpulan data khusus ini dan berpendapat bahwa itu harus berdistribusi normal adalah kasus argumen Procrustean yang cukup bagus. Apakah itu terlihat seperti kurva lonceng untuk Anda? Sangat mungkin bahwa populasi yang lebih besar mengikuti distribusi yang normal, atau yang dimodifikasi, dan ukuran sampel yang lebih besar akan mengatasi masalah ini, tetapi saya tidak akan bertaruh untuk itu, terutama tanpa mengetahui lebih banyak tentang populasi.
Saya katakan dimodifikasi normal, karena seperti yang ditunjukkan Kevin Li, secara teknis distribusi normal mencakup semua bilangan real. Seperti yang juga ditunjukkan dalam komentar atas jawabannya, ini tidak mencegah penerapan distribusi semacam itu dalam rentang terbatas dan mendapatkan hasil yang bermanfaat. Seperti kata pepatah, "Semua model salah. Beberapa berguna."
Tetapi kumpulan data khusus ini tidak terlihat seperti menyimpulkan distribusi normal (bahkan dalam rentang terbatas) adalah ide yang sangat bagus. Jika 10 poin data Anda tampak seperti .275, .325, .375, .425, .575, .575, .675, .675, .725 (rata-rata 0.500), apakah Anda akan menganggap distribusi normal?
sumber
Dalam salah satu komentar Anda mengatakan Anda menggunakan "data acak" tetapi Anda tidak mengatakan dari distribusi apa. Jika Anda berbicara tentang ketinggian manusia, mereka biasanya terdistribusi secara normal, tetapi data Anda tidak sesuai untuk ketinggian manusia - Anda hanya sebagian kecil dari satu cm!
Dan data Anda tidak normal dari jarak jauh. Saya kira Anda menggunakan distribusi seragam dengan batas 0 dan 1. Dan Anda menghasilkan sampel yang sangat kecil. Mari kita coba dengan sampel yang lebih besar:
jadi, tidak ada data yang melebihi 2 sd dari mean, karena itu di luar batas data. Dan porsi dalam 1 sd akan menjadi sekitar 0,56.
sumber
Seringkali, ketika Anda memiliki batasan bahwa sampel Anda semuanya harus positif, perlu melihat logaritma data Anda untuk melihat apakah distribusi Anda dapat diperkirakan dengan distribusi lognormal.
sumber
Perhitungan standar deviasi relatif terhadap rata-rata. Bisakah Anda menerapkan standar deviasi ke angka yang selalu positif? Benar. Jika Anda menambahkan 1000 untuk masing-masing nilai dalam set sampel Anda, Anda akan melihat nilai standar deviasi yang sama, tetapi Anda akan memberi diri Anda lebih banyak ruang bernapas di atas nol.
Namun, menambahkan konstanta sembarang ke data Anda adalah dangkal. Saat menggunakan standar deviasi untuk kumpulan data yang sangat kecil, Anda harus mengharapkan output yang tidak diolah. Pertimbangkan deviasi standar seperti lensa kamera fokus otomatis: semakin banyak waktu (data) yang Anda berikan, semakin jelas gambarnya. Jika setelah Anda melacak 10.000 data poin, mean dan standar deviasi Anda tetap sama dengan 10, maka saya dapat mulai mempertanyakan validitas eksperimen Anda.
sumber
Histogram Anda menunjukkan bahwa distribusi normal tidak cocok. Anda dapat mencoba lognormal atau sesuatu yang asimetris dan sangat positif
sumber
Intinya adalah bahwa banyak dari kita yang malas *, dan distribusi normal nyaman untuk bekerja dengan bagi kita orang malas. Mudah melakukan perhitungan menggunakan distribusi normal dan memiliki dasar matematika yang bagus. Karena itu merupakan "model" untuk cara bekerja pada data. Model ini sering bekerja dengan sangat baik, dan terkadang jatuh datar di wajahnya.
Sangat jelas bahwa sampel Anda tidak menunjukkan distribusi normal dalam data. Jadi solusi untuk Anda dilema adalah memilih "model" yang berbeda, dan bekerja dengan distribusi yang berbeda. Distribusi Weibull mungkin ada di arah, ada yang lain.
sumber
Pada dasarnya Anda menggunakan data Rasio sebagai lawan dari data Interval. Para ahli geografi melewati ini setiap saat ketika menghitung S / D untuk curah hujan tahunan di lokasi tertentu (100+ tahun titik sampel di katakanlah LA Civic Center) atau hujan salju (100+ tahun sampel salju di Danau Big Bear). Kami hanya dapat memiliki angka positif, begitulah adanya.
sumber
Dalam meteorologi, distribusi kecepatan angin memang terlihat seperti ini. Menurut definisi, kecepatan angin juga tidak negatif.
Jadi dalam kasus Anda, saya pasti akan melihat distribusi Weibull .
sumber
Anda mulai dengan "menurut distribusi normal" ketika data Anda jelas tidak terdistribusi normal, itu masalah pertama. Anda berkata "Tidak masalah apakah itu distribusi normal atau tidak." Itu omong kosong. Anda tidak dapat menggunakan pernyataan tentang data terdistribusi normal jika data Anda tidak terdistribusi normal.
Dan Anda salah mengartikan pernyataan itu. "99,7% harus dalam tiga standar deviasi". Dan 99,7% dari data Anda memang dalam tiga standar deviasi. Bahkan lebih baik, itu 100% dalam dua standar deviasi. Jadi pernyataan itu benar .
sumber