Apakah distribusi yang normal, tetapi sangat miring, dianggap Gaussian?

12

Saya memiliki pertanyaan ini: Bagaimana menurut Anda distribusi waktu yang dihabiskan per hari di YouTube?

Jawaban saya adalah mungkin terdistribusi normal dan sangat miring. Saya berharap ada satu mode di mana sebagian besar pengguna menghabiskan sekitar waktu rata-rata dan kemudian ekor panjang yang panjang karena beberapa pengguna adalah pengguna yang sangat besar.

Apakah itu jawaban yang adil? Apakah ada kata yang lebih baik untuk distribusi itu?

Cauder
sumber
4
Seperti beberapa jawaban menyebutkan tetapi tidak menekankan, kemiringan dinamai secara informal untuk ekor yang lebih panjang jika ada, jadi miring kanan jika ekor kanan lebih panjang. Kiri dan kanan seperti yang digunakan dalam konteks ini, keduanya mensyaratkan tampilan mengikuti konvensi bahwa besarnya ditampilkan pada sumbu hoirizontal. Jika itu terdengar terlalu jelas, pertimbangkan pajangan di Bumi dan ilmu lingkungan di mana besarnya adalah tinggi atau kedalaman dan ditampilkan secara vertikal. Cetakan kecil: beberapa ukuran kemiringan dapat menjadi nol bahkan jika suatu distribusi miring secara geometris.
Nick Cox
1
Total waktu per hari untuk semua pengguna? atau waktu per hari per orang? Jika yang terakhir, maka pasti ada lonjakan yang cukup besar pada 0, dalam hal ini Anda mungkin memerlukan distribusi gaya 'lonjakan dan lempengan' dengan delta Dirac di 0.
innisfree
6
"Normal" bersinonim dengan "Gaussian", dan distribusi Gaussian, juga disebut distribusi normal, tidak condong.
Michael Hardy
Saya menemukan pertanyaan dalam judul jauh berbeda dari pertanyaan dalam teks tubuh. Atau setidaknya judulnya sangat membingungkan. Tidak ada distribusi yang 'normal tetapi sangat condong' itu kontradiksi. Juga, distribusi Gaussian didefinisikan dengan sangat baik dan sama sekali tidak suka distribusi waktu yang dihabiskan per hari di YouTube. Jadi jawaban untuk pertanyaan dalam judul adalah tidak besar. f(x)=12πσ2exp((xμ)22σ2)
Sextus Empiricus
2
juga, pertanyaan di akhir 'adakah kata yang lebih baik untuk distribusi itu?' sangat kabur atau luas. Informasi itu tampaknya hanya 'satu mode' dan 'ekor kanan panjang' (bagian 'mungkin didistribusikan secara normal' tidak masuk akal). Mungkin ada banyak distribusi yang memenuhi persyaratan ini. Sungguh menakjubkan bahwa pertanyaan ini menarik lebih dari sepuluh jawaban dan paling tidak sebanyak proposal untuk distribusi alternatif sebelum kami benar-benar mencoba untuk mengklarifikasi pertanyaan (bahkan tidak ada data).
Sextus Empiricus

Jawaban:

14

Sebagian kecil per hari tentu tidak negatif. Ini mengesampingkan distribusi normal, yang memiliki massa probabilitas di seluruh sumbu nyata - khususnya di atas setengah negatif.

Distribusi undang-undang kekuasaan sering digunakan untuk memodelkan hal-hal seperti distribusi pendapatan, ukuran kota, dll. Mereka tidak negatif dan biasanya sangat condong. Ini akan menjadi yang pertama saya coba dalam pemodelan waktu yang dihabiskan untuk menonton YouTube. (Atau memantau pertanyaan CrossValidated.)

Informasi lebih lanjut tentang undang-undang kekuasaan dapat ditemukan di sini atau di sini , atau di tag kami .

Stephan Kolassa
sumber
16
Anda sepenuhnya benar bahwa distribusi normal memiliki dukungan di jalur nyata. Namun ... mereka bukan model yang buruk untuk beberapa kualitas positif yang ketat, seperti tinggi atau berat badan orang dewasa, di mana rerata dan varians sedemikian rupa sehingga nilai-nilai negatif sangat tidak mungkin di bawah model.
Matt Krause
2
@MattKrause Itu sebenarnya pertanyaan yang bagus - apakah ada kemungkinan saya akan '10 cm di atas atau di bawah tinggi rata-rata 'atau' 10 persen di atas atau di bawah tinggi rata-rata '? Hanya case pertama yang bisa menjamin distribusi normal.
Tomáš Kafka
1
@MattKrause: Saya sepenuhnya setuju, secara umum. Namun, pertanyaan saat ini adalah tentang proporsi waktu harian yang dihabiskan untuk menonton YouTube. Kami tidak memiliki data, tetapi saya akan sangat terkejut jika distribusinya bahkan simetris.
Stephan Kolassa
43

Distribusi yang normal tidak sangat condong. Itu adalah kontradiksi. Variabel yang terdistribusi normal memiliki kemiringan = 0.

Peter Flom - Pasang kembali Monica
sumber
1
Apa cara yang lebih baik untuk menggambarkan distribusi? Apakah ada kata untuk jenis distribusi di mana ia berpusat di sekitar mode dan kemudian memiliki ekor yang panjang?
Cauder
13
Unimodal dan condong sedekat mungkin dengan saya ...
jbowman
9
Selain itu, sungguh luar biasa bahwa orang memberikan waktu mereka untuk membantu orang lain menjadi lebih baik dalam hal ini. Aku tahu itu tak perlu dikatakan, tapi itu sangat keren apa yang kalian berdua lakukan!
Cauder
6
Ya, tapi perlu diperjelas bahwa pernyataan itu berkaitan dengan populasi yang berdistribusi normal. Sampel yang diambil dari populasi itu bisa sangat miring.
gung - Reinstate Monica
Ketika nilai condongnya kecil ("kecil" diputuskan oleh orang-orang yang berurusan dengan statistik yang dipertanyakan), Anda masih dapat memperlakukan populasi sebagai normal, meskipun sebagai akibatnya ada kesalahan kecil.
Carl Witthoft
13

Ini bisa menjadi distribusi log-normal. Seperti yang disebutkan di sini :

Waktu tinggal pengguna pada artikel online (lelucon, berita, dll.) Mengikuti distribusi log-normal.

Referensi yang diberikan adalah: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min (2013). Diam juga bukti: menafsirkan waktu tunggu untuk rekomendasi dari perspektif psikologis. Konferensi Internasional ACM tentang KDD.

Hitung Iblis
sumber
7

"Apakah ada kata yang lebih baik untuk distribusi itu?"

Ada perbedaan yang bermanfaat di sini antara menggunakan kata-kata untuk menggambarkan sifat - sifat distribusi, dibandingkan mencoba menemukan "nama" untuk distribusi sehingga Anda dapat mengidentifikasinya sebagai (kurang-lebih) contoh dari distribusi standar tertentu: yang mana rumus atau tabel statistik mungkin ada untuk fungsi distribusinya, dan Anda dapat memperkirakan parameternya. Dalam kasus yang terakhir ini, Anda kemungkinan menggunakan distribusi yang dinamai, misalnya "normal / Gaussian" (kedua istilah ini umumnya sama), sebagai model yang menangkap beberapa fitur utama dari data Anda, daripada mengklaim populasi yang menjadi data Anda. diambil dari persis mengikuti distribusi teoritis itu. Untuk sedikit mengutip George Box,semua model "salah", tetapi beberapa berguna. Jika Anda berpikir tentang pendekatan pemodelan, ada baiknya mempertimbangkan fitur apa yang ingin Anda sertakan dan seberapa rumit atau pelitnya model yang Anda inginkan.

Menjadi condong secara positif adalah contoh menggambarkan properti yang dimiliki oleh distribusi, tetapi tidak mendekati menentukan distribusi di luar rak yang merupakan "model" yang tepat. Itu mengesampingkan beberapa kandidat, misalnya distribusi Gaussian (yaitu normal) memiliki nol condong sehingga tidak akan sesuai untuk memodelkan data Anda jika condong adalah fitur penting. Mungkin ada properti lain dari data yang penting bagi Anda juga, misalnya itu unimodal (hanya memiliki satu puncak) atau dibatasi antara 0 dan 24 jam (atau antara 0 dan 1, jika Anda menulisnya sebagai pecahan hari ini), atau ada kemungkinan massa terkonsentrasi pada nol (karena ada orang yang tidak menonton youtube sama sekali pada hari tertentu).kurtosis . Dan perlu diingat bahwa walaupun distribusi Anda memiliki bentuk "punuk" atau "kurva-lonceng" dan memiliki kemiringan nol atau mendekati nol, itu tidak secara otomatis mengikuti bahwa distribusi normal adalah "benar" untuk itu! Di sisi lain, bahkan jika populasi data Anda berasal sebenarnya mengikuti distribusi tertentu dengan tepat, karena kesalahan pengambilan sampeldataset Anda mungkin tidak terlalu mirip. Kumpulan data kecil cenderung "berisik", dan mungkin tidak jelas apakah fitur tertentu yang dapat Anda lihat, misalnya punuk kecil atau ekor asimetris, adalah properti populasi yang mendasari data yang diambil (dan mungkin karena itu harus dimasukkan dalam model Anda) atau apakah itu hanya artefak dari sampel khusus Anda (dan untuk tujuan pemodelan harus diabaikan). Jika Anda memiliki kumpulan data kecil dan kemiringan mendekati nol, maka bahkan masuk akal distribusi yang mendasarinya sebenarnya simetris. Semakin besar kumpulan data Anda dan semakin besar kemiringannya, semakin tidak masuk akal hal ini menjadi - tetapi sementara Anda bisa melakukan uji signifikansi untuk melihat seberapa meyakinkan bukti yang diberikan data Anda untuk kemiringan dalam populasi itu diambil dari, ini mungkin tidak ada gunanya apakah distribusi normal (atau kemiringan nol lainnya) sesuai sebagai model ...

Properti mana dari data yang benar-benar penting untuk tujuan Anda bermaksud memodelkannya? Perhatikan bahwa jika kemiringannya cukup kecil dan Anda tidak terlalu peduli tentang hal itu, bahkan jika populasi yang mendasarinya benar-benar miring , maka Anda mungkin masih menemukan distribusi normal model yang berguna untuk memperkirakan distribusi sebenarnya dari waktu menonton ini. Tetapi Anda harus memeriksa bahwa ini tidak membuat prediksi yang konyol. Karena distribusi normal tidak memiliki nilai setinggi atau serendah mungkin, maka meskipun nilai yang sangat tinggi atau rendah menjadi semakin tidak mungkin, Anda akan selalu menemukan bahwa model Anda memprediksi ada beberapaprobabilitas menonton dalam jumlah negatif jam per hari, atau lebih dari 24 jam. Ini menjadi lebih bermasalah bagi Anda jika probabilitas yang diprediksikan dari kejadian yang mustahil tersebut menjadi tinggi. Distribusi simetris seperti normal akan memperkirakan bahwa banyak orang akan menonton untuk jangka waktu lebih dari misalnya 50% di atas rata-rata, seperti menonton kurang dari 50% di bawah rata-rata. Jika waktu menonton sangat miring, maka prediksi seperti ini mungkin juga tidak masuk akal sehingga konyol, dan memberi Anda hasil yang menyesatkan jika Anda mengambil hasil dari model Anda dan menggunakannya sebagai input untuk tujuan lain (misalnya, Anda Sedang menjalankan simulasi waktu menonton untuk menghitung penjadwalan iklan yang optimal). Jika kemiringan begitu penting Anda ingin menangkapnya sebagai bagian dari model Anda, makacondong distribusi normal mungkin lebih tepat. Jika Anda ingin menangkap skewness dan kurtosis, maka pertimbangkan t miring . Jika Anda ingin memasukkan batas atas dan bawah yang dimungkinkan secara fisik, maka pertimbangkan untuk menggunakan versi terpotong dari distribusi ini. Ada banyak distribusi probabilitas lain yang dapat condong dan unimodal (untuk pilihan parameter yang sesuai) seperti distribusi F atau gamma , dan sekali lagi Anda dapat memotong ini sehingga mereka tidak memprediksi waktu menonton yang sangat tinggi. Sebuah distribusi betamungkin merupakan pilihan yang baik jika Anda memodelkan fraksi dari hari yang dihabiskan menonton, karena ini selalu dibatasi antara 0 dan 1 tanpa pemotongan lebih lanjut diperlukan. Jika Anda ingin memasukkan konsentrasi probabilitas tepat pada nol karena non-pengamat, maka pertimbangkan membangun dalam model rintangan .

Tetapi pada titik Anda mencoba untuk melemparkan setiap fitur yang dapat Anda identifikasi dari data Anda, dan membangun model yang lebih canggih, mungkin Anda harus bertanya pada diri sendiri mengapa Anda melakukan ini? Apakah akan ada keuntungan untuk model yang lebih sederhana, misalnya lebih mudah untuk bekerja dengan matematis atau memiliki lebih sedikit parameter untuk diperkirakan? Jika Anda khawatir penyederhanaan seperti itu akan membuat Anda tidak dapat menangkap semua properti yang menarik bagi Anda, mungkin saja tidak ada distribusi "di luar rak" yang melakukan apa yang Anda inginkan. Namun, kami tidak dibatasi untuk bekerja dengan distribusi bernama yang sifat matematika telah dijelaskan sebelumnya. Sebagai gantinya, pertimbangkan untuk menggunakan data Anda untuk membangun fungsi distribusi empiris. Ini akan menangkap semua perilaku yang ada dalam data Anda, tetapi Anda tidak bisa lagi memberinya nama seperti "normal" atau "gamma", Anda juga tidak dapat menerapkan properti matematika yang hanya berkaitan dengan distribusi tertentu. Misalnya, "95% dari data terletak di dalam 1,96 standar deviasi dari mean" aturan untuk data yang terdistribusi normal dan mungkin tidak berlaku untuk distribusi Anda; meskipun perhatikan bahwa beberapa aturan berlaku untuk semua distribusi, misalnya ketidaksetaraan Chebyshev setidaknya menjamin75% dari data Anda harus berada dalam dua standar deviasi rata-rata, terlepas dari kemiringannya. Sayangnya distribusi empiris juga akan mewarisi semua properti set data Anda yang timbul murni karena kesalahan pengambilan sampel, bukan hanya yang dimiliki oleh populasi yang mendasarinya, jadi Anda mungkin menemukan histogram distribusi empiris Anda memiliki beberapa tonjolan dan penurunan yang tidak dimiliki populasi itu sendiri. . Anda mungkin ingin menyelidiki fungsi distribusi empiris yang lebih halus , atau lebih baik lagi, meningkatkan ukuran sampel Anda.

Singkatnya: meskipun distribusi normal memiliki nol condong, fakta data Anda miring tidak mengesampingkan distribusi normal sebagai model yang berguna, meskipun itu menunjukkan beberapa distribusi lain mungkin lebih tepat. Anda harus mempertimbangkan properti lain dari data saat memilih model Anda, selain kemiringannya, dan mempertimbangkan juga tujuan penggunaan model tersebut. Aman untuk mengatakan bahwa populasi sebenarnya dari waktu menonton Anda tidak benar-benar mengikuti beberapa distribusi terkenal yang bernama, tetapi ini tidak berarti distribusi seperti itu pasti akan sia-sia sebagai model. Namun, untuk beberapa tujuan Anda mungkin lebih suka menggunakan distribusi empiris itu sendiri, daripada mencoba menyesuaikan distribusi standar untuk itu.

Gegat
sumber
6

Distribusi gamma bisa menjadi kandidat yang baik untuk menggambarkan distribusi semacam ini di atas data yang tidak miring dan condong ke kanan. Lihat garis hijau pada gambar di sini: https://en.m.wikipedia.org/wiki/Gamma_distribution

maurice
sumber
4

"Normal" dan "Gaussian" memiliki arti yang persis sama. Seperti yang dijelaskan oleh jawaban lain, distribusi yang Anda bicarakan tidak normal / Gaussian, karena distribusi tersebut memberikan probabilitas untuk setiap nilai pada garis nyata, sedangkan distribusi Anda hanya ada antara dan  .024

David Richerby
sumber
3

01

J G
sumber
2

Bagaimana dengan model rintangan?

Model rintangan memiliki dua bagian. Yang pertama adalah eksperimen Bernoulli yang menentukan apakah Anda menggunakan YouTube sama sekali. Jika tidak, maka waktu penggunaan Anda jelas nol dan Anda selesai. Jika Anda melakukannya, Anda "melewati rintangan itu", maka waktu penggunaan berasal dari beberapa distribusi positif lainnya.

Konsep yang terkait erat adalah model zero-inflated. Ini dimaksudkan untuk menghadapi situasi di mana kita mengamati sekelompok nol, tetapi tidak dapat membedakan antara selalu-nol dan kadang-kadang nol. Sebagai contoh, perhatikan jumlah rokok yang dihisap seseorang setiap hari. Untuk yang bukan perokok, angka itu selalu nol, tetapi beberapa perokok mungkin tidak merokok pada hari tertentu (karena rokok? Dalam penerbangan panjang?). Tidak seperti model rintangan, distribusi "perokok" di sini harus mencakup nol, tetapi jumlah ini 'meningkat' oleh kontribusi non-perokok juga.

Matt Krause
sumber
0

Jika distribusi memang merupakan 'subset' dari distribusi normal, Anda harus mempertimbangkan model yang terpotong. Banyak digunakan dalam konteks ini adalah keluarga model TOBIT.
Mereka pada dasarnya menyarankan pdf dengan massa probabilitas (positif) pada 0 dan kemudian 'potongan bagian dari distribusi normal' untuk nilai-nilai positif.
Saya akan menahan diri dari mengetik rumus di sini dan lebih memilih untuk merujuk Anda ke Artikel Wikipedia: https://en.wikipedia.org/wiki/Tobit_model

Lucas
sumber
-4

Distribusi normal secara definisi tidak miring, sehingga Anda tidak dapat memiliki keduanya. Jika distribusinya condong ke kiri, maka tidak boleh Gaussian. Anda harus memilih yang berbeda! Hal terdekat dengan permintaan Anda yang dapat saya pikirkan adalah ini:

https://en.wikipedia.org/wiki/Skew_normal_distribution

David
sumber
5
Saya setuju kecuali bahwa OP membingungkan kemiringan kiri dan kanan, sebagaimana telah ditunjukkan. Dan @behold telah menyarankan kemiringan normal dalam sebuah jawaban. Jadi, saya tidak dapat melihat bahwa ini menambah jawaban yang ada.
Nick Cox
Ini merangkum banyak dari mereka dalam tanggapan tiga garis lurus ke depan
David
4
Maaf, tapi itu masih berulang.
Nick Cox
OKE ... siapa peduli?
David
4
Ya saya lakukan; dan siapa pun yang menambahkan +1 ke komentar saya (jelas bukan saya) dan siapa pun yang menurunkan jawaban Anda (bukan saya, saat itu terjadi). Utas ini sudah panjang dan berulang; namun lebih banyak komentar yang berlebihan tidak meningkatkannya untuk pembaca masa depan.
Nick Cox