Saya memiliki pertanyaan ini: Bagaimana menurut Anda distribusi waktu yang dihabiskan per hari di YouTube?
Jawaban saya adalah mungkin terdistribusi normal dan sangat miring. Saya berharap ada satu mode di mana sebagian besar pengguna menghabiskan sekitar waktu rata-rata dan kemudian ekor panjang yang panjang karena beberapa pengguna adalah pengguna yang sangat besar.
Apakah itu jawaban yang adil? Apakah ada kata yang lebih baik untuk distribusi itu?
Jawaban:
Sebagian kecil per hari tentu tidak negatif. Ini mengesampingkan distribusi normal, yang memiliki massa probabilitas di seluruh sumbu nyata - khususnya di atas setengah negatif.
Distribusi undang-undang kekuasaan sering digunakan untuk memodelkan hal-hal seperti distribusi pendapatan, ukuran kota, dll. Mereka tidak negatif dan biasanya sangat condong. Ini akan menjadi yang pertama saya coba dalam pemodelan waktu yang dihabiskan untuk menonton YouTube. (Atau memantau pertanyaan CrossValidated.)
Informasi lebih lanjut tentang undang-undang kekuasaan dapat ditemukan di sini atau di sini , atau di tag kuasa- kami .
sumber
Distribusi yang normal tidak sangat condong. Itu adalah kontradiksi. Variabel yang terdistribusi normal memiliki kemiringan = 0.
sumber
Jika memiliki ekor kanan yang panjang, maka itu condong ke kanan.
Itu tidak bisa menjadi distribusi normal sejak condong! = 0, itu mungkin distribusi normal condong unimodal:
https://en.wikipedia.org/wiki/Skew_normal_distribution
sumber
Ini bisa menjadi distribusi log-normal. Seperti yang disebutkan di sini :
Referensi yang diberikan adalah: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min (2013). Diam juga bukti: menafsirkan waktu tunggu untuk rekomendasi dari perspektif psikologis. Konferensi Internasional ACM tentang KDD.
sumber
"Apakah ada kata yang lebih baik untuk distribusi itu?"
Ada perbedaan yang bermanfaat di sini antara menggunakan kata-kata untuk menggambarkan sifat - sifat distribusi, dibandingkan mencoba menemukan "nama" untuk distribusi sehingga Anda dapat mengidentifikasinya sebagai (kurang-lebih) contoh dari distribusi standar tertentu: yang mana rumus atau tabel statistik mungkin ada untuk fungsi distribusinya, dan Anda dapat memperkirakan parameternya. Dalam kasus yang terakhir ini, Anda kemungkinan menggunakan distribusi yang dinamai, misalnya "normal / Gaussian" (kedua istilah ini umumnya sama), sebagai model yang menangkap beberapa fitur utama dari data Anda, daripada mengklaim populasi yang menjadi data Anda. diambil dari persis mengikuti distribusi teoritis itu. Untuk sedikit mengutip George Box,semua model "salah", tetapi beberapa berguna. Jika Anda berpikir tentang pendekatan pemodelan, ada baiknya mempertimbangkan fitur apa yang ingin Anda sertakan dan seberapa rumit atau pelitnya model yang Anda inginkan.
Menjadi condong secara positif adalah contoh menggambarkan properti yang dimiliki oleh distribusi, tetapi tidak mendekati menentukan distribusi di luar rak yang merupakan "model" yang tepat. Itu mengesampingkan beberapa kandidat, misalnya distribusi Gaussian (yaitu normal) memiliki nol condong sehingga tidak akan sesuai untuk memodelkan data Anda jika condong adalah fitur penting. Mungkin ada properti lain dari data yang penting bagi Anda juga, misalnya itu unimodal (hanya memiliki satu puncak) atau dibatasi antara 0 dan 24 jam (atau antara 0 dan 1, jika Anda menulisnya sebagai pecahan hari ini), atau ada kemungkinan massa terkonsentrasi pada nol (karena ada orang yang tidak menonton youtube sama sekali pada hari tertentu).kurtosis . Dan perlu diingat bahwa walaupun distribusi Anda memiliki bentuk "punuk" atau "kurva-lonceng" dan memiliki kemiringan nol atau mendekati nol, itu tidak secara otomatis mengikuti bahwa distribusi normal adalah "benar" untuk itu! Di sisi lain, bahkan jika populasi data Anda berasal sebenarnya mengikuti distribusi tertentu dengan tepat, karena kesalahan pengambilan sampeldataset Anda mungkin tidak terlalu mirip. Kumpulan data kecil cenderung "berisik", dan mungkin tidak jelas apakah fitur tertentu yang dapat Anda lihat, misalnya punuk kecil atau ekor asimetris, adalah properti populasi yang mendasari data yang diambil (dan mungkin karena itu harus dimasukkan dalam model Anda) atau apakah itu hanya artefak dari sampel khusus Anda (dan untuk tujuan pemodelan harus diabaikan). Jika Anda memiliki kumpulan data kecil dan kemiringan mendekati nol, maka bahkan masuk akal distribusi yang mendasarinya sebenarnya simetris. Semakin besar kumpulan data Anda dan semakin besar kemiringannya, semakin tidak masuk akal hal ini menjadi - tetapi sementara Anda bisa melakukan uji signifikansi untuk melihat seberapa meyakinkan bukti yang diberikan data Anda untuk kemiringan dalam populasi itu diambil dari, ini mungkin tidak ada gunanya apakah distribusi normal (atau kemiringan nol lainnya) sesuai sebagai model ...
Properti mana dari data yang benar-benar penting untuk tujuan Anda bermaksud memodelkannya? Perhatikan bahwa jika kemiringannya cukup kecil dan Anda tidak terlalu peduli tentang hal itu, bahkan jika populasi yang mendasarinya benar-benar miring , maka Anda mungkin masih menemukan distribusi normal model yang berguna untuk memperkirakan distribusi sebenarnya dari waktu menonton ini. Tetapi Anda harus memeriksa bahwa ini tidak membuat prediksi yang konyol. Karena distribusi normal tidak memiliki nilai setinggi atau serendah mungkin, maka meskipun nilai yang sangat tinggi atau rendah menjadi semakin tidak mungkin, Anda akan selalu menemukan bahwa model Anda memprediksi ada beberapaprobabilitas menonton dalam jumlah negatif jam per hari, atau lebih dari 24 jam. Ini menjadi lebih bermasalah bagi Anda jika probabilitas yang diprediksikan dari kejadian yang mustahil tersebut menjadi tinggi. Distribusi simetris seperti normal akan memperkirakan bahwa banyak orang akan menonton untuk jangka waktu lebih dari misalnya 50% di atas rata-rata, seperti menonton kurang dari 50% di bawah rata-rata. Jika waktu menonton sangat miring, maka prediksi seperti ini mungkin juga tidak masuk akal sehingga konyol, dan memberi Anda hasil yang menyesatkan jika Anda mengambil hasil dari model Anda dan menggunakannya sebagai input untuk tujuan lain (misalnya, Anda Sedang menjalankan simulasi waktu menonton untuk menghitung penjadwalan iklan yang optimal). Jika kemiringan begitu penting Anda ingin menangkapnya sebagai bagian dari model Anda, makacondong distribusi normal mungkin lebih tepat. Jika Anda ingin menangkap skewness dan kurtosis, maka pertimbangkan t miring . Jika Anda ingin memasukkan batas atas dan bawah yang dimungkinkan secara fisik, maka pertimbangkan untuk menggunakan versi terpotong dari distribusi ini. Ada banyak distribusi probabilitas lain yang dapat condong dan unimodal (untuk pilihan parameter yang sesuai) seperti distribusi F atau gamma , dan sekali lagi Anda dapat memotong ini sehingga mereka tidak memprediksi waktu menonton yang sangat tinggi. Sebuah distribusi betamungkin merupakan pilihan yang baik jika Anda memodelkan fraksi dari hari yang dihabiskan menonton, karena ini selalu dibatasi antara 0 dan 1 tanpa pemotongan lebih lanjut diperlukan. Jika Anda ingin memasukkan konsentrasi probabilitas tepat pada nol karena non-pengamat, maka pertimbangkan membangun dalam model rintangan .
Tetapi pada titik Anda mencoba untuk melemparkan setiap fitur yang dapat Anda identifikasi dari data Anda, dan membangun model yang lebih canggih, mungkin Anda harus bertanya pada diri sendiri mengapa Anda melakukan ini? Apakah akan ada keuntungan untuk model yang lebih sederhana, misalnya lebih mudah untuk bekerja dengan matematis atau memiliki lebih sedikit parameter untuk diperkirakan? Jika Anda khawatir penyederhanaan seperti itu akan membuat Anda tidak dapat menangkap semua properti yang menarik bagi Anda, mungkin saja tidak ada distribusi "di luar rak" yang melakukan apa yang Anda inginkan. Namun, kami tidak dibatasi untuk bekerja dengan distribusi bernama yang sifat matematika telah dijelaskan sebelumnya. Sebagai gantinya, pertimbangkan untuk menggunakan data Anda untuk membangun fungsi distribusi empiris. Ini akan menangkap semua perilaku yang ada dalam data Anda, tetapi Anda tidak bisa lagi memberinya nama seperti "normal" atau "gamma", Anda juga tidak dapat menerapkan properti matematika yang hanya berkaitan dengan distribusi tertentu. Misalnya, "95% dari data terletak di dalam 1,96 standar deviasi dari mean" aturan untuk data yang terdistribusi normal dan mungkin tidak berlaku untuk distribusi Anda; meskipun perhatikan bahwa beberapa aturan berlaku untuk semua distribusi, misalnya ketidaksetaraan Chebyshev setidaknya menjamin75% dari data Anda harus berada dalam dua standar deviasi rata-rata, terlepas dari kemiringannya. Sayangnya distribusi empiris juga akan mewarisi semua properti set data Anda yang timbul murni karena kesalahan pengambilan sampel, bukan hanya yang dimiliki oleh populasi yang mendasarinya, jadi Anda mungkin menemukan histogram distribusi empiris Anda memiliki beberapa tonjolan dan penurunan yang tidak dimiliki populasi itu sendiri. . Anda mungkin ingin menyelidiki fungsi distribusi empiris yang lebih halus , atau lebih baik lagi, meningkatkan ukuran sampel Anda.
Singkatnya: meskipun distribusi normal memiliki nol condong, fakta data Anda miring tidak mengesampingkan distribusi normal sebagai model yang berguna, meskipun itu menunjukkan beberapa distribusi lain mungkin lebih tepat. Anda harus mempertimbangkan properti lain dari data saat memilih model Anda, selain kemiringannya, dan mempertimbangkan juga tujuan penggunaan model tersebut. Aman untuk mengatakan bahwa populasi sebenarnya dari waktu menonton Anda tidak benar-benar mengikuti beberapa distribusi terkenal yang bernama, tetapi ini tidak berarti distribusi seperti itu pasti akan sia-sia sebagai model. Namun, untuk beberapa tujuan Anda mungkin lebih suka menggunakan distribusi empiris itu sendiri, daripada mencoba menyesuaikan distribusi standar untuk itu.
sumber
Distribusi gamma bisa menjadi kandidat yang baik untuk menggambarkan distribusi semacam ini di atas data yang tidak miring dan condong ke kanan. Lihat garis hijau pada gambar di sini: https://en.m.wikipedia.org/wiki/Gamma_distribution
sumber
"Normal" dan "Gaussian" memiliki arti yang persis sama. Seperti yang dijelaskan oleh jawaban lain, distribusi yang Anda bicarakan tidak normal / Gaussian, karena distribusi tersebut memberikan probabilitas untuk setiap nilai pada garis nyata, sedangkan distribusi Anda hanya ada antara dan .0 24
sumber
sumber
Bagaimana dengan model rintangan?
Model rintangan memiliki dua bagian. Yang pertama adalah eksperimen Bernoulli yang menentukan apakah Anda menggunakan YouTube sama sekali. Jika tidak, maka waktu penggunaan Anda jelas nol dan Anda selesai. Jika Anda melakukannya, Anda "melewati rintangan itu", maka waktu penggunaan berasal dari beberapa distribusi positif lainnya.
Konsep yang terkait erat adalah model zero-inflated. Ini dimaksudkan untuk menghadapi situasi di mana kita mengamati sekelompok nol, tetapi tidak dapat membedakan antara selalu-nol dan kadang-kadang nol. Sebagai contoh, perhatikan jumlah rokok yang dihisap seseorang setiap hari. Untuk yang bukan perokok, angka itu selalu nol, tetapi beberapa perokok mungkin tidak merokok pada hari tertentu (karena rokok? Dalam penerbangan panjang?). Tidak seperti model rintangan, distribusi "perokok" di sini harus mencakup nol, tetapi jumlah ini 'meningkat' oleh kontribusi non-perokok juga.
sumber
Jika distribusi memang merupakan 'subset' dari distribusi normal, Anda harus mempertimbangkan model yang terpotong. Banyak digunakan dalam konteks ini adalah keluarga model TOBIT.
Mereka pada dasarnya menyarankan pdf dengan massa probabilitas (positif) pada 0 dan kemudian 'potongan bagian dari distribusi normal' untuk nilai-nilai positif.
Saya akan menahan diri dari mengetik rumus di sini dan lebih memilih untuk merujuk Anda ke Artikel Wikipedia: https://en.wikipedia.org/wiki/Tobit_model
sumber
Distribusi normal secara definisi tidak miring, sehingga Anda tidak dapat memiliki keduanya. Jika distribusinya condong ke kiri, maka tidak boleh Gaussian. Anda harus memilih yang berbeda! Hal terdekat dengan permintaan Anda yang dapat saya pikirkan adalah ini:
https://en.wikipedia.org/wiki/Skew_normal_distribution
sumber