Mensimulasikan distribusi

9

Saya sedang mengerjakan tugas Perencanaan Kapasitas dan saya telah membaca beberapa buku. Ini khusus tentang distribusi. Saya menggunakan R.

  1. Apa pendekatan yang direkomendasikan untuk mengidentifikasi apa distribusi data saya? Apakah ada metode statistik untuk mengidentifikasinya?

Saya punya diagram ini.

PENDEKATAN PROBABILISTIK: ANALISIS SKENARIO, POHON KEPUTUSAN DAN SIMULASI

  1. Apa saja pendekatan simulasi yang tersedia menggunakan R? Di sini saya ingin menghasilkan data untuk distribusi tertentu seperti eksponensial. Apakah r-java pendekatan yang tepat jika saya ingin mengintegrasikannya dengan Java?

  2. Apakah ada cara untuk memprediksi distribusi apa efeknya (penggunaan CPU dll) akan miliki ketika saya menyalurkan data untuk distribusi tertentu? Apa efek berbeda dari mengirim distribusi data tertentu?

Silakan pertimbangkan ini sebagai pertanyaan pemula. Apakah ada buku atau bahan yang berhubungan dengan jenis simulasi ini?

Catatan

Diagram ini dari bagian akhir makalah http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Kebaikan teknik cocok saya temui

Penilaian good-of-fit

  1. Chi-kuadrat
  2. Kolmogorov-Smirnov,
  3. Statistik kepadatan Anderson-Darling, plot cdf, PP, dan QQ

Saya tidak yakin apa interpretasi atau langkah selanjutnya seharusnya jika saya menemukan bahwa distribusi saya normal atau eksponensial, dll. Apa yang memungkinkan saya lakukan? Ramalan? Semoga pertanyaan ini jelas.

Penundaan eksponensial akan menyebabkan fluktuasi antrian sesuai buku Perencanaan Kapasitas saya oleh Neil Gunther. Jadi saya tahu satu poin.

Mohan Radhakrishnan
sumber
Jika menurut Anda diagram Anda penting, maka Anda harus mencoba meningkatkan kualitas gambar ...
ocram
Saya menghargai perhatian yang diperlukan untuk membuat pertanyaan yang menyenangkan. Menurut pendapat saya poin 2. Anda (yang seharusnya 3 saya kira) perlu klarifikasi, atau Anda bahkan bisa memindahkannya ke Stack Overflow.
gui11aume
1
Saya pikir pertanyaan terakhir saya ada di sini. Katakanlah saya mengidentifikasi distribusi data saya. Apakah saya memperkirakan distribusi di masa mendatang akan mengikuti probabilitas ini? Saya kehilangan bagian analisis data di sini. Saya tahu bahwa plot kotak-kumis dengan mudah menunjukkan kuartil yang saya mengerti. Saya tidak mendapatkan utilitas distribusi. Semoga ada properti distribusi ini yang perlu saya selidiki untuk prediksi.
Mohan Radhakrishnan
@ocram Jika kualitasnya buruk, perbesar halaman di browser Anda: detailnya ada di sana. BTW, gambar-gambar ini harus dari beberapa dokumentasi Crystal Ball .
whuber
@whuber: Memang, saya bahkan tidak mencoba! Maaf atas komentarnya.
ocram

Jawaban:

7

Saya akan menjawab poin Anda tentang simulasi dengan R karena ini adalah satu-satunya yang saya kenal. R memiliki banyak distribusi bawaan yang dapat Anda tiru. Logika penamaan adalah untuk mensimulasikan distribusi yang disebut disnama rdis.

Di bawah ini adalah yang paling sering saya gunakan

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Anda dapat menemukan beberapa pelengkap di Fitting distribusi dengan R .

Tambahan: terima kasih kepada @jthetzel karena menyediakan tautan dengan daftar distribusi yang komprehensif dan paket-paket milik mereka.

Tapi tunggu, masih ada lagi: OK, mengikuti komentar @ whuber saya akan mencoba untuk membahas poin lainnya. Mengenai poin 1, saya tidak pernah menggunakan pendekatan good-of-fit. Sebaliknya saya selalu berpikir tentang asal usul sinyal, seperti apa yang menyebabkan fenomena, apakah ada beberapa simetri alami dalam apa yang menghasilkannya, dll. Anda perlu beberapa bab buku untuk mengatasinya, jadi saya hanya akan memberikan dua contoh.

  1. Jika data dihitung dan tidak ada batas atas, saya coba Poisson. Variabel poisson dapat diartikan sebagai jumlah independen berturut-turut selama jangka waktu, yang merupakan kerangka kerja yang sangat umum. Saya menyesuaikan distribusi dan melihat (sering secara visual) apakah variansnya dijelaskan dengan baik. Cukup sering, varians sampel jauh lebih tinggi, dalam hal ini saya menggunakan Binomial Negatif. Binomial negatif dapat diartikan sebagai campuran Poisson dengan variabel yang berbeda, yang bahkan lebih umum, jadi ini biasanya sangat cocok untuk sampel.

  2. Jika saya berpikir bahwa data simetris di sekitar rata-rata, yaitu bahwa penyimpangan sama-sama cenderung positif atau negatif, saya mencoba menyesuaikan Gaussian. Saya kemudian memeriksa (lagi secara visual) apakah ada banyak outlier, yaitu titik data yang sangat jauh dari rata-rata. Jika ada, saya menggunakan t Student. Distribusi t Siswa dapat diartikan sebagai campuran Gaussian dengan varian yang berbeda, yang sekali lagi sangat umum.

Dalam contoh-contoh itu, ketika saya mengatakan secara visual, maksud saya saya menggunakan plot QQ

Butir 3, juga layak mendapat beberapa bab buku. Efek menggunakan distribusi bukan yang lain tidak terbatas. Jadi alih-alih membahas semuanya, saya akan melanjutkan dua contoh di atas.

  1. Di masa-masa awal saya, saya tidak tahu bahwa Binomial Negatif dapat memiliki interpretasi yang bermakna sehingga saya menggunakan Poisson sepanjang waktu (karena saya ingin dapat menginterpretasikan parameter dalam istilah manusia). Sangat sering, ketika Anda menggunakan Poisson, Anda cocok dengan mean, tetapi Anda meremehkan varians. Ini berarti bahwa Anda tidak dapat mereproduksi nilai ekstrem dari sampel Anda dan Anda akan mempertimbangkan nilai-nilai seperti outlier (titik data yang tidak memiliki distribusi yang sama dengan titik lainnya) sedangkan sebenarnya tidak.

  2. Lagi di masa-masa awal saya, saya tidak tahu bahwa t Student juga memiliki interpretasi yang bermakna dan saya akan menggunakan Gaussian sepanjang waktu. Hal serupa terjadi. Saya akan cocok dengan mean dan varians dengan baik, tapi saya masih tidak akan menangkap outlier karena hampir semua titik data seharusnya berada dalam 3 standar deviasi dari mean. Hal yang sama terjadi, saya menyimpulkan bahwa beberapa poin "luar biasa", padahal sebenarnya tidak.

gui11aume
sumber
2
Catatan untuk menambah jawaban gui11aume ini: Ada "d, p, q, r" sintaks untuk fungsi-fungsi distribusi terkait dalam R. Sebagai contoh, dnorm, pnorm, qnorm, dan rnormadalah kepadatan, fungsi distribusi kumulatif (CDF), terbalik CDF, dan fungsi generator variate acak untuk distribusi Normal, masing-masing. Lihat tampilan tugas distribusi probabilitas untuk daftar lengkap distribusi yang tersedia.
jthetzel
Yap, terima kasih banyak (+1). Saya mencari daftar seperti itu untuk waktu yang lama. Saya memasukkannya ke dalam jawaban sehingga lebih terlihat.
gui11aume
1
Saya bahkan tidak bisa memberi tahu Anda apa yang ketiga dari distribusi itu. Lebih banyak untuk dipelajari .... +1, tapi jangan lupa sisa pertanyaannya, yang mendasar (tapi mungkin agak terlalu luas): efek apa yang dimiliki pilihan distribusi dalam simulasi? Bagaimana seharusnya seseorang membuat pilihan-pilihan ini?
whuber
@whuber saya menambahkan efek distribusi eksponensial dari keterlambatan fluktuasi antrian. Lihat. buku tentang CP atau antrian.
Mohan Radhakrishnan
Saya telah membaca distribusi Fitting dengan R dan juga menggunakan plot QQ sekali. Estimasi kemungkinan maksimum dimulai dengan ekspresi matematis yang dikenal sebagai fungsi kemungkinan dari data sampel. Secara longgar, kemungkinan sekumpulan data adalah probabilitas untuk memperoleh seperangkat data tertentu yang diberikan dengan model probabilitas yang dipilih. Apakah ini berarti ada cara untuk menghitung bahwa distribusi dapat terjadi lagi? Berapa banyak pengukuran yang diperlukan untuk membuktikan ini?
Mohan Radhakrishnan