Saya sedang mengerjakan tugas Perencanaan Kapasitas dan saya telah membaca beberapa buku. Ini khusus tentang distribusi. Saya menggunakan R.
- Apa pendekatan yang direkomendasikan untuk mengidentifikasi apa distribusi data saya? Apakah ada metode statistik untuk mengidentifikasinya?
Saya punya diagram ini.
Apa saja pendekatan simulasi yang tersedia menggunakan R? Di sini saya ingin menghasilkan data untuk distribusi tertentu seperti eksponensial. Apakah r-java pendekatan yang tepat jika saya ingin mengintegrasikannya dengan Java?
Apakah ada cara untuk memprediksi distribusi apa efeknya (penggunaan CPU dll) akan miliki ketika saya menyalurkan data untuk distribusi tertentu? Apa efek berbeda dari mengirim distribusi data tertentu?
Silakan pertimbangkan ini sebagai pertanyaan pemula. Apakah ada buku atau bahan yang berhubungan dengan jenis simulasi ini?
Catatan
Diagram ini dari bagian akhir makalah http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .
Kebaikan teknik cocok saya temui
Penilaian good-of-fit
- Chi-kuadrat
- Kolmogorov-Smirnov,
- Statistik kepadatan Anderson-Darling, plot cdf, PP, dan QQ
Saya tidak yakin apa interpretasi atau langkah selanjutnya seharusnya jika saya menemukan bahwa distribusi saya normal atau eksponensial, dll. Apa yang memungkinkan saya lakukan? Ramalan? Semoga pertanyaan ini jelas.
Penundaan eksponensial akan menyebabkan fluktuasi antrian sesuai buku Perencanaan Kapasitas saya oleh Neil Gunther. Jadi saya tahu satu poin.
sumber
Jawaban:
Saya akan menjawab poin Anda tentang simulasi dengan R karena ini adalah satu-satunya yang saya kenal. R memiliki banyak distribusi bawaan yang dapat Anda tiru. Logika penamaan adalah untuk mensimulasikan distribusi yang disebut
dis
namardis
.Di bawah ini adalah yang paling sering saya gunakan
Anda dapat menemukan beberapa pelengkap di Fitting distribusi dengan R .
Tambahan: terima kasih kepada @jthetzel karena menyediakan tautan dengan daftar distribusi yang komprehensif dan paket-paket milik mereka.
Tapi tunggu, masih ada lagi: OK, mengikuti komentar @ whuber saya akan mencoba untuk membahas poin lainnya. Mengenai poin 1, saya tidak pernah menggunakan pendekatan good-of-fit. Sebaliknya saya selalu berpikir tentang asal usul sinyal, seperti apa yang menyebabkan fenomena, apakah ada beberapa simetri alami dalam apa yang menghasilkannya, dll. Anda perlu beberapa bab buku untuk mengatasinya, jadi saya hanya akan memberikan dua contoh.
Jika data dihitung dan tidak ada batas atas, saya coba Poisson. Variabel poisson dapat diartikan sebagai jumlah independen berturut-turut selama jangka waktu, yang merupakan kerangka kerja yang sangat umum. Saya menyesuaikan distribusi dan melihat (sering secara visual) apakah variansnya dijelaskan dengan baik. Cukup sering, varians sampel jauh lebih tinggi, dalam hal ini saya menggunakan Binomial Negatif. Binomial negatif dapat diartikan sebagai campuran Poisson dengan variabel yang berbeda, yang bahkan lebih umum, jadi ini biasanya sangat cocok untuk sampel.
Jika saya berpikir bahwa data simetris di sekitar rata-rata, yaitu bahwa penyimpangan sama-sama cenderung positif atau negatif, saya mencoba menyesuaikan Gaussian. Saya kemudian memeriksa (lagi secara visual) apakah ada banyak outlier, yaitu titik data yang sangat jauh dari rata-rata. Jika ada, saya menggunakan t Student. Distribusi t Siswa dapat diartikan sebagai campuran Gaussian dengan varian yang berbeda, yang sekali lagi sangat umum.
Dalam contoh-contoh itu, ketika saya mengatakan secara visual, maksud saya saya menggunakan plot QQ
Butir 3, juga layak mendapat beberapa bab buku. Efek menggunakan distribusi bukan yang lain tidak terbatas. Jadi alih-alih membahas semuanya, saya akan melanjutkan dua contoh di atas.
Di masa-masa awal saya, saya tidak tahu bahwa Binomial Negatif dapat memiliki interpretasi yang bermakna sehingga saya menggunakan Poisson sepanjang waktu (karena saya ingin dapat menginterpretasikan parameter dalam istilah manusia). Sangat sering, ketika Anda menggunakan Poisson, Anda cocok dengan mean, tetapi Anda meremehkan varians. Ini berarti bahwa Anda tidak dapat mereproduksi nilai ekstrem dari sampel Anda dan Anda akan mempertimbangkan nilai-nilai seperti outlier (titik data yang tidak memiliki distribusi yang sama dengan titik lainnya) sedangkan sebenarnya tidak.
Lagi di masa-masa awal saya, saya tidak tahu bahwa t Student juga memiliki interpretasi yang bermakna dan saya akan menggunakan Gaussian sepanjang waktu. Hal serupa terjadi. Saya akan cocok dengan mean dan varians dengan baik, tapi saya masih tidak akan menangkap outlier karena hampir semua titik data seharusnya berada dalam 3 standar deviasi dari mean. Hal yang sama terjadi, saya menyimpulkan bahwa beberapa poin "luar biasa", padahal sebenarnya tidak.
sumber
dnorm
,pnorm
,qnorm
, danrnorm
adalah kepadatan, fungsi distribusi kumulatif (CDF), terbalik CDF, dan fungsi generator variate acak untuk distribusi Normal, masing-masing. Lihat tampilan tugas distribusi probabilitas untuk daftar lengkap distribusi yang tersedia.