Apa saja kegunaan penting dari pembuatan bilangan acak dalam statistik komputasi?

15

Bagaimana dan mengapa generator angka acak (RNG) penting dalam statistik komputasi?

Saya memahami bahwa keacakan penting ketika memilih sampel untuk banyak uji statistik untuk menghindari bias terhadap hipotesis, tetapi apakah ada area lain dari statistik komputasi di mana generator bilangan acak penting?

Patrick
sumber
1
Apa yang kamu tanyakan? Pertanyaan Anda benar-benar tidak masuk akal.
Carl Witthoft
2
Mungkin lebih baik untuk menanyakan bidang yang tidak penting. Mungkin daftar yang lebih pendek.
John Coleman
2
Pertanyaannya luas tetapi judulnya menarik dan jawaban Matius adalah ikhtisar yang bagus. Saya memilih untuk membuka kembali!
Benoit Sanchez
3
Ini jelas terlalu luas oleh standar SE konvensional, & setara dengan pertanyaan 'daftar besar' yang kemungkinan akan menghasilkan banyak jawaban kecil, yang hampir tidak diuraikan yang sering menggandakan jawaban yang sudah disediakan. Namun, tampaknya ada nilai nyata di sini. Kompromi untuk ini agar CW & dilindungi. Di masa depan, jawaban yang menyebutkan sesuatu tanpa elaborasi & / atau bahwa penggunaan ganda yang telah disebutkan akan segera dihapus & tanpa komentar.
gung - Reinstate Monica

Jawaban:

17

Ada banyak, banyak contoh. Terlalu banyak untuk dicantumkan, dan mungkin terlalu banyak untuk diketahui siapa pun (selain mungkin @whuber, yang seharusnya tidak pernah diremehkan).

Seperti yang Anda sebutkan, dalam percobaan terkontrol kami menghindari bias pengambilan sampel dengan mempartisi subyek secara acak ke dalam kelompok perlakuan dan kontrol.

Dalam bootstraping kami memperkirakan pengambilan sampel berulang dari suatu populasi dengan pengambilan sampel acak dengan penggantian dari sampel tetap. Ini memungkinkan kami memperkirakan varian estimasi kami, antara lain.

Dalam validasi silang, kami memperkirakan kesalahan sampel dari taksiran dengan memecah data secara acak menjadi beberapa irisan dan menyusun pelatihan acak dan set pengujian.

Dalam pengujian permutasi kami menggunakan permutasi acak untuk sampel di bawah hipotesis nol, memungkinkan untuk melakukan tes hipotesis nonparametrik dalam berbagai situasi.

Di mengantongi kami mengontrol varians dari estimasi dengan berulang kali melakukan estimasi pada sampel bootstrap data pelatihan, dan kemudian rata-rata hasil.

Di hutan acak, kami lebih jauh mengontrol varian estimasi dengan juga mengambil sampel secara acak dari prediktor yang tersedia di setiap titik keputusan.

Di simulasi kami meminta model kecocokan untuk secara acak menghasilkan set data baru yang dapat kami bandingkan dengan pelatihan atau pengujian data, membantu memvalidasi kecocokan dan asumsi dalam suatu model.

Di rantai Markov, Monte Carlo, kami mengambil sampel dari distribusi dengan menjelajahi ruang hasil yang mungkin menggunakan rantai Markov (terima kasih kepada @Ben Bolker untuk contoh ini).

Itu hanya aplikasi umum sehari-hari yang langsung terlintas dalam pikiran. Jika saya menggali lebih dalam, saya mungkin bisa menggandakan panjang daftar itu. Keacakan adalah objek studi yang penting, dan alat penting untuk digunakan.

Matthew Drury
sumber
Ini semua benar tetapi tidak mengatasi masalah utama: PRNG dengan segala jenis struktur yang dihasilkan atau prediktabilitas dalam urutan akan menyebabkan simulasi gagal.
Carl Witthoft
3
Salah satu hal yang patut disebutkan adalah biaya komputasi dan memori untuk menghasilkan sejumlah besar angka acak atau pseudorandom. Beberapa aplikasi RNG dalam statistik membutuhkan ratusan hingga jutaan angka acak, tetapi beberapa memerlukan banyak pesanan lebih besar yang dikenakan pada kedua biaya ini.
Alexis
5

Ini semua benar tetapi tidak mengatasi masalah utama: PRNG dengan segala jenis struktur yang dihasilkan atau prediktabilitas dalam urutan akan menyebabkan simulasi gagal. Carl Witthoft 31 Jan pukul 15:51

Jika ini adalah masalah Anda, mungkin judul pertanyaan harus diubah menjadi "Dampak pilihan RNG pada hasil Monte Carlo" atau sesuatu seperti itu. Dalam hal ini, sudah dipertimbangkan pada validasi silang SE , berikut adalah beberapa arahan

  • Jika Anda mempertimbangkan RNG yang dirancang dengan buruk seperti RANDU yang terkenal, mereka jelas akan berdampak negatif terhadap perkiraan Monte Carlo. Untuk menemukan kekurangan dalam RNG, ada bank tolok ukur seperti tes Diehard Marsaglia . (Misalnya Park & ​​Miller (1988) penggunaan generator congruential Lehmer dengan faktor 16807 telah ditemukan kurang , harus diganti dengan 47271 atau 69621. Tentu saja ini telah digantikan oleh generator periode masif seperti Mersenne Twister PRNG .)
  • Sebuah pertanyaan SE pada matematika menyediakan link pada dampak (atau ketiadaan) estimasi dan presisi, jika tidak jawaban yang sangat membantu.
  • Jeff Rosenthal (U Toronto) memiliki makalah di mana ia mempelajari dampak pada RNG pada konvergensi rantai (Monte Carlo) Markov, tetapi saya tidak dapat menemukannya. Saya baru-baru berlari percobaan kecil di blog saya tanpa dampak yang terlihat dari jenis RNG.
    • Selain itu, skema lotere di Ontario menggunakan generasi acak yang dirancang dengan buruk, yang ditemukan oleh seorang ahli statistik, Mohan Srivastava dari Toronto, Kanada, yang memberi tahu Ontario Lottery dan Gaming Corporation tentang masalah ini, daripada menghasilkan banyak keuntungan dari hal ini. jalan keluar.
  • Ini sebuah ilustrasi kasus di mana simulator jaringan klasik dipengaruhi oleh pilihan standar yang buruk (ditautkan dengan Park dan Miller di atas).
  • Ada masalah khusus dengan struktur RNG yang digunakan dalam komputasi paralel . Menggunakan beberapa biji biasanya tidak cukup baik, terutama untuk generator linear kongruensial. Banyak pendekatan dapat ditemukan dalam literatur komputer, termasuk paket generasi nomor acak paralel (SPRNG) yang dapat diukur dari Michael Mascagni (termasuk versi R) dan pembuat dinamis Matsumoto , program C yang memberikan nilai awal untuk aliran independen ketika menggunakan twister Mersenne . Ini juga telah diatasi pada stack overflow SE .
  • Tahun lalu, saya melihat ceramah oleh Paula Whitlock tentang dampak Perpustakaan Ilmiah GNU tentang konvergensi jalan acak dimensi tinggi, tetapi tidak bisa.
  • Untuk mengakhiri dengan catatan ringan, ada juga beberapa literatur tentang perbedaan antara RNG perangkat lunak dan perangkat keras, dengan klaim bahwa paranormal dapat berdampak kemudian !
Xi'an
sumber