Beberapa pertanyaan tentang keacakan statistik

15

Dari randoness statistik Wikipedia :

Keacakan global dan keacakan lokal berbeda. Kebanyakan konsepsi filosofis tentang keacakan bersifat global — karena mereka didasarkan pada gagasan bahwa "dalam jangka panjang" suatu urutan tampak benar-benar acak, bahkan jika sub-urutan tertentu tidak akan terlihat acak. Dalam urutan acak "benar-benar" dari angka-angka yang cukup panjang, misalnya, kemungkinan akan ada urutan panjang yang tidak lain kecuali nol, meskipun secara keseluruhan urutannya mungkin acak. Keacakan lokal mengacu pada gagasan bahwa mungkin ada panjang urutan minimum di mana distribusi acak didekati.Rentang panjang dari angka yang sama, bahkan yang dihasilkan oleh proses acak yang "benar-benar", akan mengurangi "keacakan lokal" sampel (itu mungkin hanya acak secara lokal untuk urutan 10.000 digit; mengambil urutan kurang dari 1.000 mungkin tidak tampak acak) sama sekali, misalnya).

Urutan yang menunjukkan suatu pola tidak terbukti tidak secara statistik acak. Menurut prinsip-prinsip teori Ramsey, objek yang cukup besar harus mengandung substruktur tertentu ("gangguan total tidak mungkin").

Saya tidak begitu mengerti arti dari dua kalimat dalam huruf tebal.

  1. Apakah kalimat pertama berarti bahwa sesuatu membuat urutan lokal acak lebih panjang, dan bukan acak lokal pada panjang lebih pendek?

    Bagaimana cara kerja contoh di dalam tanda kurung?

  2. Apakah kalimat kedua berarti bahwa urutan yang menunjukkan suatu pola tidak dapat dibuktikan tidak acak secara statistik? Mengapa?

Terima kasih

StackExchange untuk Semua
sumber
1
Pertanyaan bagus. Saya menemukan teks ini agak membingungkan saya sendiri. Saya akan berpikir bahwa apakah urutan itu acak atau tidak ada hubungannya dengan bagaimana ia dihasilkan; bukan apa hasilnya. Saya menduga ada masalah linguistik di sini - bagi saya acak berarti bagaimana hal itu dihasilkan; untuk akal sehat (dan mungkin para filsuf yang berpikiran kurang jernih?) apakah ini tentang sesuatu yang tampak tidak teratur?
Peter Ellis
3
@ Peter, Anda mungkin mengalami kesulitan bahkan mendefinisikan keacakan jika Anda bisa merujuk hanya ke mekanisme generasi. Pada akhirnya, karena semua kegunaan urutan acak terletak pada angka-angka yang dikandungnya - dan bukan pada bagaimana angka-angka itu diproduksi - harus ada cara untuk mendefinisikan dan menguji keacakan murni dalam hal urutan, bukan begitu?
Whuber
1
Tentu saja saya setuju Anda dapat menguji keacakan dari hasilnya - untuk masuk akal keacakan, tanpa bercita-cita untuk membuktikannya. Saya mungkin perlu melakukan lebih banyak membaca dan berpikir tentang tantangan filosofis dari definisi yang didasarkan pada generasi.
Peter Ellis
Saya pikir keacakan hanyalah sinonim untuk tidak diketahui. Saya juga menemukan kalimat ini aneh
probabilityislogic
2
Dilbert
Henry

Jawaban:

15

Konsep dapat diilustrasikan dengan rapi oleh beberapa kode yang dapat dieksekusi. Kita mulai Rdengan menggunakan generator angka acak pseudo yang baik untuk membuat urutan 10.000 nol dan yang:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

Ini melewati beberapa tes angka acak dasar. Misalnya, t-test untuk membandingkan rata-rata untuk memiliki p-nilai 40,09 %, yang memungkinkan kita untuk menerima hipotesis bahwa nol dan yang sama-sama mungkin.1/240.09

Dari angka-angka ini kami melanjutkan untuk mengekstraksi nilai berturut-turut mulai dari nilai 5081:1000

x0 <- x[1:1000 + 5080]

Jika ini terlihat acak, mereka juga harus lulus tes angka acak yang sama. Misalnya, mari kita menguji apakah rata-rata mereka adalah 1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

Rendahnya p-value (kurang dari 1%) sangat menunjukkan rata-rata secara signifikan lebih besar dari . Memang, jumlah kumulatif dari urutan ini memiliki tren kenaikan yang kuat:1/2

> plot(cumsum(x0-1/2))

Jalan acak?

Itu bukan perilaku acak!

Membandingkan urutan asli (diplot sebagai jumlah kumulatif) ke bagian selanjutnya ini mengungkapkan apa yang terjadi:

Berjalan acak

9000


Seperti yang ditunjukkan oleh analisis sederhana ini, tidak ada tes yang dapat "membuktikan" bahwa suatu urutan tampak acak. Yang bisa kita lakukan adalah menguji apakah urutan cukup menyimpang dari perilaku yang diharapkan dari urutan acak untuk memberikan bukti bahwa mereka tidak acak. Ini adalah cara kerja baterai angka acak : mereka mencari pola yang sangat tidak mungkin muncul dalam urutan angka acak. Setiap sekali dalam waktu yang lama mereka akan menyebabkan kita menyimpulkan bahwa urutan angka yang benar-benar acak tidak tampak acak: kita akan menolaknya dengan mencoba sesuatu yang lain.

Dalam jangka panjang, meskipun - sama seperti kita semua mati - setiap generator angka acak akan menghasilkan setiap urutan 1000 digit, dan itu akan melakukannya berkali-kali tanpa batas. Apa yang menyelamatkan kita dari kesulitan logis adalah bahwa kita harus menunggu waktu yang sangat lama untuk terjadinya penyimpangan yang nyata.

whuber
sumber
Terima kasih! Pertanyaan terkait: ketika menguji keacakan angka acak semu yang dihasilkan oleh beberapa metode, apakah keacakan berarti distribusi yang seragam? Dengan kata lain, apakah pengujian keacakan hanya untuk menguji distribusi yang seragam? Saya menanyakan hal ini karena distribusi yang lebih bias tampaknya kurang acak bagi saya secara intuitif.
StackExchange for All
@Tim: tidak, ada banyak tes umum untuk keacakan Gaussian, dan harus memungkinkan untuk membuat tes untuk distribusi apa pun.
naught101
1
[0,1)
2
Saya hampir dapat "melihat" di bagian atas jawaban dan mengatakan "Whuber" :) Bagus sekali!
PhD
2

Kutipan ini menggunakan istilah "keacakan lokal" dan "keacakan global" untuk membedakan antara apa yang dapat terjadi dengan jumlah sampel terbatas dari variabel acak, dan distribusi probabilitas atau harapan dari variabel acak.

xi{0,1}θθlimn1ni=1nxi=θ

[0,1][a,b]0a<b1θ

Tidak ada yang baru di sini.

n

Jadi, saya tidak akan membakar terlalu banyak sel otak untuk memikirkan kutipan ini. Secara matematis tidak begitu tepat dan sebenarnya menyesatkan tentang sifat keacakan.

Edit berdasarkan komentar: @kjetilbhalvorsen +1 ke komentar Anda untuk pengetahuan sejarah. Namun, saya masih berpikir nilai dari ketentuan ini terbatas dan menyesatkan. Tabel yang Anda gambarkan tampaknya membuat implikasi menyesatkan bahwa sampel kecil yang memiliki, misalnya, sampel jauh dari nilai yang diharapkan sebenarnya atau mungkin urutan panjang yang mustahil tapi pasti mungkin berulang 0's (dalam contoh Bernoulli saya), entah bagaimana menunjukkan kurang keacakan (dengan mengatakan mereka tidak menunjukkan "keacakan lokal" palsu) ini. Saya tidak bisa memikirkan hal lain yang lebih menyesatkan untuk ahli statistik pemula!

Chris A.
sumber
Meskipun "keacakan global" muncul keanehan, "keacakan lokal" memiliki setidaknya 20 tahun sejarah. Lihat isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf , misalnya.
whuber
nn
2
Saya ingat kadang-kadang saya membaca ini: Pada saat orang menerbitkan buku dengan tabel "angka acak" yang akan digunakan untuk simulasi, eksperimen, dll., Beberapa di antaranya telah menandai bagian-bagian tabel yang sesuai untuk digunakan dalam simulasi kecil (menunjukkan "lokal" keacakan ") dan bagian-bagian lain yang hanya boleh digunakan untuk simulasi yang lebih besar (menunjukkan" keacakan global ") Jadi konsep-konsep tampaknya menunjuk pada sesuatu yang berharga!
kjetil b halvorsen
1
Maaf, saya tidak ingat di mana saya membaca ini. Tapi itu hampir jelas: terlepas dari masalah filosofis dalam mendefinisikan keacakan, Jika Anda memiliki simulasi yang sangat kecil di mana Anda membutuhkan 1000 angka acak, dan generator acak berkualitas tinggi Anda memberi Anda 1000 nol, ¿Apa yang Anda lakukan? Terlepas dari kenyataan bahwa kejadian semacam itu mungkin dan memang perlu dalam urutan "benar-benar acak", simulasi Anda hancur!
kjetil b halvorsen
1
Terima kasih teman-teman, saya mungkin terlalu keras dalam penghukuman saya. Saya akan sedikit mengubah bahasa ini.
Chris A.
-1

Saya pikir penulis posting Wikipedia salah mengartikan keacakan. Ya, mungkin ada peregangan yang tampaknya tidak acak, tetapi jika proses yang menciptakan urutan tersebut benar-benar acak, maka harus menjadi output. Jika urutan tertentu nampaknya tidak acak, itu adalah persepsi yang salah dari pembaca (yaitu manusia dirancang untuk menemukan pola). Kemampuan kita untuk melihat Biduk, dan Orion, dll di langit malam bukanlah bukti bahwa pola bintang adalah nonrandom. Saya setuju bahwa keacakan sering kali muncul nonrandom. Jika suatu proses menghasilkan pola nonrandom untuk urutan pendek, itu bukan proses acak.

Saya tidak berpikir bahwa prosesnya berubah pada ukuran sampel yang berbeda. Anda meningkatkan ukuran sampel, Anda meningkatkan probabilitas bahwa kami melihat urutan acak yang tampak bagi kami adalah nonrandom. Jika ada kemungkinan 10% bahwa kita akan melihat pola dalam 20 pengamatan acak, meningkatkan jumlah pengamatan menjadi 10.000 akan meningkatkan kemungkinan bahwa kita akan melihat ketidakberacakan, di suatu tempat.

P auritus
sumber
2
"Jika suatu proses menghasilkan pola yang benar-benar nonrandom untuk urutan pendek, itu bukan proses acak" adalah, saya khawatir, sepenuhnya salah. Sebagai contoh, dalam 100 flips dari koin yang adil, kita akan mengharapkan untuk mengamati enam kepala atau enam ekor berturut-turut - dan itu adalah "pola yang benar-benar nonrandom untuk [a] urutan pendek" oleh hampir semua orang arti "acak." " Saya menduga Anda bermaksud menulis sesuatu yang perlu lebih hati-hati memenuhi syarat, seperti menerapkan "semua" sebelum "urutan pendek."
whuber
Betulkah? Saya akan berpikir bahwa, karena seseorang mengharapkan untuk melihat untaian kepala ekor dari generator bilangan acak, bahwa ketika kita melihatnya, kita seharusnya tidak terkejut. Mengapa menganggapnya sebagai nonrandom? Jika seseorang memiliki generator angka yang melakukan 100 flips, dan itu sengaja menghindari 4 atau lebih kepala atau ekor berturut-turut, itu akan terlihat lebih acak daripada proses yang benar-benar acak, tetapi sebenarnya akan nonrandom. Pandangan naif tentang keacakan adalah tidak adanya semua pola - tetapi itu adalah nonrandom.
P auritus
Komentar Anda benar, tetapi penjelasan dalam jawaban Anda tidak jelas dan bahkan bertentangan tentang hal ini. Pertimbangkan untuk menjelaskan dengan lebih tepat apa yang Anda maksud dengan membuat "pola yang benar-benar nonrandom untuk urutan pendek," misalnya, atau apa artinya "melihat nonrandomness."
whuber
Saya tidak melihat kontradiksi. Anda tampaknya berpikir bahwa generator acak membuat pola nonrandom. Itulah kontradiksinya. Anda berpendapat bahwa proses yang benar-benar acak akan menghasilkan pengamatan non-acak. Apa yang Anda gambarkan adalah sesuatu yang disebut "ilusi pengelompokan", yang merupakan kecenderungan untuk secara keliru memahami kelompok dari distribusi acak. Yang saya katakan adalah bahwa jika suatu proses menciptakan pengamatan non-acak, maka itu tidak acak. Anda berpendapat bahwa Anda mengharapkan proses acak untuk membuat rangkaian observasi nonrandom, namun Anda menyebutnya nonrandom. Contoh klasik dari Apophenia.
P auritus
1
Sulit untuk melakukan percakapan dengan lawan bicara yang salah menyatakan posisi seseorang, jadi saya akan mundur dari yang ini. Maaf.
whuber