Bagaimana menemukan jarak yang diharapkan antara dua titik yang terdistribusi secara merata?

9

Jika saya menentukan koordinat dan mana( X 2 , Y 2 )(X1,Y1)(X2,Y2)

X1,X2Unif(0,30) and Y1,Y2Unif(0,40).

Bagaimana saya bisa menemukan nilai jarak yang diharapkan dari mereka?

Saya berpikir, karena jarak dihitung oleh akan nilai yang diharapkan jadilah ?(1/30+1/30)2+(1/40+1/40)2(X1X2)2+(Y1Y2)2)(1/30+1/30)2+(1/40+1/40)2

Matematika lengkap
sumber
Kode LaTeX Anda tidak dirender dengan benar. Saya berharap perbaikan saya adalah apa yang Anda maksudkan
Peter Flom
Hampir, tetapi akhirnya membantu saya di sana, terima kasih banyak.
Mathlete
2
Pertanyaan Setara di situs matematika: Jarak Rata-Rata Antara Titik Acak dalam Kotak . Pertanyaan terkait: Probabilitas bahwa titik acak yang seragam dalam persegi panjang memiliki jarak Euclidean kurang dari ambang yang diberikan . (Sayangnya, saya tidak pernah sempat mengambil @whuber atas sarannya di sana. Saya akan mencoba mencari waktu untuk melakukan itu.)
kardinal
1
Terima kasih atas tautan itu, @ cardinal. Meskipun versi matematika tidak menjelaskan jawaban - hanya menyajikannya - itu berisi tautan ke satu derivasi, yang patut ditinjau.
whuber

Jawaban:

2
##problem
x <- runif(1000000,0,30)
y <- runif(1000000,0,40)
Uniform <- as.data.frame(cbind(x,y))
n <- nrow(Uniform)
catch <- rep(NA,n)
for (i in 2:n) {
      catch[i] <-((x[i+1]-x[i])^2 + (y[i+1]-y[i])^2)^.5
}
mean(catch, na.rm=TRUE)
18.35855

Jika saya mengerti benar apa yang Anda cari, mungkin ini bisa membantu. Anda mencoba mencari jarak antara titik acak, nilai X siapa yang dihasilkan dari unif (0,30) dan nilai Y dihasilkan dari unif (0,40). Saya baru saja membuat satu juta RV dari masing-masing distribusi dan kemudian mengikat x dan y untuk membuat titik bagi masing-masing. Kemudian saya menghitung jarak antara titik 2 dan 1 sampai ke jarak antara titik 1.000.000 dan 999.999. Jarak rata-rata adalah 18,35855. Beri tahu saya jika ini bukan yang Anda cari.

Eric Peterson
sumber
Mengambil kebebasan mengedit untuk pemformatan.
curious_cat
2
Anda nyaris - mungkin secara kebetulan. Jawaban yang benar adalah = . Kode Anda memiliki dua masalah: (1) iterasi tidak saling independen; dan (2) untuk mendapatkan ketepatan yang masuk akal, kode harus lebih cepat. Mengapa tidak melakukan simulasi secara langsung, seperti pada . Itu akan memberi Anda sekitar empat angka penting (dalam waktu kurang), karena Anda dapat memeriksa dengan menghitung kesalahan standar . 1108(871+960log(2)+405log(3))18.345919n <- 10^7; distance <- sqrt((runif(n,0,30)-runif(n,0,30))^2 + (runif(n,0,40)-runif(n,0,40))^2)sd(distance) / sqrt(n)
whuber
@whuber: Bisakah Anda jelaskan # 1 Anda? mis. katakan (Kasus-I) Saya menggambar pasangan angka acak dari distribusi yang diberikan dan menghitung perbedaan dan mengambil nilai tengah. Versus (Kasus-II) Saya terus menggambar satu angka pada satu waktu dan terus menghitung perbedaan berjalan sehubungan dengan pengundian nomor terakhir dan kemudian dirata-rata. Apakah rata-rata yang dilaporkan oleh Kasus-I dan Kasus-II akan berbeda secara sistematis?
curious_cat
1
@curious_cat Tidak, rata-rata akan hampir sama: tetapi perhitungan kesalahan standar akan berbeda. Kita membutuhkan perhitungan itu untuk memperkirakan seberapa dekat rata-rata kemungkinan akan mencapai nilai sebenarnya. Alih-alih menghitung perhitungan SE yang lebih rumit, lebih sederhana hanya untuk menghasilkan pasang poin yang sepenuhnya independen satu sama lain, persis seperti yang ditentukan dalam pertanyaan. (Ada begitu banyak cara simulasi bisa salah - saya tahu dari pengalaman! - Bahwa bijaksana untuk membuat simulasi meniru kenyataan sedekat mungkin.)
whuber
@whuber: Terima kasih telah menjelaskan. Jadi, jika Clark menjalankan kodenya lebih lama, dia mungkin mendapatkan lebih banyak tempat desimal, kan?
curious_cat
16

Jelas, dari melihat pertanyaan secara geometris, bahwa jarak yang diharapkan antara dua titik independen, seragam, acak dalam set cembung akan sedikit kurang dari setengah diameternya . (Seharusnya kurang karena itu relatif jarang untuk dua titik berada di daerah ekstrim seperti sudut dan lebih sering terjadi mereka akan dekat pusat, di mana mereka dekat.) Karena diameter persegi panjang ini adalah , dengan ini dengan alasan sendiri kita akan mengantisipasi jawabannya menjadi sedikit kurang dari .5025

Jawaban pasti diperoleh dari definisi ekspektasi sebagai nilai probabilitas tertimbang jarak. Secara umum, perhatikan segi empat sisi dan ; kami akan meningkatkannya ke ukuran yang benar sesudahnya (dengan menetapkan dan mengalikan harapan dengan ). Untuk persegi panjang ini, menggunakan koordinat , densitas probabilitas yang seragam adalah . Jarak rata-rata dalam persegi panjang ini kemudian diberikan oleh1λλ=40/3030(x,y)1λdxdy

0λ010λ01(x1x2)2+(y1y2)21λdx1dy11λdx2dy2.

Menggunakan metode integrasi elementer ini mudah tetapi menyakitkan untuk dilakukan; Saya menggunakan sistem aljabar komputer ( Mathematica ) untuk mendapatkan jawabannya

[2+2λ521+λ2+6λ21+λ22λ41+λ2+5λArcSinh(λ)+5λ4log(1+1+λ2λ)]/(30λ2).

Kehadiran dalam banyak istilah ini tidak mengherankan: itu adalah diameter persegi panjang (jarak maksimum yang dimungkinkan antara dua titik di dalamnya). Munculnya logaritma (yang termasuk arcsinh) juga tidak mengejutkan jika Anda pernah menyelidiki jarak rata-rata dalam angka bidang sederhana: entah bagaimana itu selalu muncul (sedikit petunjuk ini muncul di bagian integral dari fungsi garis potong). Kebetulan, kehadiran dalam penyebut tidak ada hubungannya dengan spesifik masalah yang melibatkan segi empat sisi dan : itu adalah konstanta universal.)1+λ2303040

Dengan dan meningkatkan dengan faktor , ini dievaluasi menjadi .λ=4/3301108(871+960log(2)+405log(3))18.345919


Salah satu cara untuk memahami situasinya lebih dalam adalah memplot jarak rata-rata relatif terhadap diameter untuk berbagai nilai . Untuk nilai ekstrim (mendekati atau lebih besar dari ), persegi panjang pada dasarnya menjadi satu dimensi dan integrasi yang lebih elementer menunjukkan jarak rata-rata harus dikurangi menjadi sepertiga diameter. Juga, karena bentuk persegi panjang dengan dan adalah sama, adalah wajar untuk memplot hasilnya pada skala logaritmik , di mana ia harus simetris tentang (kuadrat). Ini dia: λ01λ1/λλλ=11+λ2λ01λ1/λλλ=1

Merencanakan

Dengan ini kita belajar aturan praktis : jarak rata-rata dalam sebuah persegi panjang adalah antara dan (sekitar) dari diameternya, dengan nilai-nilai yang lebih besar yang terkait dengan persegi empat persegi panjang dan nilai-nilai kecil yang terkait dengan panjang kurus (linier ) persegi panjang. Titik tengah antara ekstrem ini dicapai secara kasar untuk persegi panjang dengan rasio aspek . Dengan mengingat aturan ini, Anda bisa melirik persegi panjang dan memperkirakan jarak rata-rata ke dua angka penting.0,37 3 : 11/30.330.373:1

whuber
sumber
Haruskah itu "diagonal", bukan "diameter"? Maaf jika saya nitpicking.
curious_cat
@curious_cat Secara definisi, diameter satu set titik (dalam ruang metrik apa pun) adalah supremum jarak antara dua titik di dalamnya. Untuk persegi panjang itu (jelas) panjang diagonal.
whuber
Terima kasih! Saya tidak menyadarinya. Saya menggunakan konsep diameter naif.
curious_cat
Sebagai tambahan: Untuk semua persegi panjang area yang diberikan akankah jarak rata-rata diminimalkan untuk sebuah persegi?
curious_cat
2
Dalam semangat ini , saya berharap Anda akan memulai jawaban ini dengan "Ini pesawat ..." (+1)
kardinal