Mekanik di balik penyimpangan dari distribusi acak

8

Sistem yang kami kerjakan bersifat biologis, lebih khusus lagi distribusi peristiwa kerusakan DNA terprogram di seluruh kromosom. Ini dapat dianggap sebagai array 1D (kromosom) di mana titik dapat dipilih (situs kerusakan yang disengaja). Kami telah memetakan posisi peristiwa-peristiwa ini secara eksperimental dan pada awalnya bertanya apakah mereka cocok dengan distribusi acak - yaitu, kerusakan dapat terjadi pada titik mana pun di sepanjang kromosom dengan peluang yang sama dan setiap situs kerusakan yang diberikan tidak tergantung satu sama lain. Dengan menghasilkan distribusi acak pada MATLAB (randi), ini ternyata tidak menjadi masalah.

Dengan menganalisis jarak antar titik (IPD) dari data nyata dan model, data nyata terlihat menyimpang dari distribusi acak hanya di bawah ukuran IPD tertentu, sebelum bergabung kembali dengan distribusi acak di atasnya yaitu ada lebih sedikit IPD lebih pendek dari yang diharapkan secara kebetulan dalam data nyata.

masukkan deskripsi gambar di sini

Contoh hasil IPD:

masukkan deskripsi gambar di sini

Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)

IPD diplot di sini pada sumbu Y log dan hanya dalam urutan yang meningkat seolah-olah itu adalah histogram. Seperti yang Anda lihat di bawah ukuran IPD tertentu (sumbu Y), garis biru menyimpang dari garis merah.

Hipotesis yang kami uji (yang memiliki dasar biologis yang kuat) adalah bahwa posisi satu peristiwa tergantung pada yang sudah terbentuk. Secara khusus, segera setelah sebuah situs dipilih, ia akan memanggil zona represi di sekitarnya, membuat wilayah sekitarnya lebih kecil kemungkinannya untuk dipilih sebagai situs berikutnya. Ini secara efektif memisahkan peristiwa dan menjelaskan tidak adanya IPD yang lebih pendek. Zona ini secara bertahap mengurangi intensitas semakin jauh Anda menjauh dari titik yang dipilih - menjelaskan kembalinya kemerdekaan di atas jarak IPD tertentu.

masukkan deskripsi gambar di sini

Pertanyaan : Apakah ada metode matematika yang dengannya kita bisa mendapatkan bentuk zona ini dari dataset acak dan nyata saja? Misalnya, dengan menghitung kekuatannya (kemampuan untuk menyimpang dari keacakan) di setiap titik sampai efeknya tidak lagi terlihat?

Bentuk dan skala segitiga pada diagram di atas adalah hal utama yang saya coba peroleh (tidak harus segitiga).

Kami memiliki model kedua yang mensimulasikan hipotesis ini - dan yang memberikan hasil yang menjanjikan namun kami membutuhkan panduan tentang bentuk, skala, dll. Dari zona represi, jika tidak, ini lebih ke percobaan dan kesalahan dan beberapa jendela + parameter yang berbeda dapat cocok.


Saya telah melihat sesuatu yang serupa dilakukan sebelumnya dengan memasukkan IPD ke dalam histogram, menyesuaikan fungsi probabilitas gamma dan kemudian mengonversinya menjadi fungsi bahaya, tetapi saya bukan ahli matematika dan saya tidak tahu apakah ini metode yang benar atau bagaimana cara melakukannya Itu.

Saya sebagian besar bekerja di MATLAB jadi jika seseorang dapat memberikan bantuan dalam bentuk MATLAB, itu akan bagus - tetapi bantuan apa pun akan sangat dihargai.

Data yang digunakan dalam plot:

Real IPDs:

7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

Modelled IPDs:

6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091
AnnaSchumann
sumber
Metode yang Anda sarankan adalah cara standar untuk menyesuaikan distribusi. Tidak jelas bagi saya apakah waktu itu penting bagi Anda atau tidak, meskipun sepertinya begitu, dalam hal ini Anda mungkin berurusan dengan proses yang tidak homogen. Ini akan lebih sulit.
mandata
Saya tidak yakin saya sepenuhnya mengerti apa yang Anda minta tentang waktu. Bisakah Anda menguraikan?
AnnaSchumann
"Zona ini secara berangsur-angsur menghilang menjelaskan kembali ke kemerdekaan di atas jarak IPD tertentu." Apakah kamu peduli tentang ini?
mandata
Bisakah Anda menjelaskan sedikit fenomena Anda? Apa yang Anda ukur? Juga, tampak bahwa dengan "acak" yang Anda maksud adalah distribusi tertentu yang ada dalam pikiran Anda. Variabel bisa acak tetapi dari distribusi yang berbeda, yang dapat menghasilkan ekor lebih tipis dari yang Anda harapkan.
Aksakal
@mandata Permintaan maaf saya - ini kata-kata buruk. Saya telah memperbaruinya melalui edit. Maksud saya, intensitas zona secara bertahap mengurangi semakin jauh Anda pergi dari titik yang dipilih - bukan menghilang dari waktu ke waktu.
AnnaSchumann

Jawaban:

3

Masalahnya adalah bahwa Anda mengasumsikan distribusi acak tertentu IPD dan itu tidak sesuai dengan distribusi empiris. Jadi, rumusan pertanyaan Anda agak membingungkan mengingat penjelasan yang Anda berikan sejauh ini. "Penyimpangan" bukan dari keacakan, tetapi dari distribusi empiris dari yang diasumsikan teoretis.

Anda menghasilkan lokasi xiU(0,1000), di mana 0 dan 1000 adalah batas. Oleh karena itu, IPD adalahΔxi=|xixi1|.

Kami dapat menemukan probabilitas tanpa syarat dari IPD kecil

P(Δxi)<ε
untuk yang kecil ε>0 sebagai berikut:

P(Δxi)<ε=ε500ε21,000,000

Ini adalah distribusi yang aneh. Inilah fungsi kumulatif dan kepadatannya:masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Sumbu x adalah IPD, dan sumbu y adalah fungsi probabilitas kumulatif (kiri) dan kepadatan (kanan).

Seperti yang Anda lihat model pilihan Anda (yaitu fungsi randi), menyiratkan bahwa probabilitas jarak kecil cukup tinggi, jauh lebih tinggi daripada IPD besar. Fenomena biologis Anda mungkin tidak cocok dengan model ini. Anda harus mencoba beberapa model lain.

Aksakal
sumber
Kami awalnya menguji untuk melihat apakah distribusi yang ditentukan secara eksperimen cocok dengan distribusi acak. Mereka tidak - dan kita tahu ini. Kami sekarang mencoba untuk merumuskan model baru menggunakan hipotesis yang dinyatakan dalam OP (yang memiliki dasar biologis spesifik untuk itu). Masalah utama yang kita miliki adalah bahwa beberapa kombinasi bentuk / skala untuk zona represi sesuai dengan data - dan kita perlu tahu mana yang benar, maka saya bertanya apakah mungkin untuk mendapatkan bentuk / skala dari dataset saja.
AnnaSchumann
@AnnaSchumann, cari distribusi yang memiliki kepadatan lebih rendah untuk ekor kiri daripada distribusi seragam yang diinduksi. Misalnya, jika Anda melihat ada mode dalam distribusi IPD, maka Anda bisa mulai dengan Poisson, Neg Binomial, Lognormal atau bahkan normal hanya untuk melihat apakah kecocokannya menjadi lebih baik.
Aksakal
Terima kasih! Saya akan memeriksanya sekarang. Apa label sumbu pada grafik di jawaban Anda di atas? Saya tidak yakin saya mengerti mereka sepenuhnya.
AnnaSchumann
@AnnaSchumann, perbarui jawabannya
Aksakal
Bukankah probabilitas ukuran IPD tertentu tergantung pada berapa banyak angka yang dipilih oleh randi di setiap iterasi? Dalam sistem kami, kami biasanya memiliki batas yang cukup besar tetapi mungkin hanya akan memilih 3-5 situs acara. Apakah ada cara untuk memodelkan distribusi probabilitas untuk jumlah situs yang berbeda yang dipilih?
AnnaSchumann