Memikirkan probabilitas selalu membuat saya menyadari betapa buruknya saya dalam menghitung ...
Pertimbangkan urutan huruf dasar , masing-masing sama-sama cenderung muncul. Berapakah probabilitas bahwa urutan ini mengandung urutan tertentu dari pasangan basa dengan minat panjang ?
Ada urutan yang berbeda (kemungkinan sama) yang mungkin. Mulailah dengan urutan minat di awal urutan penuh; urutan seperti ini dimungkinkan. Kita dapat memulai urutan minat kami di lokasi yang berbeda. Karenanya, jawaban saya adalah .
Probabilitas ini meningkat dalam , yang masuk akal bagi saya. Tetapi probabilitas ini melebihi 1 ketika . Tapi itu tidak mungkin. Probabilitas harus mendekati 1 dalam batas (menurut saya), tetapi tidak melebihi itu.
Saya berasumsi bahwa saya menghitung dua kali sesuatu. Apa yang saya lewatkan? Terima kasih.
(FYI, bukan pekerjaan rumah, hanya contoh mainan dalam persiapan ujian. Sebuah pertanyaan yang diajukan oleh teman ahli biologi molekuler saya.)
sumber
Jawaban:
Mari kita renungkan versi kecil dari masalah ini dengan . Berapa kemungkinan urutan lima huruf akan berisi target ? Ini mudah: dari semua urutan dimulai dengan string ini, berakhir dengan itu, dan tidak ada urutan yang dimulai dan diakhiri dengan string ini. Karenanya kesempatannya adalah .... A C G T … 4 - 4 4 - 4 2 × 4 - 4n = 5 ... A CG T... 4- 4 4- 4 2 × 4- 4
Di sisi lain, apa peluang ? Sekali lagi, dari urutan dimulai dengan string ini, proporsi yang sama berakhir dengan string ini, dan dari semua urutan melakukan keduanya . Oleh karena itu, dengan Prinsip Inklusi-Pengecualian, jawabannya adalah .4 - 4 4 - 5 2 × 4 - 4 - 4 - 5... A A A A ... 4- 4 4- 5 2 × 4- 4- 4- 5
Secara umum, jawabannya tergantung pada struktur substring. Untuk lebih spesifik, ketika Anda memindai string (dari kiri ke kanan, katakan) untuk , Anda mengabaikan semua karakter sampai Anda melihat awal . Setelah itu, ada tiga kemungkinan: karakter berikutnya adalah kecocokan untuk , yang berikutnya adalah tidak cocok untuk tetapi bukan (jadi Anda kembali dalam status tunggu-untuk-an- ), atau yang berikutnya adalah non-cocok namun itu adalah , menempatkan Anda ke dalam kondisi just-saw-an- . Sebaliknya, pertimbangkan pencarian untuk . Misalkan Anda telah melihat awalanA CG T SEBUAH C C SEBUAH SEBUAH SEBUAH SEBUAH A CTA CG A CTA C . Karakter berikutnya akan cocok jika . Ketika itu adalah non-pertandingan, (i) menempatkan Anda ke dalam menunggu-untuk-an awal negara, (ii) memiliki Anda menonton keluar untuk , dan (iii) berarti Anda telah melihat dan Anda sudah setengah jalan menuju pertandingan (dan mencari kedua ). "Struktur" yang relevan jelas terdiri dari pola substring di target yang cocok dengan awalan target. Itu sebabnya peluang tergantung pada string target.G C SEBUAH SEBUAH C T ... A CT SEBUAH
Diagram FSA yang saya anjurkan dalam jawaban at Time diambil untuk memukul pola kepala dan ekor dalam serangkaian lemparan koin dapat membantu memahami fenomena ini.
sumber
Sebuah perkiraan kasar akan menjadi . Anda mengambil probabilitas bahwa urutan Anda tidak terjadi di lokasi tertentu, taruh pada kekuatan jumlah lokasi (anggapan salah independensi), yang n - r + 1 bukan n - r , dan ini merupakan perkiraan dari tidak terjadi sehingga Anda perlu mengurangi ini dari 1 .1 - ( 1 - 1 / 4r)n - r + 1 n - r + 1 n - r 1
Penghitungan yang tepat akan tergantung pada pola tepat yang Anda cari. lebih mungkin untuk tidak terjadi dari A T C G T .A A A A A A TCG T
sumber
Anda menghitung dua kali urutan yang mencakup beberapa kali target Anda, misalnya di posisi A dan di posisi B! = A. Itu sebabnya probabilitas Anda yang keliru dapat melebihi 1
sumber
Dimungkinkan untuk memperoleh probabilitas pasti dari urutan tertentu dengan menggunakan representasi rantai Markov dari masalah. Rincian cara membangun rantai bergantung pada urutan minat tertentu, tetapi saya akan memberikan beberapa contoh cara melakukan hal ini.
Probabilitas yang tepat melalui rantai Markov: Pertimbangkan urutan hasil yang terpisah dariA,T,C,G mana hasil dalam urutan tersebut dapat dipertukarkan, dan anggaplah kami tertarik pada beberapa substring panjang k . Untuk setiap nilai yang diberikan dari n , biarkan W menjadi hal substring kepentingan terjadi, dan membiarkan Ha menjadi hal terakhir a hasil adalah yang pertama a<k karakter dalam substring bunga (tetapi tidak lebih dari ini) . Kami menggunakan acara ini untuk memberikan partisi k+1 kemungkinan status minat:
Karena urutan hasil diasumsikan dapat ditukar, kami memiliki hasil independen yang tergantung pada probabilitas masing-masingθA+θT+θC+θG=1 . Proses minat Anda dapat direpresentasikan sebagai rantai Markov waktu diskrit yang dimulai pada State 0 pada n=0 dan transisi sesuai dengan matriks probabilitas yang tergantung pada substring tertentu yang diminati. Matriks transisi akan selalu menjadi ( k + 1 ) × ( k + 1 ) matriks yang mewakili probabilitas transisi menggunakan status di atas. Jika substring yang menarik belum tercapai, maka setiap transisi dapat membawa Anda selangkah lebih dekat ke substring atau dapat membuat Anda kembali ke keadaan sebelumnya yang bergantung pada substring tertentu. Setelah substring tercapai, ini adalah kondisi penyerap rantai, mewakili fakta bahwa peristiwa menarik telah terjadi.
Misalnya, jika substring minat adalahA A A A A A maka matriks transisi adalah:
R
sumber