Apakah nilai tunggal ini cocok dengan distribusi itu?

10

ini terasa seperti pertanyaan yang sangat naif tetapi saya mengalami kesulitan melihat jawabannya.

Saya memiliki satu set 30 nilai. Secara mandiri saya memperoleh nilai ke-31. Hipotesis nol adalah bahwa nilai 31 adalah bagian dari distribusi yang sama. Alternatifnya berbeda. Saya ingin semacam nilai p atau ukuran kemungkinan.

Beberapa pemikiran yang saya miliki:

  • Ini mirip dengan ingin melakukan uji-t dua sampel - kecuali bahwa untuk sampel kedua saya hanya memiliki nilai tunggal, dan nilai-nilai 30 tidak selalu terdistribusi normal.
  • Jika alih-alih 30 pengukuran saya memiliki 10.000 pengukuran, pangkat pengukuran tunggal dapat memberikan beberapa informasi yang berguna.

Bagaimana saya bisa menghitung kemungkinan atau nilai-p ini?

Terima kasih! Yannick

Yannick Wurm
sumber
4
Anda meminta interval prediksi . Pikiran kedua Anda mengarah ke interval prediksi non-parametrik (yang saya yakin belum pernah disebutkan di situs ini sebelumnya).
whuber
Apa lagi yang bisa Anda ceritakan tentang populasi Anda? Apakah semua nilai positif? Apakah Anda mengharapkannya simetris? Unimodal?
soakley
Terima kasih dan permintaan maaf saya seharusnya memberikan info lebih lanjut. Kami sedang melihat pada interval prediksi. Pada dasarnya kita memiliki panjang prediksi gen fokus. Dan panjang gen yang serupa ditemukan dalam database. Jadi semua angka adalah bilangan bulat positif. Dalam kasus yang mudah, distribusi panjangnya adalah unimodal. Pada kenyataannya mereka sering tidak; pada tahap ini kita dapat mengira bahwa itu adalah mereka. Beberapa plot distribusi ditunjukkan di sini: github.com/monicadragan/gene_prediction/tree/master/…
Yannick Wurm
Saya tidak yakin kami menginginkan "interval prediksi" Kami tidak ingin memprediksi ... dan kami tidak ingin interval ...?
Yannick Wurm
1
Jangan menafsirkan istilah teknis secara berlebihan. Menurut definisi, "interval prediksi" dibangun dari nilai sedemikian rupa sehingga di bawah distribusi gabungan yang diasumsikan dari semua nilai peluang bahwa nilai 31 berada di dalam sama dengan target yang diberikan, seperti 95%. Jika, pada kenyataannya, nilai ke-31 tidak ada dalam diri , Anda dapat menyimpulkan bahwa (i) Anda kurang beruntung (yang hanya memiliki peluang 5% terjadi sebelum Anda mengumpulkan data) atau yang lain (ii) sebenarnya tidak kasus bahwa nilai ke-31 memiliki distribusi yang Anda anggap terjadi: dan itulah yang ingin Anda uji. I3031II
whuber

Jawaban:

7

Dalam kasus unimodal, ketimpangan Vysochanskij-Petunin dapat memberi Anda interval prediksi kasar. Berikut adalah situs wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%808093Petunin_inequality

Menggunakan akan menghasilkan perkiraan interval prediksi 95%.λ=3

Jadi, Anda memperkirakan mean dan standar deviasi populasi Anda dan cukup gunakan mean sampel plus atau minus sebagai interval Anda.x¯3s

Ada beberapa masalah dengan pendekatan ini. Anda tidak benar-benar tahu mean atau standar deviasi; Anda menggunakan taksiran. Dan secara umum Anda tidak akan memiliki distribusi unimodal yang berarti Anda harus menggunakan versi khusus dari ketidaksetaraan Chebyshev. Tetapi setidaknya Anda memiliki titik awal.

Untuk kasus umum, Konijn (The American Statistician, Februari 1987) menyatakan statistik urutan dapat digunakan sebagai interval prediksi. Jadi adalah interval prediksi untuk dengan apa yang Konijn sebut ukuranUkuran didefinisikan sebagai "batas bawah terbesar (berkenaan dengan set distribusi bersama yang diterima) dari probabilitas bahwa interval akan mencakup nilai yang akan diambil " Dengan pendekatan ini, interval prediksi 93,6% adalah[x(i),x(j)]Xjin+1.X[x(1),x(30)].

Dia juga memberikan pendekatan yang dikaitkan dengan Saw, Yang, dan Mo: dengan rincian tentang cakupan yang diberikan dalam artikel.

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],

Misalnya dengan menggunakan akan memberikan cakupan melebihi 90%.λ = 3.2n=30,λ=3.2

soakley
sumber
Ini tampaknya merupakan aplikasi ketidaksetaraan yang keliru: mengasumsikan mean dan varians diketahui , di mana varians hanya dapat diperkirakan dari data dalam konteks ini. Perbedaannya bisa sangat besar, terutama dengan dataset kecil. Dalam studi simulasi saya tentang proposal serupa dengan ketidaksetaraan Chebyshev, saya menemukan kinerja yang sangat buruk. Secara intuitif, ini mirip dengan wawasan Siswa bahwa distribusi t harus digunakan daripada distribusi Normal untuk membangun CI; karena PI lebih jauh "di luar sana" di bagian ekor, perbedaannya diperbesar.
whuber
2
2/316.456.45
1

Beberapa pemikiran yang saya miliki:

Ini mirip dengan ingin melakukan uji-t dua sampel - kecuali bahwa untuk sampel kedua saya hanya memiliki nilai tunggal, dan nilai-nilai 30 tidak selalu terdistribusi normal.

Benar. Idenya agak seperti uji-t dengan nilai tunggal. Karena distribusinya tidak diketahui, dan normalitas dengan hanya 30 titik data mungkin agak sulit untuk ditelan, ini memerlukan semacam tes non-parametrik.

Jika alih-alih 30 pengukuran saya memiliki 10.000 pengukuran, pangkat pengukuran tunggal dapat memberikan beberapa informasi yang berguna.

Bahkan dengan 30 pengukuran peringkat dapat informatif.

Seperti yang ditunjukkan @whuber, Anda menginginkan semacam interval prediksi. Untuk kasus non-parametrik, yang Anda tanyakan, pada dasarnya, adalah sebagai berikut: berapa probabilitas titik data yang diberikan akan secara kebetulan peringkat yang kami amati untuk pengukuran ke-31 Anda?

Ini dapat diatasi melalui tes permutasi sederhana. Berikut adalah contoh dengan 15 nilai dan novel (pengamatan ke-16) yang sebenarnya lebih besar dari yang sebelumnya:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Kami melakukan permutasi N , di mana urutan elemen dalam daftar dikocok, lalu mengajukan pertanyaan: berapakah peringkat untuk nilai elemen pertama dalam daftar (dikocok)?

Performing N = 1.000 permutasi memberi kita 608 kasus di mana peringkat elemen pertama dalam daftar sama atau lebih baik ke peringkat nilai baru (sebenarnya sama, karena nilai baru adalah yang terbaik). Menjalankan simulasi lagi untuk 1.000 permutasi, kami mendapatkan 658 kasus seperti itu, kemudian 663 ...

Jika kita melakukan N = 1.000.000 permutasi, kita memperoleh 62825 kasus di mana peringkat elemen pertama dalam daftar sama atau lebih baik ke peringkat nilai baru (simulasi lebih lanjut memberikan 62871 kasus, kemudian 62840 ...). Jika mengambil rasio antara kasus di mana kondisi terpenuhi dan jumlah permutasi, kita mendapatkan angka seperti 0,062825, 0,062871, 0,062871, ...

Anda dapat melihat nilai-nilai ini konvergen menuju 1/16 = 0,0625 (6,25%), yang sebagai catatan @whuber, adalah probabilitas bahwa nilai yang diberikan (dari 16) yang diambil secara acak memiliki peringkat terbaik di antara mereka.

Untuk dataset baru, di mana nilai baru adalah nilai terbaik kedua (yaitu peringkat 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

kami mendapatkan (untuk N = 1.000.000 permutasi): 125235, 124883 ... kasus yang menguntungkan yang, sekali lagi, mendekati probabilitas bahwa nilai yang diberikan (dari 16) yang diambil secara acak memiliki peringkat terbaik kedua di antara mereka: 2/16 = 0,125 (12,5%).

paling sederhana
sumber