ini terasa seperti pertanyaan yang sangat naif tetapi saya mengalami kesulitan melihat jawabannya.
Saya memiliki satu set 30 nilai. Secara mandiri saya memperoleh nilai ke-31. Hipotesis nol adalah bahwa nilai 31 adalah bagian dari distribusi yang sama. Alternatifnya berbeda. Saya ingin semacam nilai p atau ukuran kemungkinan.
Beberapa pemikiran yang saya miliki:
- Ini mirip dengan ingin melakukan uji-t dua sampel - kecuali bahwa untuk sampel kedua saya hanya memiliki nilai tunggal, dan nilai-nilai 30 tidak selalu terdistribusi normal.
- Jika alih-alih 30 pengukuran saya memiliki 10.000 pengukuran, pangkat pengukuran tunggal dapat memberikan beberapa informasi yang berguna.
Bagaimana saya bisa menghitung kemungkinan atau nilai-p ini?
Terima kasih! Yannick
hypothesis-testing
bayesian
t-test
Yannick Wurm
sumber
sumber
Jawaban:
Dalam kasus unimodal, ketimpangan Vysochanskij-Petunin dapat memberi Anda interval prediksi kasar. Berikut adalah situs wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%808093Petunin_inequality
Menggunakan akan menghasilkan perkiraan interval prediksi 95%.λ=3
Jadi, Anda memperkirakan mean dan standar deviasi populasi Anda dan cukup gunakan mean sampel plus atau minus sebagai interval Anda.x¯ 3s
Ada beberapa masalah dengan pendekatan ini. Anda tidak benar-benar tahu mean atau standar deviasi; Anda menggunakan taksiran. Dan secara umum Anda tidak akan memiliki distribusi unimodal yang berarti Anda harus menggunakan versi khusus dari ketidaksetaraan Chebyshev. Tetapi setidaknya Anda memiliki titik awal.
Untuk kasus umum, Konijn (The American Statistician, Februari 1987) menyatakan statistik urutan dapat digunakan sebagai interval prediksi. Jadi adalah interval prediksi untuk dengan apa yang Konijn sebut ukuranUkuran didefinisikan sebagai "batas bawah terbesar (berkenaan dengan set distribusi bersama yang diterima) dari probabilitas bahwa interval akan mencakup nilai yang akan diambil " Dengan pendekatan ini, interval prediksi 93,6% adalah[x(i),x(j)] X j−in+1. X [x(1),x(30)].
Dia juga memberikan pendekatan yang dikaitkan dengan Saw, Yang, dan Mo: dengan rincian tentang cakupan yang diberikan dalam artikel.
Misalnya dengan menggunakan akan memberikan cakupan melebihi 90%.λ = 3.2n=30, λ=3.2
sumber
Benar. Idenya agak seperti uji-t dengan nilai tunggal. Karena distribusinya tidak diketahui, dan normalitas dengan hanya 30 titik data mungkin agak sulit untuk ditelan, ini memerlukan semacam tes non-parametrik.
Bahkan dengan 30 pengukuran peringkat dapat informatif.
Seperti yang ditunjukkan @whuber, Anda menginginkan semacam interval prediksi. Untuk kasus non-parametrik, yang Anda tanyakan, pada dasarnya, adalah sebagai berikut: berapa probabilitas titik data yang diberikan akan secara kebetulan peringkat yang kami amati untuk pengukuran ke-31 Anda?
Ini dapat diatasi melalui tes permutasi sederhana. Berikut adalah contoh dengan 15 nilai dan novel (pengamatan ke-16) yang sebenarnya lebih besar dari yang sebelumnya:
Kami melakukan permutasi N , di mana urutan elemen dalam daftar dikocok, lalu mengajukan pertanyaan: berapakah peringkat untuk nilai elemen pertama dalam daftar (dikocok)?
Performing N = 1.000 permutasi memberi kita 608 kasus di mana peringkat elemen pertama dalam daftar sama atau lebih baik ke peringkat nilai baru (sebenarnya sama, karena nilai baru adalah yang terbaik). Menjalankan simulasi lagi untuk 1.000 permutasi, kami mendapatkan 658 kasus seperti itu, kemudian 663 ...
Jika kita melakukan N = 1.000.000 permutasi, kita memperoleh 62825 kasus di mana peringkat elemen pertama dalam daftar sama atau lebih baik ke peringkat nilai baru (simulasi lebih lanjut memberikan 62871 kasus, kemudian 62840 ...). Jika mengambil rasio antara kasus di mana kondisi terpenuhi dan jumlah permutasi, kita mendapatkan angka seperti 0,062825, 0,062871, 0,062871, ...
Anda dapat melihat nilai-nilai ini konvergen menuju 1/16 = 0,0625 (6,25%), yang sebagai catatan @whuber, adalah probabilitas bahwa nilai yang diberikan (dari 16) yang diambil secara acak memiliki peringkat terbaik di antara mereka.
Untuk dataset baru, di mana nilai baru adalah nilai terbaik kedua (yaitu peringkat 2):
kami mendapatkan (untuk N = 1.000.000 permutasi): 125235, 124883 ... kasus yang menguntungkan yang, sekali lagi, mendekati probabilitas bahwa nilai yang diberikan (dari 16) yang diambil secara acak memiliki peringkat terbaik kedua di antara mereka: 2/16 = 0,125 (12,5%).
sumber