Saya punya beberapa pertanyaan untuk interval prediksi dan toleransi.
Mari kita sepakati definisi interval toleransi terlebih dahulu: Kita diberi tingkat kepercayaan, katakanlah 90%, persentase populasi yang akan ditangkap, katakanlah 99%, dan ukuran sampel, katakanlah 20. Distribusi probabilitas diketahui, katakan normal untuk kenyamanan. Sekarang, mengingat ketiga angka di atas (90%, 99% dan 20) dan fakta bahwa distribusi yang mendasarinya normal, kita dapat menghitung angka toleransi . Mengingat sampel dengan mean dan standar deviasi , interval toleransi . Jika interval toleransi ini menangkap 99% populasi, maka sampel disebut sukses( x 1 , x 2 , ... , x 20 ) ˉ x s ˉ x ± k s ( x 1 , x 2 , ... , x 20 )dan persyaratannya adalah bahwa 90% sampel berhasil .
Komentar: 90% adalah probabilitas a priori untuk sampel menjadi sukses. 99% adalah probabilitas bersyarat bahwa pengamatan di masa depan akan berada dalam interval toleransi, mengingat sampel tersebut sukses.
Pertanyaan saya: Bisakah kita melihat interval prediksi sebagai interval toleransi? Melihat di web saya mendapat jawaban yang bertentangan mengenai hal ini, belum lagi tidak ada yang benar-benar mendefinisikan interval prediksi dengan cermat. Jadi, jika Anda memiliki definisi yang tepat tentang interval prediksi (atau referensi), saya akan sangat menghargainya.
Apa yang saya pahami adalah bahwa interval prediksi 99% misalnya, tidak menangkap 99% dari semua nilai masa depan untuk semua sampel. Ini akan sama dengan interval toleransi yang menangkap 99% populasi dengan probabilitas 100%.
Dalam definisi yang saya temukan untuk interval prediksi 90%, 90% adalah probabilitas apriori yang diberikan sampel, katakan (ukuran tetap) dan satu pengamatan di masa depan , bahwa akan berada dalam interval prediksi. Jadi, tampaknya sampel dan nilai masa depan keduanya diberikan pada waktu yang sama, berbeda dengan interval toleransi, di mana sampel diberikan dan dengan probabilitas tertentu itu adalah sukses , dan dalam kondisi bahwa sampel tersebut adalah sebuah kesuksesany y, nilai masa depan diberikan dan dengan probabilitas tertentu jatuh ke dalam interval toleransi. Saya tidak yakin apakah definisi interval prediksi di atas benar atau tidak, tetapi tampaknya berlawanan dengan intuisi (setidaknya).
Ada bantuan?
sumber
Jawaban:
Definisi Anda tampaknya benar.
The book untuk berkonsultasi tentang masalah ini adalah statistik Interval (Gerald Hahn & William Meeker), 1991. Saya quote:
Berikut adalah pernyataan ulang dalam terminologi matematika standar. Biarkan data dianggap sebagai realisasi dari variabel acak independen dengan fungsi distribusi kumulatif umum . ( muncul sebagai pengingat bahwa mungkin tidak diketahui tetapi diasumsikan terletak pada set distribusi tertentu ). Biarkan menjadi variabel acak lain dengan distribusi dan independen dari variabel pertama .X = ( X 1 , ... , X n ) F θ θ F F θ | θ ∈ Θ X 0 F θ nx=(x1,…,xn) X=(X1,…,Xn) Fθ θ F Fθ|θ∈Θ X0 Fθ n
Sebuah interval prediksi (untuk pengamatan masa depan tunggal), yang diberikan oleh endpoint , memiliki properti mendefinisikan bahwa[l(x),u(x)]
Secara khusus, mengacu pada distribusi variate dari ditentukan oleh hukum . Perhatikan tidak adanya probabilitas bersyarat: ini adalah probabilitas gabungan penuh. Perhatikan juga, tidak adanya referensi ke urutan temporal: sangat baik dapat diamati dalam waktu sebelum nilai-nilai lainnya. Tidak masalah.Prθ n+1 (X0,X1,…,Xn) Fθ X0
Saya tidak yakin aspek mana dari hal ini yang mungkin "berlawanan dengan intuisi." Jika kita membayangkan memilih prosedur statistik sebagai kegiatan yang harus dilakukan sebelum mengumpulkan data, maka ini adalah formulasi alami dan masuk akal dari proses dua langkah yang direncanakan, karena kedua data ( ) dan "nilai masa depan" perlu dimodelkan sebagai acak.Xi,i=1,…,n X0
Sebuah selang toleransi, yang diberikan oleh endpoint , memiliki properti mendefinisikan bahwa(L(x),U(x)]
Perhatikan tidak adanya referensi ke : tidak ada peran.X0
Ketika adalah himpunan distribusi Normal, ada interval prediksi bentuk{Fθ}
( adalah mean sampel dan adalah standar deviasi sampel). Nilai fungsi , yang ditabulasi Hahn & Meeker, tidak bergantung pada data . Ada prosedur interval prediksi lain, bahkan dalam kasus Normal: ini bukan satu-satunya.x¯ s k x
Demikian pula, ada interval toleransi bentuk
Ada prosedur interval toleransi lain : ini bukan satu-satunya.
Memperhatikan kesamaan di antara pasangan-pasangan formula ini, kita dapat menyelesaikan persamaannya
Ini memungkinkan seseorang untuk menafsirkan kembali interval prediksi sebagai interval toleransi (dalam banyak cara yang berbeda dengan memvariasikan dan ) atau untuk menafsirkan kembali interval toleransi sebagai interval prediksi (hanya sekarang biasanya secara unik ditentukan oleh dan ). Ini mungkin salah satu asal mula kebingungan.α′ p α α′ p
sumber
Seperti yang saya pahami, untuk batas toleransi normal, nilai berasal dari persentil t pusat. Jelas, untuk poin W Huber, ada beberapa ahli statistik yang tidak terbiasa dengan gagasan batas toleransi versus batas prediksi; gagasan toleransi tampaknya muncul sebagian besar dalam desain teknik dan manufaktur, sebagai lawan dari biostatistik klinis. Mungkin alasan kurangnya pengetahuan tentang interval toleransi, dan kebingungan dengan interval prediksi, adalah konteks di mana seseorang menerima pelatihan statistiknya.K(α,p)
sumber