Misalkan Anda memiliki banyak orang yang menilai seberapa besar mereka menyukai film pada skala diskrit dari 1 hingga 10, dan Anda menginginkan interval [ l , u ] sedemikian rupa sehingga dengan (setidaknya) kepercayaan 95%, (setidaknya) 90 % dari semua orang yang menonton film akan memeringkatnya tidak lebih rendah dari aku dan tidak lebih tinggi dari kamu . [ l , u ] kemudian merupakan interval toleransi (dua sisi) dengan kepercayaan 95% dan cakupan 90%. (Untuk lebih jelasnya, kepercayaan 95% menyiratkan bahwa jika Anda mengulangi prosedur ini berkali-kali, 95% dari interval yang diproduksi akan mendapatkan setidaknya 90% cakupan populasi.) Tentu saja, kita umumnya ingin [ l , u ] sesempit mungkin sementara masih memenuhi persyaratan kami.
Saya telah melihat berbagai metode nonparametrik untuk membangun interval toleransi untuk variabel acak kontinu. Saya juga melihat metode untuk membangun interval toleransi untuk variabel binomial dan Poisson. (Paket R tolerance
mengimplementasikan beberapa metode ini; Young, 2010.) Tetapi bagaimana dengan variabel diskrit ketika distribusinya tidak diketahui? Ini biasanya merupakan kasus untuk skala penilaian seperti yang ada dalam contoh saya, dan mengasumsikan distribusi binomial tampaknya tidak aman karena data skala-rating nyata sering menunjukkan keanehan seperti multimodality.
Apakah masuk akal untuk kembali ke metode nonparametrik untuk variabel kontinu? Atau, bagaimana dengan metode Monte Carlo seperti menghasilkan 1.000 replikasi bootstrap sampel dan menemukan interval yang menangkap setidaknya 90% sampel dalam setidaknya 950 replikasi?
Young, DS (2010). toleransi: Paket R untuk memperkirakan interval toleransi. Jurnal Perangkat Lunak Statistik, 36 (5), 1–39. Diperoleh dari http://www.jstatsoft.org/v36/i05
sumber
Jawaban:
Variabel bunga didistribusikan secara multinomial dengan probabilitas kelas (sel): . Selanjutnya, kelas dianugerahi dengan tatanan alami.hal1,hal2, . . . ,hal10
Upaya pertama: "interval prediksi" terkecil yang mengandung90 %
Ukuran non-parametrik dari ketidakpastian (misalnya, varians, kepercayaan) pada estimasi kuantil memang bisa diperoleh dengan metode bootstrap standar .l , u
Pendekatan kedua: langsung "pencarian bootstrap"
Di bawah ini saya memberikan kode Matlab yang dapat dijalankan yang mendekati pertanyaan secara langsung dari perspektif bootstrap (kode tersebut tidak di-vektor-kan secara optimal).
Periksa apakah ini masuk akal.
Jalankan simulasi bootstrap.
Filter dari setiap bootstrap mereplikasi interval,[ aku , kamu ] , yang mengandung setidaknya 90 % probabilitas massa dan menghitung estimasi kepercayaan (sering) dari interval tersebut.
Pilih yang memenuhi desideratum kepercayaan.
Yakinkan diri Anda bahwa metode bootstrap di atas valid
Sampel bootstrap dimaksudkan untuk menjadi stand-in untuk sesuatu yang ingin kita miliki, tetapi tidak, yaitu: baru, undian independen dari populasi mendasar yang sebenarnya (singkat: data baru).
Dalam contoh yang saya berikan, kita tahu proses menghasilkan data (DGP), oleh karena itu kita bisa "menipu" dan mengganti baris kode yang berkaitan dengan bootstrap sampel ulang dengan menarik, independen baru dari DGP yang sebenarnya.
Kemudian kita dapat memvalidasi pendekatan bootstrap dengan membandingkannya dengan yang ideal. Di bawah ini adalah hasilnya.
Matriks kepercayaan dari data baru dan independen menggambarkan:
Yang sesuai95 % -percaya diri batas bawah dan atas:
Kami menemukan bahwa matriks kepercayaan sangat setuju dan batas-batasnya identik ... Dengan demikian memvalidasi pendekatan bootstrap.
sumber