Perbedaan antara interval kepercayaan dan interval prediksi

80

Untuk interval prediksi dalam regresi linear Anda masih menggunakan untuk menghasilkan interval. Anda juga menggunakan ini untuk menghasilkan interval kepercayaan . Apa perbedaan keduanya? $\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ $E[Y|x_0]$

regression confidence-interval predictive-models prediction-interval pertanyaan
sumber

7

tidak "menghasilkan interval".

\hat{E} [Y | x] = \hat{β_{0}} + {\hat{β}}_{1} x

$\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$

Glen_b

Saya tidak melihat alasan divergensi antara dua metode di salah satu jawaban di atas. Hasil regresi biasanya diperkirakan berdasarkan parameter distribusi t Student parametrik dan biasanya regresi, terutama dari yang tidak cocok dengan model regresi data, mengarah ke residu yang tidak dikelompokkan, misalnya miring, tetapi terutama dengan ekor yang berat biasanya (jika tidak selalu) membuat pengukuran parametrik dari dispersi data yang lebih besar dari kuantil pengukuran terantisipasi yang sesuai. Aturan praktis yang saya temukan berguna: Jika saya melihat residu dengan outlier, ekor panjang, dan u

Carl

Terkait: Memperoleh formula untuk batas prediksi dalam model linier .

Scortchi

75

$\text{E}[y \mid x]$ $y$ $y$ $\text{E}[y \mid x]$ $x\hat{\beta}$

$\text{E}[y \mid x]$ $y$ $y$

$\beta$ $\text{E}[y \mid x]$ $y$ $\text{E}[y \mid x]$

Oleh karena itu, interval prediksi akan lebih luas daripada interval kepercayaan.

Charlie
sumber

40

Perbedaan antara interval prediksi dan interval kepercayaan adalah kesalahan standar.

Kesalahan standar untuk interval kepercayaan pada rata-rata memperhitungkan ketidakpastian akibat pengambilan sampel. Garis yang Anda hitung dari sampel Anda akan berbeda dari garis yang akan dihitung jika Anda memiliki seluruh populasi, kesalahan standar memperhitungkan ketidakpastian ini.

Kesalahan standar untuk interval prediksi pada pengamatan individu memperhitungkan ketidakpastian akibat pengambilan sampel seperti di atas, tetapi juga memperhitungkan variabilitas individu di sekitar rata-rata yang diprediksi. Kesalahan standar untuk interval prediksi akan lebih lebar daripada untuk interval kepercayaan dan karenanya interval prediksi akan lebih lebar dari interval kepercayaan.

Greg Snow
sumber

39

Saya menemukan penjelasan berikut bermanfaat:

Interval kepercayaan memberi tahu Anda seberapa baik Anda telah menentukan rata-rata. Asumsikan bahwa data benar-benar diambil secara acak dari distribusi Gaussian. Jika Anda melakukan ini berkali-kali, dan menghitung interval kepercayaan dari rata-rata dari setiap sampel, Anda akan mengharapkan sekitar 95% dari interval tersebut untuk memasukkan nilai sebenarnya dari rata-rata populasi. Poin kuncinya adalah bahwa interval kepercayaan memberitahu Anda tentang kemungkinan lokasi parameter populasi sebenarnya.

Interval prediksi memberi tahu Anda di mana Anda dapat berharap untuk melihat titik data selanjutnya yang dijadikan sampel. Asumsikan bahwa data benar-benar diambil secara acak dari distribusi Gaussian. Kumpulkan sampel data dan hitung interval prediksi. Kemudian sampel satu nilai lagi dari populasi. Jika Anda melakukan ini berkali-kali, Anda akan berharap bahwa nilai berikutnya berada dalam interval prediksi pada 95% sampel. Poin utamanya adalah bahwa interval prediksi memberi tahu Anda tentang distribusi nilai, bukan ketidakpastian dalam menentukan populasi berarti.

Interval prediksi harus memperhitungkan ketidakpastian dalam mengetahui nilai rata-rata populasi, ditambah penyebaran data. Jadi interval prediksi selalu lebih luas daripada interval kepercayaan.

Sumber: http://www.graphpad.com/support/faqid/1506/

vonjd
sumber

Apa yang dimaksud dengan "pencar data" di sini?

telp

2

@tel: Jelas varians

vonjd

36

Satu adalah prediksi dari pengamatan di masa depan, dan yang lainnya adalah respon rata-rata yang diprediksi. Saya akan memberikan jawaban yang lebih terperinci untuk mudah-mudahan menjelaskan perbedaan dan dari mana asalnya, serta bagaimana perbedaan ini memanifestasikan dirinya dalam interval yang lebih luas untuk prediksi daripada untuk kepercayaan diri.

$x_0$

$x_0$ $x_0$
$y = x_{0}^{T} β + ϵ$ $y = x_0^T\beta+\epsilon$ $E(\epsilon)=0$ $\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$ $\epsilon$
$x_0$ $x_0$
$\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$

v a r (x_{0}^{T} \hat{β}) = x_{0}^{T} (X^{T} X)^{- 1} x_{0} σ^{2}

$var(x_0^T\hat{\beta}) = x_0^T(X^TX)^{-1}x_0\sigma^2$

$x_0^T\hat{\beta} + \epsilon$ $\epsilon$ $\sigma^2$ $\hat{\beta}$

$x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0} + 1}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0 + 1}$
$x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0}}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0}$

$t_{n-p}^{\alpha/2}$ $n-p$ $\alpha/2$

Semoga ini membuatnya sedikit lebih jelas mengapa interval prediksi selalu lebih luas, dan apa perbedaan mendasar antara kedua interval tersebut. Contoh ini diadaptasi dari Faraway, Linear Models dengan R, Sec. 4.1.

jpgard
sumber

2

Sangat menyenangkan melihat utas lama diperbaiki dengan respons yang jelas dan bijaksana. Selamat datang di situs kami!

whuber

Bukankah ini seharusnya ... x0 + 1 / n +1 (untuk interval prediksi (1)), dan ... x0 + 1 / n (untuk interval kepercayaan (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regress/…

user48956

12

Jawaban singkat:

Sebuah interval prediksi adalah interval terkait dengan variabel acak belum diamati (forecasting).

Sebuah selang kepercayaan adalah interval terkait dengan parameter dan merupakan konsep frequentist.

Lihat jawaban lengkapnya di sini dari Rob Hyndman, pembuat paket perkiraan di R.

pablo_sci
sumber

3

Jawaban ini untuk pembaca yang tidak dapat sepenuhnya memahami jawaban sebelumnya. Mari kita bahas contoh spesifik. Misalkan Anda mencoba memprediksi berat badan orang dari tinggi badan, jenis kelamin (pria, wanita) dan diet (standar, rendah karbohidrat, vegetarian). Saat ini, ada lebih dari 8 miliar orang di Bumi. Tentu saja, Anda dapat menemukan ribuan orang yang memiliki tinggi yang sama dan dua parameter lain tetapi beratnya berbeda. Bobot mereka sangat berbeda karena beberapa dari mereka memiliki obesitas dan yang lain mungkin menderita kelaparan. Sebagian besar dari orang-orang itu akan berada di suatu tempat di tengah.

Satu tugas adalah memprediksi bobot rata-rata semua orang yang memiliki nilai yang sama dari ketiga variabel penjelas. Di sini kita menggunakan interval kepercayaan. Masalah lain adalah memperkirakan berat orang tertentu. Dan kita tidak tahu keadaan hidup individu itu. Di sini interval prediksi harus digunakan. Ini berpusat di sekitar titik yang sama, tetapi harus jauh lebih luas daripada interval kepercayaan.

Serhii Kushchenko
sumber

Perbedaan antara interval kepercayaan dan interval prediksi

Jawaban: