Memperoleh formula untuk batas prediksi dalam model linier (yaitu: interval prediksi)

18

Mari kita ambil contoh berikut:

set.seed(342)
x1 <- runif(100)
x2 <- runif(100)
y <- x1+x2 + 2*x1*x2 + rnorm(100)
fit <- lm(y~x1*x2)

Ini menciptakan model y berdasarkan x1 dan x2, menggunakan regresi OLS. Jika kami ingin memprediksi y untuk x_vec yang diberikan, kami cukup menggunakan rumus yang kami dapatkan dari summary(fit).

Namun, bagaimana jika kita ingin memprediksi prediksi y yang lebih rendah dan lebih tinggi? (untuk tingkat kepercayaan yang diberikan).

Lalu bagaimana kita membangun formula?

Tal Galili
sumber
The Confidence Interval pada New Pengamatan bagian dari halaman ini dapat membantu.
GaBorgulya
@Tal Maaf, tapi tidak terlalu jelas bagi saya apa yang Anda maksud dengan "memprediksi prediksi y dan lebih rendah". Apakah ada hubungannya dengan prediksi atau band toleransi?
chl
@Tal - beberapa pertanyaan. Ketika Anda mengatakan ".. y berdasarkan x1 dan x2, menggunakan regresi OLS." , maksud Anda, Anda membuat model linier dan memperkirakan parameter menggunakan OLS . Apakah saya benar? dan pertanyaan @ chl - apakah Anda ingin memprediksi batas bawah dan atas untuk interval prediksi?
suncoolsu
@ chl, maaf karena tidak jelas. Saya mencari dua formula yang akan memberikan interval untuk itu akan "menangkap" nilai "nyata" y 95% dari waktu. Saya merasakan bagaimana saya menggunakan definisi untuk CI untuk mean, ketika mungkin ada istilah lain yang harus saya gunakan, maaf tentang itu ...
Tal Galili
@suncoolsu - ya dan ya.
Tal Galili

Jawaban:

25

Anda akan membutuhkan aritmatika matriks. Saya tidak yakin bagaimana Excel akan melakukannya. Pokoknya, berikut ini detailnya.

Misalkan regresi Anda dituliskan sebagai .y=Xβ+e

Biarkan menjadi vektor baris yang berisi nilai-nilai prediktor untuk perkiraan (dalam format yang sama dengan X ). Kemudian ramalan diberikan oleh y = X * β = X * ( X ' X ) - 1 X ' Y dengan varians terkait σ 2 [ 1 + X * ( X ' X ) - 1 ( X * ) ' ] .XX

y^=Xβ^=X(XX)1XY
σ2[1+X(XX)1(X)].
Kemudian interval prediksi 95% dapat dihitung (dengan asumsi kesalahan terdistribusi normal) sebagai y ± 1,96 σ Ini memperhitungkan ketidakpastian karena istilah kesalahanedan ketidakpastian dalam estimasi koefisien. Namun, ia mengabaikan kesalahan dalam X. Jadi jika nilai prediktor masa depan tidak pasti, maka interval prediksi yang dihitung menggunakan ungkapan ini akan terlalu sempit.
y^±1.96σ^1+X(XX)1(X).
eX
Rob Hyndman
sumber
1
+1, jawaban yang sangat bagus. Saya harus mencatat, bahwa model regresi selalu memperkirakan ekspektasi bersyarat, sehingga sama baiknya dengan para regressornya. Jadi komentar terakhir walaupun sangat baik, tidak sepenuhnya diperlukan, karena jika Anda membangun model regresi, Anda harus memercayai para regressor.
mpiktas
mengapa angka 1 muncul dalam formula? Kita punyay^=Xβ+X(XX)1Xevary^=varX(XX)1Xe=σ2X(XX)1(X)
y^
N×N
X
7

Apakah Anda kebetulan setelah berbagai jenis interval prediksi? The predict.lmhalaman buku panduan memiliki

 ## S3 method for class 'lm'
 predict(object, newdata, se.fit = FALSE, scale = NULL, df = Inf, 
         interval = c("none", "confidence", "prediction"),
         level = 0.95, type = c("response", "terms"),
         terms = NULL, na.action = na.pass,
         pred.var = res.var/weights, weights = 1, ...)

dan

Pengaturan 'interval' menentukan interval kepercayaan atau prediksi (toleransi) pada 'level' yang ditentukan, kadang-kadang disebut sebagai interval sempit vs lebar.

Apakah itu yang ada dalam pikiran Anda?

Dirk Eddelbuettel
sumber
Hai Dirk, memang itulah yang ingin saya temukan, tetapi saya ingin obligasi atas dan bawah dalam bentuk formula (jadi untuk kemudian mengimplementasikan dalam beberapa bentuk perangkat lunak statistik yang rendah, misalnya, excel ...)
Tal Galili
ps: Saya sekarang melihat bahwa ada edit pada judul pertanyaan saya yang mungkin membuat Anda berpikir saya bertanya tentang parameter interval predict.lm (yang bukan saya) :)
Tal Galili
8
Anda menyalahgunakan terminologi di sini. Excel bukan perangkat lunak statistik.
Dirk Eddelbuettel
1
Anda benar, tawaran saya, bagaimana dengan "aplikasi spreadsheet"?
Tal Galili
3
Saya bisa hidup dengan itu; ia memanggil iblis dengan namanya ;-)
Dirk Eddelbuettel
6

@Tal: Mungkin saya menyarankan Kutner et al sebagai sumber yang luar biasa untuk model linier.

E(Y|Xvec)

E(Y|Xvec)Y^ ±αY^Y^Y^σ2nXvecX¯)2σ2(XiX¯)2

B_Miner
sumber
1
(+1) untuk membuat perbedaan. Namun, saya percaya OP meminta (1), bukan (2) (dan saya telah mengedit judul pertanyaan yang sesuai). Perhatikan juga bahwa rumus Anda tampaknya menganggap regresi hanya bergantung pada satu variabel.
whuber