Demi contoh sederhana berasumsi bahwa ada dua model regresi linier
- Model 1 memiliki tiga prediktor,
x1a
,x2b
, danx2c
- Model 2 memiliki tiga prediktor dari model 1 dan dua prediktor tambahan
x2a
danx2b
Ada persamaan regresi populasi di mana varians populasi yang dijelaskan adalah untuk Model 1 dan untuk Model 2. Varian inkremental yang dijelaskan oleh Model 2 dalam populasi adalah
Saya tertarik mendapatkan kesalahan standar dan interval kepercayaan untuk estimator . Sementara contohnya masing-masing melibatkan 3 dan 2 prediktor, minat penelitian saya menyangkut sejumlah besar prediktor yang berbeda (misalnya, 5 dan 30). Pikiran pertama saya adalah menggunakan sebagai estimator dan bootstrap, tapi saya tidak yakin apakah ini akan sesuai.
Pertanyaan
- Apakah penduga yang masuk akal dari ?
- Bagaimana interval kepercayaan dapat diperoleh untuk populasi r-square berubah (yaitu, )?
- Apakah bootstrap sesuai untuk perhitungan interval kepercayaan?
Referensi apa pun untuk simulasi atau literatur yang diterbitkan juga akan sangat disambut.
Kode contoh
Jika itu membantu, saya membuat dataset simulasi kecil di R yang dapat digunakan untuk menunjukkan jawaban:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Alasan untuk khawatir dengan bootstrap
Saya menjalankan bootstrap pada beberapa data dengan sekitar 300 kasus, dan 5 prediktor dalam model sederhana dan 30 prediktor dalam model lengkap. Sementara estimasi sampel menggunakan perbedaan r-square disesuaikan adalah 0.116
, interval kepercayaan boostrapped sebagian besar CI95% lebih besar (0,095-0,214) dan rata-rata bootstraps tidak jauh dari perkiraan sampel. Sebaliknya rata-rata sampel yang di-boostrapped tampaknya berpusat pada estimasi sampel dari perbedaan antara r-square dalam sampel. Ini terlepas dari kenyataan bahwa saya menggunakan sampel yang disesuaikan r-kuadrat untuk memperkirakan perbedaannya.
Menariknya, saya mencoba alternatif cara komputasi sebagai
- menghitung sampel perubahan r-square
- sesuaikan perubahan r-square sampel menggunakan rumus r-square yang disesuaikan standar
Ketika diterapkan pada data sampel, ini mengurangi estimasi menjadi tetapi interval kepercayaan tampaknya sesuai untuk metode yang saya sebutkan pertama, CI95% (.062, .179) dengan rata-rata .118..082
Secara umum, saya khawatir bahwa bootstrap mengasumsikan bahwa sampel adalah populasi, dan oleh karena itu perkiraan bahwa pengurangan untuk overfitting mungkin tidak berfungsi dengan tepat.
sumber
Jawaban:
PopulasiR2
Saya pertama-tama mencoba memahami definisi populasi R-squared .
Mengutip komentar Anda:
Saya pikir maksud Anda ini adalah batas sampel ketika seseorang mereplikasi model berkali-kali (dengan prediktor yang sama di setiap ulangan).R2
Jadi apa rumus untuk nilai asimptotik dari sampel ? Tulis model linier Anda seperti di https://stats.stackexchange.com/a/58133/8402 , dan gunakan notasi yang sama dengan tautan ini. Maka orang dapat memeriksa bahwa sampel masuk ke ketika seseorang mereplikasi model berkali-kali tak terhingga.R2 Y=μ+σG
R2 popR2:=λn+λ Y=μ+σG
Sebagai contoh:
Populasi dari submodelR2
Sekarang anggap modelnya dengan dan pertimbangkan submodel .Y=μ+σG H1:μ∈W1 H0:μ∈W0
Lalu saya katakan di atas bahwa populasi model adalah mana dan dan kemudian seseorang memiliki .R2 H1 popR21:=λ1n+λ1 Z1=[1]⊥∩W1‖PZ1μ‖2=∑(μi-ˉμ)2λ1=∥PZ1μ∥2σ2 Z1=[1]⊥∩W1 ∥PZ1μ∥2=∑(μi−μ¯)2
Sekarang apakah Anda mendefinisikan populasi dari submodel sebagai nilai asimptotik dari dihitung sehubungan dengan model tetapi dengan asumsi distribusi model ? Nilai asimptotik (jika ada) tampaknya lebih sulit ditemukan.H 0 R 2 H 0 H 1R2 H0 R2 H0 H1
sumber
Daripada menjawab pertanyaan yang Anda ajukan, saya akan bertanya mengapa Anda mengajukan pertanyaan itu. Saya berasumsi Anda ingin tahu apakah
setidaknya sama baiknya dengan
di menjelaskan
y
. Karena model-model ini bersarang, cara yang jelas untuk menjawab pertanyaan ini tampaknya adalah menjalankan analisis varians membandingkannya, dengan cara yang sama seperti Anda menjalankan analisis penyimpangan untuk dua GLM, sepertiKemudian Anda dapat menggunakan sampel R-square peningkatan antara model sebagai tebakan terbaik Anda pada apa yang akan terjadi pada populasi, selalu dengan asumsi Anda dapat memahami populasi R-kuadrat. Secara pribadi saya tidak yakin saya bisa, tetapi dengan ini tidak masalah.
Lebih umum, jika Anda tertarik pada jumlah populasi Anda mungkin tertarik pada generalisasi sehingga ukuran kecocokan sampel tidak sesuai dengan yang Anda inginkan, namun 'diperbaiki'. Misalnya, validasi silang dari beberapa kuantitas yang memperkirakan jenis dan jumlah kesalahan aktual yang dapat Anda harapkan dari sampel, seperti MSE, tampaknya akan mencapai apa yang Anda inginkan.
Tapi sangat mungkin aku kehilangan sesuatu di sini ...
sumber
Berikut ini mewakili beberapa kemungkinan untuk menghitung interval kepercayaan pada .ρ2
Bootstrap r-square ganda yang disesuaikan
Tebakan terbaik saya saat ini pada jawaban adalah melakukan bootstrap r-square ganda yang disesuaikan. Saya sudah menerapkan teknik ini. Ini melibatkan hal-hal berikut:
Alasannya adalah bahwa r-square yang disesuaikan pertama menghilangkan bias yang diperkenalkan oleh bootsrapping (yaitu, bootstrap mengasumsikan bahwa sampel r-square adalah populasi r-square). R-square yang disesuaikan kedua melakukan koreksi standar yang diterapkan pada sampel normal untuk memperkirakan populasi r-square.
Pada titik ini, yang bisa saya lihat adalah bahwa penerapan algoritma ini menghasilkan perkiraan yang tampaknya benar (yaitu, rata-rata theta_hat dalam bootstrap sangat dekat dengan sampel theta_hat). Kesalahan standar sejajar dengan intuisi saya. Saya belum menguji apakah ini menyediakan cakupan frequentist yang tepat di mana proses menghasilkan data diketahui, dan saya juga tidak sepenuhnya yakin pada titik ini bagaimana argumen dapat dibenarkan dari prinsip pertama
Jika ada yang melihat alasan mengapa pendekatan ini akan bermasalah, saya akan berterima kasih untuk mendengarnya.
Simulasi oleh Algina et al
Stéphane menyebut artikel oleh Algina, Keselman dan Penfield. Mereka melakukan studi simulasi untuk menguji cakupan interval kepercayaan 95% dari metode bootstrap dan asimptotik untuk memperkirakan . Metode bootstrapping mereka hanya melibatkan satu aplikasi tunggal yang disesuaikan r-square, daripada penyesuaian ganda r-square yang saya sebutkan di atas. Mereka menemukan bahwa perkiraan bootstrap hanya memberikan cakupan yang baik ketika jumlah prediktor tambahan dalam model lengkap adalah satu atau mungkin dua. Ini adalah hipotesis saya bahwa ini adalah karena ketika jumlah prediktor meningkat, demikian juga perbedaan antara bootstrap r-square tunggal dan ganda yang disesuaikan.Δρ2
Smithson (2001) tentang penggunaan parameter noncentrality
Smithson (2001) membahas penghitungan interval kepercayaan untuk parsial berdasarkan parameter non-sentralitas. Lihat halaman 615 dan 616 khususnya. Dia menyarankan bahwa "sangat mudah untuk membangun CI untuk dan parsial tetapi tidak untuk korelasi semipartial kuadrat." (hal.615)f 2 R 2R2 f2 R2
Referensi
sumber