Cara mendapatkan interval kepercayaan pada perubahan populasi r-square

10

Demi contoh sederhana berasumsi bahwa ada dua model regresi linier

  • Model 1 memiliki tiga prediktor, x1a, x2b, danx2c
  • Model 2 memiliki tiga prediktor dari model 1 dan dua prediktor tambahan x2adanx2b

Ada persamaan regresi populasi di mana varians populasi yang dijelaskan adalah untuk Model 1 dan untuk Model 2. Varian inkremental yang dijelaskan oleh Model 2 dalam populasi adalahρ(1)2ρ(2)2Δρ2=ρ(2)2ρ(1)2

Saya tertarik mendapatkan kesalahan standar dan interval kepercayaan untuk estimator . Sementara contohnya masing-masing melibatkan 3 dan 2 prediktor, minat penelitian saya menyangkut sejumlah besar prediktor yang berbeda (misalnya, 5 dan 30). Pikiran pertama saya adalah menggunakan sebagai estimator dan bootstrap, tapi saya tidak yakin apakah ini akan sesuai.Δρ2Δradj2=radj(2)2radj(1)2

Pertanyaan

  • Apakah penduga yang masuk akal dari ?Δradj2Δρ2
  • Bagaimana interval kepercayaan dapat diperoleh untuk populasi r-square berubah (yaitu, )?Δρ2
  • Apakah bootstrap sesuai untuk perhitungan interval kepercayaan?Δρ2

Referensi apa pun untuk simulasi atau literatur yang diterbitkan juga akan sangat disambut.

Kode contoh

Jika itu membantu, saya membuat dataset simulasi kecil di R yang dapat digunakan untuk menunjukkan jawaban:

n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square

x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
               beta[4] * x$x2a + beta[5] * x$x2b, error_sd)

c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square - 
        summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square

Alasan untuk khawatir dengan bootstrap

Saya menjalankan bootstrap pada beberapa data dengan sekitar 300 kasus, dan 5 prediktor dalam model sederhana dan 30 prediktor dalam model lengkap. Sementara estimasi sampel menggunakan perbedaan r-square disesuaikan adalah 0.116, interval kepercayaan boostrapped sebagian besar CI95% lebih besar (0,095-0,214) dan rata-rata bootstraps tidak jauh dari perkiraan sampel. Sebaliknya rata-rata sampel yang di-boostrapped tampaknya berpusat pada estimasi sampel dari perbedaan antara r-square dalam sampel. Ini terlepas dari kenyataan bahwa saya menggunakan sampel yang disesuaikan r-kuadrat untuk memperkirakan perbedaannya.

Menariknya, saya mencoba alternatif cara komputasi sebagaiΔρ2

  1. menghitung sampel perubahan r-square
  2. sesuaikan perubahan r-square sampel menggunakan rumus r-square yang disesuaikan standar

Ketika diterapkan pada data sampel, ini mengurangi estimasi menjadi tetapi interval kepercayaan tampaknya sesuai untuk metode yang saya sebutkan pertama, CI95% (.062, .179) dengan rata-rata .118.Δρ2.082

Secara umum, saya khawatir bahwa bootstrap mengasumsikan bahwa sampel adalah populasi, dan oleh karena itu perkiraan bahwa pengurangan untuk overfitting mungkin tidak berfungsi dengan tepat.

Jeromy Anglim
sumber
"Namun, saya khawatir bahwa bootstrap nilai penyesuaian populasi seperti itu mungkin bermasalah." - mengapa
Januari
@ January Saya telah mengedit pertanyaan dan mencoba mengartikulasikan kekhawatiran saya tentang bootstrap dengan penyesuaian r-square.
Jeromy Anglim
Berapa populasi R kuadrat ? Saya telah melihat definisi yang diberikan di sini tetapi bagi saya varians tidak masuk akal karena tidak terdistribusi secara identik. y iσy2yi
Stéphane Laurent
@ StéphaneLaurent itu adalah persentase varians yang dijelaskan dalam populasi dengan persamaan regresi populasi. Atau Anda dapat mendefinisikannya asimtotik sebagai proporsi varian yang dijelaskan dalam sampel Anda saat ukuran sampel Anda mendekati tak terbatas. Lihat juga jawaban ini mengenai estimasi populasi r-square yang tidak bias . Ini sangat relevan dalam psikologi di mana kita sering lebih tertarik pada hubungan yang sebenarnya daripada benar-benar menerapkan persamaan prediksi kami.
Jeromy Anglim
3
Suatu uji-F dapat dianggap sebagai uji hipotesis . Bisakah itu digunakan untuk mendapatkan interval kesalahan dan kepercayaan standar yang Anda cari? Δρ2=0
Maarten Buis

Jawaban:

3

PopulasiR2

Saya pertama-tama mencoba memahami definisi populasi R-squared .

Mengutip komentar Anda:

Atau Anda dapat mendefinisikannya asimtotik sebagai proporsi varian yang dijelaskan dalam sampel Anda saat ukuran sampel Anda mendekati tak terbatas.

Saya pikir maksud Anda ini adalah batas sampel ketika seseorang mereplikasi model berkali-kali (dengan prediktor yang sama di setiap ulangan). R2

Jadi apa rumus untuk nilai asimptotik dari sampel ? Tulis model linier Anda seperti di https://stats.stackexchange.com/a/58133/8402 , dan gunakan notasi yang sama dengan tautan ini. Maka orang dapat memeriksa bahwa sampel masuk ke ketika seseorang mereplikasi model berkali-kali tak terhingga.R²Y=μ+σG
R2popR2:=λn+λY=μ+σG

Sebagai contoh:

> ## design of the simple regression model lm(y~x0)
> n0 <- 10
> sigma <- 1
> x0 <- rnorm(n0, 1:n0, sigma)
> a <- 1; b <- 2 # intercept and slope
> params <- c(a,b)
> X <- model.matrix(~x0)
> Mu <- (X%*%params)[,1]
> 
> ## replicate this experiment k times 
> k <- 200
> y <- rep(Mu,k) + rnorm(k*n0)
> # the R-squared is:
> summary(lm(y~rep(x0,k)))$r.squared 
[1] 0.971057
> 
> # theoretical asymptotic R-squared:
> lambda0 <- crossprod(Mu-mean(Mu))/sigma^2
> lambda0/(lambda0+n0)
          [,1]
[1,] 0.9722689
> 
> # other approximation of the asymptotic R-squared for simple linear regression:
> 1-sigma^2/var(y)
[1] 0.9721834

Populasi dari submodelR2

Sekarang anggap modelnya dengan dan pertimbangkan submodel .Y=μ+σGH1:μW1H0:μW0

Lalu saya katakan di atas bahwa populasi model adalah mana dan dan kemudian seseorang memiliki .R2H1popR12:=λ1n+λ1 Z1=[1]W1PZ1μ2=(μi-ˉμ)2λ1=PZ1μ2σ2Z1=[1]W1PZ1μ2=(μiμ¯)2

Sekarang apakah Anda mendefinisikan populasi dari submodel sebagai nilai asimptotik dari dihitung sehubungan dengan model tetapi dengan asumsi distribusi model ? Nilai asimptotik (jika ada) tampaknya lebih sulit ditemukan.H 0 R 2 H 0 H 1R2 H0R2H0H1

Stéphane Laurent
sumber
Terima kasih Stéphane. Saya harus memikirkan apa yang Anda katakan. Sehubungan dengan pertanyaan Anda. Saya berasumsi bahwa proses menghasilkan data yang sebenarnya tidak diketahui tetapi bahwa itu sama untuk kedua model, tetapi bahwa ada proporsi yang benar dari perbedaan dijelaskan oleh regresi linier dalam model 1 dan model 2.
Jeromy Anglim
@JeromyAnglim Formula (A3) dari makalah ini adalah kasus khusus dari formula saya untuk model ANOVA satu arah. Jadi rumus saya harus menjadi definisi umum dari populasi , tetapi ini bukan yang Anda gunakan dalam OP Anda. R2
Stéphane Laurent
1
@JeromyAnglim Studi makalah ini tampaknya dekat dengan apa yang Anda cari (dengan prediktor acak).
Stéphane Laurent
Terima kasih. Makalah Algina, Keselman dan Penfield terlihat sangat berguna. Saya menambahkan beberapa komentar pada jawaban saya tentang hal itu.
Jeromy Anglim
@JeromyAnglim Jadi apa asumsi tentang para prediktor? Mereka dihasilkan sesuai dengan distribusi Gaussian multivariat?
Stéphane Laurent
1

Daripada menjawab pertanyaan yang Anda ajukan, saya akan bertanya mengapa Anda mengajukan pertanyaan itu. Saya berasumsi Anda ingin tahu apakah

mod.small <- lm(y ~ x1a + x1b + x1c, data=x)

setidaknya sama baiknya dengan

mod.large <- lm(y ~ ., data=x)

di menjelaskan y. Karena model-model ini bersarang, cara yang jelas untuk menjawab pertanyaan ini tampaknya adalah menjalankan analisis varians membandingkannya, dengan cara yang sama seperti Anda menjalankan analisis penyimpangan untuk dua GLM, seperti

anova(mod.small, mod.large)

Kemudian Anda dapat menggunakan sampel R-square peningkatan antara model sebagai tebakan terbaik Anda pada apa yang akan terjadi pada populasi, selalu dengan asumsi Anda dapat memahami populasi R-kuadrat. Secara pribadi saya tidak yakin saya bisa, tetapi dengan ini tidak masalah.

Lebih umum, jika Anda tertarik pada jumlah populasi Anda mungkin tertarik pada generalisasi sehingga ukuran kecocokan sampel tidak sesuai dengan yang Anda inginkan, namun 'diperbaiki'. Misalnya, validasi silang dari beberapa kuantitas yang memperkirakan jenis dan jumlah kesalahan aktual yang dapat Anda harapkan dari sampel, seperti MSE, tampaknya akan mencapai apa yang Anda inginkan.

Tapi sangat mungkin aku kehilangan sesuatu di sini ...

conjugateprior
sumber
Saya menghargai jawaban Anda, dan itu mungkin saran yang bagus untuk orang lain. Tetapi konteks penelitian saya berarti bahwa saya secara sah tertarik pada delta-rho square. Sementara sebagian besar ahli statistik sering lebih peduli dengan utilitas prediktif model (misalnya, delta r-square), saya adalah seorang ilmuwan psikologi dan saya secara khusus tertarik pada properti populasi. Selain itu, saya tidak tertarik pada signifikansi statistik peningkatan. Saya tertarik dengan ukuran peningkatan. Dan saya menemukan bahwa delta-r-square adalah metrik yang berguna untuk mengindeks ukuran peningkatan itu.
Jeromy Anglim
Sehubungan dengan MSE, studi yang berbeda dalam psikologi menggunakan ukuran pada metrik yang sangat berbeda. Dengan demikian, ada daya tarik, benar atau salah, untuk tindakan standar seperti r-square.
Jeromy Anglim
Cukup adil, khususnya pada UMK. Saya tetap sedikit bingung dengan minat dalam bootstrap dan inferensi populasi tetapi kurangnya minat dalam pengujian karena, mungkin secara naif, ini tampaknya sama dengan kekhawatiran yang ditangani secara berbeda. Saya juga mengalami kesulitan membedakan secara ketat dari sampel prediksi dari inferensi ke suatu populasi, tetapi itu mungkin pra-kopi bayesianisme brengsek (di mana prediksi hanyalah masalah inferensi populasi lain) menghalangi.
conjugateprior
Mungkin saya berbicara sedikit cepat. Dalam konteks penelitian saya, sering ada banyak bukti bahwa delta-rho-square lebih besar dari nol. Pertanyaan yang menarik adalah seberapa besar tingkat kenaikannya. Yaitu, itu adalah peningkatan sepele atau peningkatan yang bermakna secara teoritis. Dengan demikian, interval kepercayaan atau kredibilitas memberi saya perkiraan ketidakpastian di sekitar kenaikan itu. Saya belum mendamaikan apa yang saya lakukan di sini dengan pemahaman saya tentang statistik Bayesian, tapi saya ingin.
Jeromy Anglim
1

Berikut ini mewakili beberapa kemungkinan untuk menghitung interval kepercayaan pada .ρ2

Bootstrap r-square ganda yang disesuaikan

Tebakan terbaik saya saat ini pada jawaban adalah melakukan bootstrap r-square ganda yang disesuaikan. Saya sudah menerapkan teknik ini. Ini melibatkan hal-hal berikut:

  • Hasilkan satu set sampel bootstrap dari data saat ini.
  • Untuk setiap sampel bootstrap:
    • menghitung r-square pertama yang disesuaikan untuk kedua model
    • hitung r-square kedua yang disesuaikan pada nilai-nilai r-square yang disesuaikan dari langkah sebelumnya
    • Kurangi model2 dari model1 yang disesuaikan dengan nilai r-square untuk mendapatkan estimasi .Δρ2

Alasannya adalah bahwa r-square yang disesuaikan pertama menghilangkan bias yang diperkenalkan oleh bootsrapping (yaitu, bootstrap mengasumsikan bahwa sampel r-square adalah populasi r-square). R-square yang disesuaikan kedua melakukan koreksi standar yang diterapkan pada sampel normal untuk memperkirakan populasi r-square.

Pada titik ini, yang bisa saya lihat adalah bahwa penerapan algoritma ini menghasilkan perkiraan yang tampaknya benar (yaitu, rata-rata theta_hat dalam bootstrap sangat dekat dengan sampel theta_hat). Kesalahan standar sejajar dengan intuisi saya. Saya belum menguji apakah ini menyediakan cakupan frequentist yang tepat di mana proses menghasilkan data diketahui, dan saya juga tidak sepenuhnya yakin pada titik ini bagaimana argumen dapat dibenarkan dari prinsip pertama

Jika ada yang melihat alasan mengapa pendekatan ini akan bermasalah, saya akan berterima kasih untuk mendengarnya.

Simulasi oleh Algina et al

Stéphane menyebut artikel oleh Algina, Keselman dan Penfield. Mereka melakukan studi simulasi untuk menguji cakupan interval kepercayaan 95% dari metode bootstrap dan asimptotik untuk memperkirakan . Metode bootstrapping mereka hanya melibatkan satu aplikasi tunggal yang disesuaikan r-square, daripada penyesuaian ganda r-square yang saya sebutkan di atas. Mereka menemukan bahwa perkiraan bootstrap hanya memberikan cakupan yang baik ketika jumlah prediktor tambahan dalam model lengkap adalah satu atau mungkin dua. Ini adalah hipotesis saya bahwa ini adalah karena ketika jumlah prediktor meningkat, demikian juga perbedaan antara bootstrap r-square tunggal dan ganda yang disesuaikan.Δρ2

Smithson (2001) tentang penggunaan parameter noncentrality

Smithson (2001) membahas penghitungan interval kepercayaan untuk parsial berdasarkan parameter non-sentralitas. Lihat halaman 615 dan 616 khususnya. Dia menyarankan bahwa "sangat mudah untuk membangun CI untuk dan parsial tetapi tidak untuk korelasi semipartial kuadrat." (hal.615)f 2 R 2R2f2R2

Referensi

  • Algina, J., Keselman, HJ, & Penfield, Interval Kepercayaan RD untuk Koefisien Korelasi Semipartial Berganda Beberapa Kuadrat. PDF
  • Smithson, M. (2001). Interval kepercayaan yang benar untuk berbagai ukuran dan parameter efek regresi: Pentingnya distribusi noncentral dalam interval komputasi. Pengukuran Pendidikan dan Psikologis, 61 (4), 605-632.
Jeromy Anglim
sumber
1
Tampaknya tidak ada orang di sini (termasuk Anda) yang tahu definisi populasi Anda R-kuadrat. Oleh karena itu IMHO ini adalah pendekatan yang serius bermasalah.
Stéphane Laurent
@ StéphaneLaurent Terima kasih untuk itu. Saya mengakui bahwa sampai saat ini saya belum melihat populasi r-square sebagai properti pertikaian. Sebagai contoh, saya bisa mengusulkan proses pembuatan data dan akan ada r-square yang didekati ketika ukuran sampel simulasi saya mendekati tak terbatas. Dan juga saya berasumsi bahwa ada proses menghasilkan data untuk data saya, dan karena itu jika mungkin untuk mendapatkan sampel yang tak terbatas, saya dapat menghitung populasi r-square yang sebenarnya.
Jeromy Anglim
Ya tapi saya mendapat kesan Anda juga menganggap proses menghasilkan untuk prediktor. Saya tidak tahu bagaimana ini bisa masuk akal untuk model linier umum.
Stéphane Laurent