Apakah regresi x pada y jelas lebih baik daripada y pada x dalam kasus ini?

10

Instrumen yang digunakan untuk mengukur kadar glukosa dalam darah seseorang dimonitor pada sampel acak 10 orang. Tingkat juga diukur menggunakan prosedur laboratorium yang sangat akurat. Ukuran instrumen dilambangkan dengan x. Ukuran prosedur laboratorium dilambangkan dengan y.

Saya pribadi berpikir y pada x lebih tepat karena tujuannya adalah menggunakan pembacaan instrumen untuk memprediksi pembacaan laboratorium. Dan y pada x meminimalkan kesalahan prediksi tersebut.

Tetapi jawaban yang diberikan adalah x pada y.

Neo
sumber
2
Selamat datang di situs ini, @Neo. Jika pertanyaan ini dimotivasi oleh latihan kelas / buku teks, silakan tambahkan [self-study]tag.
gung - Reinstate Monica

Jawaban:

6

Banyak makalah laboratorium, terutama eksperimen pengujian instrumen, menerapkan regresi x on y.

Mereka berpendapat bahwa dari pengumpulan data dalam percobaan, kondisi y dikendalikan, dan mendapatkan x dari pembacaan instrumen (memperkenalkan beberapa kesalahan di dalamnya). Ini adalah model fisik asli percobaan, jadi kesalahan x ~ y + lebih cocok.

Untuk meminimalkan kesalahan percobaan, terkadang, Anda dikendalikan pada kondisi yang sama, kemudian x diukur beberapa kali (atau percobaan berulang). Prosedur ini dapat membantu Anda untuk memahami logika di belakangnya dan menemukan kesalahan x ~ y + dengan lebih jelas.

Vincent
sumber
+1 Menurut saya benar-benar jawabannya sejauh ini, ini mungkin yang terbaik membahas pos asli. Pertanyaan ini hampir pasti dimotivasi oleh memahami instrumen daripada mengkalibrasi proxy. Jika Anda hanya memiliki satu pengukuran X untuk setiap Y, maka saya cukup yakin (mengesampingkan komentar Whuber) bahwa Y-on-X adalah pendekatan yang benar. Beberapa X menghancurkannya, tetapi X-on-Y masih benar (tetapi tidak dapat digunakan untuk memprediksi Y).
Korone
Anda memiliki masalah, @Corone: jika X vs Y dan Y vs X benar, kita semua tahu Anda mendapatkan garis yang sangat berbeda setiap kali kurang dari . Manakah dari dua garis yang akan Anda pilih dan atas dasar apa? Resolusi yang benar dari dilema ini adalah bahwa - seperti yang dijelaskan Vincent - ada asimetri dalam konsepsi kami tentang kesalahan pengukuran: instrumen diukur dengan kesalahan yang cukup besar; lab diasumsikan tidak memiliki kesalahan yang berarti. Prosedur regresi biasa menganggap X tidak memiliki kesalahan dan semua kesalahan dalam Y, sehingga menyelesaikannya. 1R21
whuber
@ Whuber mereka berdua benar tetapi menjawab masalah yang berbeda. Dengan beberapa pengukuran X Y-on-X bahkan tidak lagi benar untuk masalah yang seharusnya dijawab. Komentar saya semakin konyol, jadi saya akan mengedit jawaban saya
Korone
6

Seperti biasanya, analisis berbeda menjawab pertanyaan yang berbeda. Kedua dan bisa berlaku di sini, Anda hanya ingin memastikan analisis Anda sesuai dengan pertanyaan Anda ingin jawaban. (Untuk lebih lanjut, Anda mungkin ingin membaca jawaban saya di sini: Apa perbedaan antara regresi linier pada Y dengan X dan X dengan Y? )X  pada  YY on XX on Y

Anda benar bahwa jika semua yang Anda ingin lakukan yaitu memprediksi paling kemungkinan nilai yang diberikan pengetahuan tentang sebuah nilai, Anda akan mundur . Namun, jika Anda ingin memahami bagaimana langkah-langkah ini terkait satu sama lain, Anda mungkin ingin menggunakan kesalahan-in-variabel pendekatan, karena Anda percaya bahwa ada kesalahan pengukuran di . X Y  di  X XYXY on XX

Di sisi lain, regresi (dan dengan asumsi sempurna bebas dari kesalahan - yang disebut standar emas ) memungkinkan Anda untuk mempelajari sifat pengukuran . Misalnya, Anda dapat menentukan apakah instrumen menjadi bias ketika nilai sebenarnya meningkat (atau menurun) dengan menilai apakah fungsi tersebut lurus atau melengkung. Y XX on YYX

Ketika mencoba untuk memahami sifat-sifat instrumen pengukuran, memahami sifat dari kesalahan pengukuran sangat penting, dan ini dapat dilakukan dengan regresi . Misalnya, ketika memeriksa homoscedasticity, Anda dapat menentukan apakah kesalahan pengukuran bervariasi sebagai fungsi dari tingkat nilai sebenarnya dari konstruk. Sering terjadi dengan instrumen bahwa ada lebih banyak kesalahan pengukuran pada ekstrem rentangnya daripada di tengah rentang yang berlaku (yaitu, 'sweet spot'), sehingga Anda dapat menentukan ini, atau mungkin menentukan apa yang paling sesuai kisarannya. Anda juga dapat memperkirakan jumlahnyaYX on Ykesalahan pengukuran dalam instrumen Anda dengan root kuadrat kesalahan (standar deviasi residual); tentu saja ini mengasumsikan homoseksualitas, tetapi Anda juga bisa mendapatkan perkiraan pada titik yang berbeda pada melalui pemasangan fungsi yang halus, seperti spline , ke residu. Y

Dengan pertimbangan ini, saya menduga lebih baik, tetapi tentu saja tergantung pada apa tujuan Anda. X on Y

gung - Pasang kembali Monica
sumber
+1 Untuk mengetahui bahwa kemunduran pada membutuhkan kesalahan-dalam-variabel dan bahwa jawabannya benar-benar membutuhkan pemahaman tujuan analisis. XYX
whuber
@whuber Kesalahan dalam variabel tidak sesuai untuk prediksi. Kesalahan dalam variabel berguna jika Anda ingin memahami besarnya suatu hubungan tetapi memiliki kesalahan pengukuran dalam X dan Y. Untuk prediksi, X "diketahui tanpa kesalahan" selama itu dikumpulkan dengan cara yang sama dalam set pelatihan Anda dan set prediksi.
Korone
@Corone Anda benar bahwa kesalahan-dalam-variabel tidak baik untuk prediksi, tapi bukan itu yang direkomendasikan sejauh yang saya tahu. Memang, inilah tepatnya mengapa seseorang benar-benar perlu mundur instrumen melawan lab (yang hanya menggunakan OLS) dan bukan sebaliknya. Silakan baca referensi Draper & Smith yang saya kutip di komentar lain untuk utas ini. Saya mengandalkan bagian 1.7 dari edisi kedua.
whuber
@Corone, Anda benar tentang prediksi / kesalahan-dalam-variabel, tetapi tidak cukup apa yang saya katakan. Saya akan mencoba memikirkan cara yang lebih baik untuk mengungkapkannya.
gung - Reinstate Monica
4

Prediksi dan Peramalan

Ya Anda benar, ketika Anda melihat ini sebagai masalah prediksi, regresi Y-on-X akan memberi Anda model sedemikian rupa sehingga dengan pengukuran instrumen Anda dapat membuat estimasi yang tidak bias dari pengukuran lab yang akurat, tanpa melakukan prosedur lab. .

Dengan kata lain, jika Anda hanya tertarik pada maka Anda ingin regresi Y-on-X.E[Y|X]

Ini mungkin tampak kontra-intuitif karena struktur kesalahan bukan yang "asli". Dengan asumsi bahwa metode lab adalah metode bebas kesalahan standar emas, maka kita "tahu" bahwa model data generatif sebenarnya adalah

Xi=βYi+ϵi

di mana dan adalah distribusi identik yang independen, danϵ i E [ ϵ ] = 0YiϵiE[ϵ]=0

Kami tertarik untuk mendapatkan estimasi . Karena asumsi independensi kami, kami dapat mengatur ulang hal di atas:E[Yi|Xi]

Yi=Xiϵβ

Sekarang, mengambil ekspektasi yang diberikan adalah tempat segala sesuatu menjadi berbuluXi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

Masalahnya adalah istilah - apakah sama dengan nol? Sebenarnya tidak masalah, karena Anda tidak akan pernah melihatnya, dan kami hanya memodelkan istilah linier (atau argumen meluas hingga istilah apa pun yang Anda modelkan). Ketergantungan antara dan dapat dengan mudah diserap ke dalam konstanta yang kami perkirakan.E[ϵi|Xi]ϵX

Secara eksplisit, tanpa kehilangan sifat umum kita dapat membiarkannya

ϵi=γXi+ηi

Di mana menurut definisi, sehingga sekarang kita milikiE[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

yang memenuhi semua persyaratan OLS, karena sekarang eksogen. Tidak masalah sedikitpun bahwa istilah kesalahan juga mengandung karena bagaimanapun juga tidak diketahui dan harus diestimasi. Karena itu kita dapat dengan mudah mengganti konstanta-konstanta itu dengan konstanta baru dan menggunakan pendekatan normalηββσ

YI=αXi+ηi

Perhatikan bahwa kami TIDAK memperkirakan kuantitas yang awalnya saya tulis - kami telah membangun model terbaik yang kami bisa untuk menggunakan X sebagai proxy untuk Y.β

Analisis Instrumen

Orang yang memberi Anda pertanyaan ini, jelas tidak menginginkan jawaban di atas karena mereka mengatakan X-on-Y adalah metode yang benar, jadi mengapa mereka menginginkannya? Kemungkinan besar mereka sedang mempertimbangkan tugas memahami instrumen. Seperti yang dibahas dalam jawaban Vincent, jika Anda ingin tahu tentang mereka ingin instrumen berperilaku, X-on-Y adalah jalan yang harus ditempuh.

Kembali ke persamaan pertama di atas:

Xi=βYi+ϵi

Orang yang mengatur pertanyaan bisa saja memikirkan kalibrasi. Suatu instrumen dikatakan dikalibrasi ketika memiliki ekspektasi yang sama dengan nilai sebenarnya - yaitu . Jelas untuk mengkalibrasi Anda perlu menemukan , dan untuk mengkalibrasi instrumen Anda perlu melakukan regresi X-on-Y.E[Xi|Yi]=YiXβ

Penyusutan

Kalibrasi adalah persyaratan instrumen yang masuk akal secara intuitif, tetapi juga dapat menyebabkan kebingungan. Perhatikan, bahwa bahkan instrumen yang dikalibrasi dengan baik tidak akan menunjukkan kepada Anda nilai yang diharapkan dari ! Untuk mendapatkan Anda masih perlu melakukan regresi Y-on-X, bahkan dengan instrumen yang dikalibrasi dengan baik. Perkiraan ini umumnya akan terlihat seperti versi menyusut dari nilai instrumen (ingat istilah yang merangkak masuk). Secara khusus, untuk mendapatkan perkiraan benar-benar baik dari Anda harus menyertakan pengetahuan sebelumnya Anda dari distribusi . Ini kemudian mengarah pada konsep-konsep seperti regresi-to-the-mean dan empiris.YE[Y|X]γE[Y|X]Y

Contoh dalam R Salah satu cara untuk merasakan apa yang sedang terjadi di sini adalah membuat beberapa data dan mencoba metode tersebut. Kode di bawah ini membandingkan X-on-Y dengan Y-on-X untuk prediksi dan kalibrasi dan Anda dapat dengan cepat melihat bahwa X-on-Y tidak baik untuk model prediksi, tetapi merupakan prosedur kalibrasi yang benar.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

Dua garis regresi diplot atas data

masukkan deskripsi gambar di sini

Dan kemudian jumlah kesalahan kuadrat untuk Y diukur untuk keduanya cocok pada sampel baru.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

Sebagai alternatif, suatu sampel dapat dihasilkan pada Y tetap (dalam hal ini 4) dan kemudian rata-rata dari perkiraan yang diambil. Anda sekarang dapat melihat bahwa prediktor Y-on-X tidak dikalibrasi dengan baik memiliki nilai yang diharapkan jauh lebih rendah dari Y. Prediktor X-on-Y, dikalibrasi dengan baik memiliki nilai yang diharapkan mendekati Y.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

Distribusi kedua prediksi tersebut dapat dilihat pada plot kepadatan.

masukkan deskripsi gambar di sini

Korone
sumber
Tidak, OP tidak benar: Regresi Y-on-X mengasumsikan model variasi yang berbeda dari yang dijelaskan dalam masalah dan karenanya tidak mungkin menjadi prosedur yang tepat. Ketika tujuannya adalah untuk memprediksi dari dan yang diukur dengan kesalahan yang cukup besar, maka Anda berada dalam situasi regresi terbalik . Ini dibahas dalam Draper & Smith, Analisis Regresi Terapan , misalnya. YXX
whuber
3
Masalahnya adalah Anda tidak melihat model lengkapnya, yaitu denganKetika Anda membalikkan ini secara aljabar Anda memperoleh . Memang dapat ditulis ulang dalam bentuk tapi sekarang : varian residu bergantung pada kemiringan! Jika cukup besar, kuadrat terkecil tidak baik dan estimasi variansnya semuanya salah. Var ( ϵ ) = σ 2 . X = ( Y - β 0 - ϵ ) / β 1 X = α 0 + α 1 Y + δ Var ( δ ) = σ 2 α 2 1 σ 2Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2
Whuber
1
β
2
Y mungkin variabel acak atas populasi orang, tetapi untuk setiap orang tertentu itu adalah parameter yang harus diperkirakan. Mengembalikan Y pada X mengecilkan setiap perkiraan Y terhadap rata-rata grup, yang mengurangi kesalahan kuadrat rata-rata atas orang-orang tetapi menciptakan bias sistematis yang mungkin tidak dapat diterima karena alasan etika atau hukum. Regresi X pada Y memberikan informasi yang dapat digunakan untuk membangun interval kepercayaan yang tidak bias untuk setiap orang Y, tetapi interval tersebut cenderung lebar, seperti area biru dalam plot, sedangkan interval prediksi dari kemunduran Y pada X lebih sempit tetapi bias. , seperti merah.
Ray Koopman
1
@RayKoopman itu cara yang bagus untuk menggambarkannya! Ya - Y pada X adalah tentang mendapatkan prediksi terbaik secara rata-rata di atas banyak Ys yang berbeda, sedangkan kalibrasi adalah tentang bersikap adil dan tidak memihak bagi seorang individu Y.
Korone
2

Itu tergantung pada asumsi Anda tentang varians X dan varians Y untuk Ordinary Least Squares. Jika Y memiliki satu-satunya sumber varians dan X memiliki varians nol, maka gunakan X untuk memperkirakan Y. Jika asumsi adalah sebaliknya (X memiliki satu-satunya varian dan Y memiliki varians nol), maka gunakan Y untuk memperkirakan X.

Jika X dan Y diasumsikan memiliki varian, maka Anda mungkin perlu mempertimbangkan Total Least Squares .

Deskripsi TLS yang baik ditulis di tautan ini . Makalah ini diarahkan untuk perdagangan, tetapi bagian 3 melakukan pekerjaan yang baik untuk menggambarkan TLS.

Sunting 1 (09/10/2013) ========================================= ======

Saya awalnya berasumsi bahwa ini adalah semacam masalah pekerjaan rumah, jadi saya tidak benar-benar spesifik tentang "jawaban" untuk pertanyaan OP. Tapi, setelah membaca jawaban lain, sepertinya tidak apa-apa untuk mendapatkan sedikit lebih detail.

Mengutip bagian dari pertanyaan OP:

".... Levelnya juga diukur menggunakan prosedur laboratorium yang sangat akurat ...."

Pernyataan di atas mengatakan bahwa ada dua pengukuran, satu dari instrumen dan satu dari prosedur laboratorium. Pernyataan itu juga menyiratkan bahwa varians untuk prosedur laboratorium rendah dibandingkan dengan varians untuk instrumen.

Kutipan lain dari pertanyaan OP adalah:

".... Ukuran prosedur laboratorium dilambangkan dengan y ....."

Jadi, dari dua pernyataan di atas, Y memiliki varian yang lebih rendah. Jadi, teknik yang paling rawan kesalahan adalah menggunakan Y untuk memperkirakan X. "Jawaban yang diberikan" benar.

bill_080
sumber
1
XY
Tidak, pilihan regresi tidak boleh dibuat berdasarkan di mana variansnya - itu harus dibuat berdasarkan pertanyaan yang Anda coba jawab. Jika Anda menggunakan TLS untuk membangun model prediksi untuk Y yang diberikan X Anda akan salah. TLS dan model kesalahan-dalam-variabel yang serupa adalah semua tentang memahami hubungan yang sebenarnya antara variabel / proses yang mendasarinya - bukan tentang perkiraan
Korone
1
@Corone Meskipun Anda benar bahwa tujuan seseorang memandu pilihan prosedur statistik, prosedur ini juga harus sesuai untuk model probabilitas ("di mana variansnya"). Jika tujuan Anda adalah untuk memprediksi pembacaan laboratorium dari pembacaan instrumen bervarians tinggi, maka tentulah pilih prosedur yang sesuai untuk itu: tetapi prosedur itu bukan prediksi menggunakan fit kuadrat biasa dan estimasi variansnya.
whuber
1
@Corone - Saya setuju bahwa teknik regresi harus didasarkan pada pertanyaan yang Anda coba jawab, namun teknik yang dipilih berisi asumsi tentang varians variabel. Jika asumsi varian dari pemilihan tidak cocok dengan konsep Anda untuk model, maka Anda telah memilih teknik yang salah. Itu sebabnya saya mendaftar 3 kemungkinan (nol varians X untuk memperkirakan Y; varians nol Y untuk memperkirakan X; atau varians X dan Y yang tidak nol).
bill_080