Instrumen yang digunakan untuk mengukur kadar glukosa dalam darah seseorang dimonitor pada sampel acak 10 orang. Tingkat juga diukur menggunakan prosedur laboratorium yang sangat akurat. Ukuran instrumen dilambangkan dengan x. Ukuran prosedur laboratorium dilambangkan dengan y.
Saya pribadi berpikir y pada x lebih tepat karena tujuannya adalah menggunakan pembacaan instrumen untuk memprediksi pembacaan laboratorium. Dan y pada x meminimalkan kesalahan prediksi tersebut.
Tetapi jawaban yang diberikan adalah x pada y.
[self-study]
tag.Jawaban:
Banyak makalah laboratorium, terutama eksperimen pengujian instrumen, menerapkan regresi x on y.
Mereka berpendapat bahwa dari pengumpulan data dalam percobaan, kondisi y dikendalikan, dan mendapatkan x dari pembacaan instrumen (memperkenalkan beberapa kesalahan di dalamnya). Ini adalah model fisik asli percobaan, jadi kesalahan x ~ y + lebih cocok.
Untuk meminimalkan kesalahan percobaan, terkadang, Anda dikendalikan pada kondisi yang sama, kemudian x diukur beberapa kali (atau percobaan berulang). Prosedur ini dapat membantu Anda untuk memahami logika di belakangnya dan menemukan kesalahan x ~ y + dengan lebih jelas.
sumber
Seperti biasanya, analisis berbeda menjawab pertanyaan yang berbeda. Kedua dan bisa berlaku di sini, Anda hanya ingin memastikan analisis Anda sesuai dengan pertanyaan Anda ingin jawaban. (Untuk lebih lanjut, Anda mungkin ingin membaca jawaban saya di sini: Apa perbedaan antara regresi linier pada Y dengan X dan X dengan Y? )X pada YY on X X on Y
Anda benar bahwa jika semua yang Anda ingin lakukan yaitu memprediksi paling kemungkinan nilai yang diberikan pengetahuan tentang sebuah nilai, Anda akan mundur . Namun, jika Anda ingin memahami bagaimana langkah-langkah ini terkait satu sama lain, Anda mungkin ingin menggunakan kesalahan-in-variabel pendekatan, karena Anda percaya bahwa ada kesalahan pengukuran di . X Y di X XY X Y on X X
Di sisi lain, regresi (dan dengan asumsi sempurna bebas dari kesalahan - yang disebut standar emas ) memungkinkan Anda untuk mempelajari sifat pengukuran . Misalnya, Anda dapat menentukan apakah instrumen menjadi bias ketika nilai sebenarnya meningkat (atau menurun) dengan menilai apakah fungsi tersebut lurus atau melengkung. Y XX on Y Y X
Ketika mencoba untuk memahami sifat-sifat instrumen pengukuran, memahami sifat dari kesalahan pengukuran sangat penting, dan ini dapat dilakukan dengan regresi . Misalnya, ketika memeriksa homoscedasticity, Anda dapat menentukan apakah kesalahan pengukuran bervariasi sebagai fungsi dari tingkat nilai sebenarnya dari konstruk. Sering terjadi dengan instrumen bahwa ada lebih banyak kesalahan pengukuran pada ekstrem rentangnya daripada di tengah rentang yang berlaku (yaitu, 'sweet spot'), sehingga Anda dapat menentukan ini, atau mungkin menentukan apa yang paling sesuai kisarannya. Anda juga dapat memperkirakan jumlahnyaYX on Y kesalahan pengukuran dalam instrumen Anda dengan root kuadrat kesalahan (standar deviasi residual); tentu saja ini mengasumsikan homoseksualitas, tetapi Anda juga bisa mendapatkan perkiraan pada titik yang berbeda pada melalui pemasangan fungsi yang halus, seperti spline , ke residu. Y
Dengan pertimbangan ini, saya menduga lebih baik, tetapi tentu saja tergantung pada apa tujuan Anda.X on Y
sumber
Prediksi dan Peramalan
Ya Anda benar, ketika Anda melihat ini sebagai masalah prediksi, regresi Y-on-X akan memberi Anda model sedemikian rupa sehingga dengan pengukuran instrumen Anda dapat membuat estimasi yang tidak bias dari pengukuran lab yang akurat, tanpa melakukan prosedur lab. .
Dengan kata lain, jika Anda hanya tertarik pada maka Anda ingin regresi Y-on-X.E[Y|X]
Ini mungkin tampak kontra-intuitif karena struktur kesalahan bukan yang "asli". Dengan asumsi bahwa metode lab adalah metode bebas kesalahan standar emas, maka kita "tahu" bahwa model data generatif sebenarnya adalah
di mana dan adalah distribusi identik yang independen, danϵ i E [ ϵ ] = 0Yi ϵi E[ϵ]=0
Kami tertarik untuk mendapatkan estimasi . Karena asumsi independensi kami, kami dapat mengatur ulang hal di atas:E[Yi|Xi]
Sekarang, mengambil ekspektasi yang diberikan adalah tempat segala sesuatu menjadi berbuluXi
Masalahnya adalah istilah - apakah sama dengan nol? Sebenarnya tidak masalah, karena Anda tidak akan pernah melihatnya, dan kami hanya memodelkan istilah linier (atau argumen meluas hingga istilah apa pun yang Anda modelkan). Ketergantungan antara dan dapat dengan mudah diserap ke dalam konstanta yang kami perkirakan.E[ϵi|Xi] ϵ X
Secara eksplisit, tanpa kehilangan sifat umum kita dapat membiarkannya
Di mana menurut definisi, sehingga sekarang kita milikiE[ηi|X]=0
yang memenuhi semua persyaratan OLS, karena sekarang eksogen. Tidak masalah sedikitpun bahwa istilah kesalahan juga mengandung karena bagaimanapun juga tidak diketahui dan harus diestimasi. Karena itu kita dapat dengan mudah mengganti konstanta-konstanta itu dengan konstanta baru dan menggunakan pendekatan normalη β β σ
Perhatikan bahwa kami TIDAK memperkirakan kuantitas yang awalnya saya tulis - kami telah membangun model terbaik yang kami bisa untuk menggunakan X sebagai proxy untuk Y.β
Analisis Instrumen
Orang yang memberi Anda pertanyaan ini, jelas tidak menginginkan jawaban di atas karena mereka mengatakan X-on-Y adalah metode yang benar, jadi mengapa mereka menginginkannya? Kemungkinan besar mereka sedang mempertimbangkan tugas memahami instrumen. Seperti yang dibahas dalam jawaban Vincent, jika Anda ingin tahu tentang mereka ingin instrumen berperilaku, X-on-Y adalah jalan yang harus ditempuh.
Kembali ke persamaan pertama di atas:
Orang yang mengatur pertanyaan bisa saja memikirkan kalibrasi. Suatu instrumen dikatakan dikalibrasi ketika memiliki ekspektasi yang sama dengan nilai sebenarnya - yaitu . Jelas untuk mengkalibrasi Anda perlu menemukan , dan untuk mengkalibrasi instrumen Anda perlu melakukan regresi X-on-Y.E[Xi|Yi]=Yi X β
Penyusutan
Kalibrasi adalah persyaratan instrumen yang masuk akal secara intuitif, tetapi juga dapat menyebabkan kebingungan. Perhatikan, bahwa bahkan instrumen yang dikalibrasi dengan baik tidak akan menunjukkan kepada Anda nilai yang diharapkan dari ! Untuk mendapatkan Anda masih perlu melakukan regresi Y-on-X, bahkan dengan instrumen yang dikalibrasi dengan baik. Perkiraan ini umumnya akan terlihat seperti versi menyusut dari nilai instrumen (ingat istilah yang merangkak masuk). Secara khusus, untuk mendapatkan perkiraan benar-benar baik dari Anda harus menyertakan pengetahuan sebelumnya Anda dari distribusi . Ini kemudian mengarah pada konsep-konsep seperti regresi-to-the-mean dan empiris.Y E[Y|X] γ E[Y|X] Y
Contoh dalam R Salah satu cara untuk merasakan apa yang sedang terjadi di sini adalah membuat beberapa data dan mencoba metode tersebut. Kode di bawah ini membandingkan X-on-Y dengan Y-on-X untuk prediksi dan kalibrasi dan Anda dapat dengan cepat melihat bahwa X-on-Y tidak baik untuk model prediksi, tetapi merupakan prosedur kalibrasi yang benar.
Dua garis regresi diplot atas data
Dan kemudian jumlah kesalahan kuadrat untuk Y diukur untuk keduanya cocok pada sampel baru.
Sebagai alternatif, suatu sampel dapat dihasilkan pada Y tetap (dalam hal ini 4) dan kemudian rata-rata dari perkiraan yang diambil. Anda sekarang dapat melihat bahwa prediktor Y-on-X tidak dikalibrasi dengan baik memiliki nilai yang diharapkan jauh lebih rendah dari Y. Prediktor X-on-Y, dikalibrasi dengan baik memiliki nilai yang diharapkan mendekati Y.
Distribusi kedua prediksi tersebut dapat dilihat pada plot kepadatan.
sumber
Itu tergantung pada asumsi Anda tentang varians X dan varians Y untuk Ordinary Least Squares. Jika Y memiliki satu-satunya sumber varians dan X memiliki varians nol, maka gunakan X untuk memperkirakan Y. Jika asumsi adalah sebaliknya (X memiliki satu-satunya varian dan Y memiliki varians nol), maka gunakan Y untuk memperkirakan X.
Jika X dan Y diasumsikan memiliki varian, maka Anda mungkin perlu mempertimbangkan Total Least Squares .
Deskripsi TLS yang baik ditulis di tautan ini . Makalah ini diarahkan untuk perdagangan, tetapi bagian 3 melakukan pekerjaan yang baik untuk menggambarkan TLS.
Sunting 1 (09/10/2013) ========================================= ======
Saya awalnya berasumsi bahwa ini adalah semacam masalah pekerjaan rumah, jadi saya tidak benar-benar spesifik tentang "jawaban" untuk pertanyaan OP. Tapi, setelah membaca jawaban lain, sepertinya tidak apa-apa untuk mendapatkan sedikit lebih detail.
Mengutip bagian dari pertanyaan OP:
".... Levelnya juga diukur menggunakan prosedur laboratorium yang sangat akurat ...."
Pernyataan di atas mengatakan bahwa ada dua pengukuran, satu dari instrumen dan satu dari prosedur laboratorium. Pernyataan itu juga menyiratkan bahwa varians untuk prosedur laboratorium rendah dibandingkan dengan varians untuk instrumen.
Kutipan lain dari pertanyaan OP adalah:
".... Ukuran prosedur laboratorium dilambangkan dengan y ....."
Jadi, dari dua pernyataan di atas, Y memiliki varian yang lebih rendah. Jadi, teknik yang paling rawan kesalahan adalah menggunakan Y untuk memperkirakan X. "Jawaban yang diberikan" benar.
sumber