Metode untuk memasang model kesalahan pengukuran "sederhana"

Saya mencari metode yang dapat digunakan untuk memperkirakan model kesalahan pengukuran "OLS".

y_{i} = Y_{i} + e_{y, i}

$y_{i}=Y_{i}+e_{y,i}$

x_{i} = X_{i} + e_{x, i}

$x_{i}=X_{i}+e_{x,i}$

Y_{i} = α + β X_{i}

$Y_{i}=\alpha + \beta X_{i}$

Dimana kesalahan independen normal dengan varian yang tidak diketahui dan . OLS "Standar" tidak akan berfungsi dalam kasus ini. $\sigma_{y}^{2}$ $\sigma_{x}^{2}$

Wikipedia memiliki beberapa solusi yang tidak menarik - keduanya memberi Anda kekuatan untuk menganggap bahwa baik "varians ratio" atau "rasio reliabilitas" $\delta=\frac{\sigma_{y}^{2}}{\sigma_{x}^{2}}$ diketahui, di mana adalah varian dari regressor sejati. Saya tidak puas dengan ini, karena bagaimana mungkin seseorang yang tidak tahu varians mengetahui rasio mereka? $\lambda=\frac{\sigma_{X}^{2}}{\sigma_{x}^{2}+\sigma_{X}^{2}}$ $\sigma_{X}^2$ $X_i$

Ngomong-ngomong, apakah ada solusi lain selain kedua yang tidak mengharuskan saya untuk "tahu" tentang parameter?

Solusi untuk penyadapan dan kemiringan cukup baik.

regression estimation errors-in-variables probabilityislogic
sumber

artikel Wikipedia itu sendiri memberi Anda jawaban untuk pertanyaan ini. Jika Anda menganggap normalitas dari regressor "benar", maka Anda memerlukan kondisi lebih lanjut pada distribusi kesalahan. Jika regresor sejati bukan Gaussian, maka Anda memiliki harapan. Lihat Reiersol (1950) .

kardinal

juga, apa yang Anda maksud dengan "Solusi hanya untuk mencegat dan lereng baik-baik saja". Itu hanya dua parameter Anda! Atau apakah Anda berharap untuk mencoba mundur dari "benar" regresor juga?

kardinal

@cardinal - Aku berarti bahwa saya tidak terlalu peduli tentang dua parameter skala, dan seperti yang Anda katakan, "benar" regressor

X_{i}

$X_{i}$

probabilityislogic

Saya melihat. Itu masuk akal.

kardinal

Ada berbagai kemungkinan yang dijelaskan oleh JW Gillard dalam An Historis Tinjauan Regresi Linier dengan Kesalahan di kedua Variabel

Jika Anda tidak tertarik dalam rincian atau alasan untuk memilih salah satu metode di atas yang lain, hanya pergi dengan sederhana, yaitu untuk menarik garis melalui pusat massa dengan kemiringan , yaitu rasio deviasi standar yang diamati (membuat tanda kemiringan sama dengan tanda kovarians dan ); karena Anda mungkin dapat bekerja keluar, ini memberikan intercept pada sumbu dari $(\bar{x},\bar{y})$ $\hat{\beta}=s_y/s_x$ $x$ $y$ $y$ $\hat{\alpha}=\bar{y}-\hat{\beta}\bar{x}.$

Kelebihan dari pendekatan khusus ini adalah

itu memberikan garis yang sama membandingkan terhadap seperti terhadap , $x$ $y$ $y$ $x$
itu skala-invarian sehingga Anda tidak perlu khawatir tentang unit,
itu terletak di antara dua garis regresi linier biasa
itu melintasi mereka di mana mereka saling bersilangan di pusat pengamatan, dan
sangat mudah untuk dihitung.

Kemiringan adalah rata-rata geometrik dari lereng dari dua kemiringan regresi linier biasa. Ini juga yang akan Anda dapatkan jika Anda menstandarisasi pengamatan dan , menggambar garis pada 45 ° (atau 135 ° jika ada korelasi negatif) dan kemudian mende-standarisasi garis. Dapat juga dilihat sebagai ekuivalen dengan membuat asumsi implisit bahwa varians dari dua set kesalahan sebanding dengan varians dari dua set pengamatan; sejauh yang saya tahu, Anda mengaku tidak tahu jalan mana yang salah. $x$ $y$

Berikut adalah beberapa kode R untuk diilustrasikan: garis merah dalam grafik adalah regresi OLS pada , garis biru adalah regresi OLS pada , dan garis hijau adalah metode sederhana ini. Perhatikan bahwa kemiringannya harus sekitar 5. $Y$ $X$ $X$ $Y$

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")

Henry
sumber

@Henry, definisi Anda

tidak masuk akal bagi saya. Apakah ada "topi" yang hilang?

\hat{β}

$\hat{\beta}$

kardinal

{y_{i}}

$\{y_i\}$

{x_{i}}

$\{x_i\}$

σ

$\sigma$

s

$s$

{\hat{β}}_{x y}

$\hat{\beta}_{xy}$

y

$y$

x

$x$

{\hat{β}}_{y x}

$\hat{\beta}_{yx}$

x

$x$

y

$y$

{\hat{β}}_{x y} = \hat{ρ} s_{y} / s_{x}

$\hat{\beta}_{xy} = \hat{\rho}s_y / s_x$

{\hat{β}}_{y x} = \hat{ρ} s_{x} / s_{y}

$\hat{\beta}_{yx} = \hat{\rho} s_x / s_y$

\hat{ρ}

$\hat{\rho}$

x

$x$

y

$y$

\hat{ρ}

$\hat{\rho}$

x = b y + c

$x = by+c$

1 / b

$1/b$

y = x / b - c / b

$y=x/b-c/b$

y

$y$

x

$x$

\hat{ρ} s_{y} / s_{x}

$\hat{\rho}s_y/s_x$

s_{y} / \hat{ρ} s_{x}

$s_y/\hat{\rho}s_x$

s_{y} / s_{x}

$s_y/s_x$

y

$y$

x

$x$

Y

$Y$

X

$X$

Metode untuk memasang model kesalahan pengukuran "sederhana"

Jawaban: