Mempengaruhi fungsi dan OLS

15

Saya mencoba memahami bagaimana fungsi pengaruh bekerja. Bisakah seseorang menjelaskan dalam konteks regresi OLS sederhana

yi=α+βxi+εi

di mana saya ingin fungsi pengaruh untuk .β

stevejb
sumber
2
Belum ada pertanyaan khusus di sini: apakah Anda ingin melihat bagaimana fungsi pengaruh dihitung? Apakah Anda ingin contoh empiris tertentu? Penjelasan heuristik tentang apa artinya?
whuber
1
Jika Anda melihat makalah Frank Critchley tahun 1986 "mempengaruhi fungsi-fungsi dalam komponen-komponen utama" (tidak dapat mengingat nama pasti makalah itu). Dia mendefinisikan fungsi pengaruh untuk regresi biasa di sini (yang mungkin atau mungkin tidak membuktikan jawaban saya salah).
probabilityislogic

Jawaban:

15

Fungsi pengaruh pada dasarnya adalah alat analitik yang dapat digunakan untuk menilai efek (atau "pengaruh") dari menghilangkan pengamatan pada nilai statistik tanpa harus menghitung ulang statistik itu . Mereka juga dapat digunakan untuk membuat estimasi varians asimptotik. Jika pengaruh sama dengan maka varians asimptotik adalah I 2I .I2n

Cara saya memahami fungsi pengaruh adalah sebagai berikut. Anda memiliki semacam CDF teoretis, dilambangkan dengan . Untuk OLS sederhana, Anda punyaFi(y)=Pr(Yi<yi)

Di manaΦ(z)adalah CDF normal standar, danσ2adalah varian kesalahan. Sekarang Anda dapat menunjukkan bahwa statistik apa pun akan menjadi fungsi CDF ini, maka notasiS(F)(yaitu beberapa fungsiF). Sekarang anggaplah kita mengubah fungsiFdengan "sedikit", menjadiF(i)(z)=(1+ζ)F(z)-ζδ(i)(

Pr(Yi<yi)=Pr(α+βxi+ϵi<yi)=Φ(yi(α+βxi)σ)
Φ(z)σ2S(F)FF Di mana δ i ( z ) = I ( y i < z ) , dan ζ = 1F(i)(z)=(1+ζ)F(z)ζδ(i)(z)δi(z)=I(yi<z) . JadiF(i)mewakili CDF data dengan titik data "ith" dihapus. Kita dapat melakukan serangkaian taylorF(i)(z)tentangζ=0. Ini memberi:ζ=1n1F(i)F(i)(z)ζ=0

S[F(i)(z,ζ)]S[F(i)(z,0)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Perhatikan bahwa jadi kita dapatkan: S [ F ( i ) ( z , ζ ) ] S [ F ( z ) ] + ζ [ S [ F ( i ) ( z , ζ ) ]F(i)(z,0)=F(z)

S[F(i)(z,ζ)]S[F(z)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Derivatif parsial di sini disebut fungsi pengaruh. Jadi ini mewakili perkiraan koreksi "urutan pertama" yang akan dibuat untuk statistik karena menghapus pengamatan "ith". Perhatikan bahwa dalam regresi sisanya tidak menjadi nol secara asimtotik, sehingga ini merupakan perkiraan terhadap perubahan yang mungkin Anda dapatkan. Sekarang tulis sebagai:β

β=1nj=1n(yjy¯)(xjx¯)1nj=1n(xjx¯)2

Dengan demikian beta adalah fungsi dari dua statistik: varian X dan kovarian antara X dan Y. Kedua statistik ini memiliki representasi dalam hal CDF sebagai:

dan v a r ( X ) = ( X - μ x ( F ) ) 2 d F di mana μ x = x d F

cov(X,Y)=(Xμx(F))(Yμy(F))dF
var(X)=(Xμx(F))2dF
μx=xdF

FF(i)=(1+ζ)Fζδ(i)

μx(i)=xd[(1+ζ)Fζδ(i)]=μxζ(xiμx)
Var(X)(i)=(Xμx(i))2dF(i)=(Xμx+ζ(xiμx))2d[(1+ζ)Fζδ(i)]

ζ2

Var(X)(i)Var(X)ζ[(xiμx)2Var(X)]
Cov(X,Y)(i)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]

β(i)ζ

β(i)(ζ)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]Var(X)ζ[(xiμx)2Var(X)]

Kita sekarang dapat menggunakan seri Taylor:

β(i)(ζ)β(i)(0)+ζ[β(i)(ζ)ζ]ζ=0

Menyederhanakan ini memberi:

β(i)(ζ)βζ[(xiμx)(yiμy)Var(X)β(xiμx)2Var(X)]

μyμxvar(X)ζ=1n1

β(i)βxix¯n1[yiy¯1nj=1n(xjx¯)2βxix¯1nj=1n(xjx¯)2]

x~=xx¯sx

β(i)βxi~n1[yi~sysxxi~β]
probabilityislogic
sumber
Jadi ceritanya tentang pengaruh titik data tambahan? Saya lebih terbiasa dengan respon impuls untuk data deret waktu, dalam konteks statistik semua pengaruh akan dijelaskan oleh efek marginal atau (pilihan beta) yang lebih baik dari koefisien standar regresi. Yah saya benar-benar membutuhkan lebih banyak konteks untuk menilai pertanyaan dan jawaban, tapi yang ini bagus, saya pikir (+1 belum menunggu).
Dmitrij Celov
@dmitrij - Itulah yang tersirat (atau apa yang saya simpulkan) dari tautan - ini tentang sifat kekokohan suatu statistik. Fungsi pengaruh sedikit lebih umum dari 1 titik data - Anda dapat mendefinisikan kembali fungsi delta menjadi jumlah dari mereka (begitu banyak pengamatan). Saya akan menganggapnya sebagai "Jacknife murah" sampai taraf tertentu - karena Anda tidak perlu memasang kembali modelnya.
probabilityislogic
10

Berikut ini adalah cara super umum untuk berbicara tentang pengaruh fungsi regresi. Pertama saya akan membahas satu cara menyajikan fungsi pengaruh:

FΣFϵ(x)

Fϵ(x)=(1ϵ)F+ϵδx
δxΣ{x}Σ

Dari sini kita dapat mendefinisikan fungsi pengaruh dengan cukup mudah:

θ^Fψi:XΓ

ψθ^,F(x)=limϵ0θ^(Fϵ(x))θ^(F)ϵ

θ^Fδx

Perkiraan OLS adalah solusi untuk masalah:

θ^=argminθE[(YXθ)T(YXθ)]

(x,y)

θ^ϵ=argminθ(1ϵ)E[(YXθ)T(YXθ)]+ϵ(yxθ)T(yxθ)

Mengambil kondisi pesanan pertama:

{(1ϵ)E[XTX]+ϵxTx}θ^ϵ=(1ϵ)E[XTY]+ϵxTy

Karena fungsi pengaruh hanyalah turunan Gateaux sekarang kita dapat mengatakan:

(E[XTX]+xTx)θ^ϵ+E[XTX]ψθ(x,y)=E[XTY]+xTy

ϵ=0θ^ϵ=θ^=E[XTX]1E[XTY]

ψθ(x,y)=E[XTX]1xT(yxθ)

Mitra sampel hingga dari fungsi pengaruh ini adalah:

ψθ(x,y)=(1NiXiTXi)1xT(yxθ)

Secara umum saya menemukan kerangka kerja ini (bekerja dengan fungsi pengaruh sebagai turunan Gateaux) lebih mudah untuk ditangani.

jayk
sumber