Perbedaan antara rata-rata data kemudian pas dan pas data kemudian rata-rata

Jika ada, antara memasang garis ke beberapa "percobaan" terpisah kemudian rata-rata cocok, atau rata-rata data dari eksperimen terpisah kemudian paskan data rata-rata. Biarkan saya uraikan:

Saya melakukan simulasi komputer yang menghasilkan kurva, ditunjukkan di bawah ini. Kami mengekstrak kuantitas, sebut saja "A" dengan menyesuaikan wilayah linier plot (lama). Nilainya hanyalah kemiringan wilayah linier. Tentu saja ada kesalahan yang terkait dengan regresi linier ini.

Kami biasanya menjalankan 100 atau lebih dari simulasi ini dengan kondisi awal yang berbeda untuk menghitung nilai rata-rata "A". Saya telah diberitahu bahwa lebih baik untuk menyamakan data mentah (dari plot di bawah) ke dalam kelompok katakanlah 10, kemudian cocok untuk "A" dan rata-rata 10 "A" itu bersama-sama.

Saya tidak punya intuisi apakah ada manfaat untuk itu atau jika itu lebih baik daripada menyesuaikan 100 nilai "A" individu dan rata-rata.

error fitting average pragmatist1
sumber

Saya tidak yakin saya mengerti: Anda mengukur A pada titik waktu yang berbeda dan kemudian Anda memperkirakan ? Lalu Anda melakukan ini beberapa kali dan Anda mengambil rata-rata semua ?

A = β_{0} + β_{1} t

$A= \beta_0 +\beta_1 t$

β_{1}

$\beta_1$

Maaf tidak. Plot di atas adalah hasil dari simulasi tunggal (sebut saja eksperimen). Daerah non-linear awal dibuang, kami kemudian paskan garis ke bagian linier dan mendapatkan kemiringan, "A". Jadi satu keseluruhan simulasi menghasilkan estimasi tunggal "A". Tentu saja pertanyaan saya berkisar pada apakah rata-rata banyak plot kemudian menghitung A berbeda dari hanya menghitung A untuk sekelompok plot dan rata-rata mereka. Harapan itu menjelaskan.

pragmatist1

Saya tidak mengerti mengapa ini akan membuat perbedaan? (jika asumsi untuk regresi linier terpenuhi)

Saya kira pas tidak pernah salah / tidak konvergen / memberikan perkiraan curam karena percobaan masing-masing kecil? Itu akan menjadi sesuatu yang menggabungkan pertama (atau model hierarkis) dapat membantu.

Björn

Anda juga dapat menggabungkan semua data, tetapi menyertakan beberapa jenis komponen untuk membedakan antara percobaan (intersep yang berbeda untuk setiap percobaan, atau bahkan lereng yang berbeda), sesuatu seperti pendekatan model campuran linier. Dengan cara ini Anda dapat memperkirakan kemiringan keseluruhan, tetapi dapat mengidentifikasi efek atau perbedaan "batch" di antara eksperimen

bdeonovic

Jawaban:

Bayangkan kita berada dalam konteks data panel di mana ada variasi lintas waktu dan lintas perusahaan . Pikirkan setiap periode waktu sebagai percobaan terpisah. Saya memahami pertanyaan Anda apakah setara dengan memperkirakan efek menggunakan: $t$ $i$ $t$

Variasi lintas bagian dalam rata-rata deret waktu.
Rata-rata deret waktu variasi cross-sectional.

Jawabannya secara umum adalah tidak.

Pengaturan:

Dalam formulasi saya, kita dapat menganggap setiap periode waktu sebagai eksperimen terpisah. $t$

Katakanlah Anda memiliki panel panjang seimbang di atas perusahaan. Jika kita memecah setiap periode waktu dll ... kita dapat menulis data keseluruhan sebagai: $T$ $n$ $(X_t, \mathbf{y}_t)$

Y = [\begin{matrix} y_{1} \\ y_{2} \\ \dots \\ y_{n} \end{matrix}] X = [\begin{matrix} X_{1} \\ X_{2} \\ \dots \\ X_{n} \end{matrix}]

$Y = \begin{bmatrix} \mathbf{y}_1 \\ \mathbf{y}_2 \\ \ldots \\ \mathbf{y}_n \end{bmatrix} \quad \quad X = \begin{bmatrix} X_1 \\ X_2 \\ \ldots \\ X_n \end{bmatrix}$

Rata-rata cocok:

\begin{aligned} \frac{1}{T} \sum_{t} b_{t} & = \frac{1}{T} \sum_{t} {(X_{t}^{'} X_{t})}^{- 1} X_{t}^{'} y_{t} \\ = \frac{1}{T} \sum_{t} S_{t}^{- 1} (\frac{1}{n} \sum_{i} x_{t, i} y_{t, i}) where S_{t} = \frac{1}{n} \sum_{i} x_{t, i} x_{t, i}^{'} \end{aligned}

$\begin{align*} \frac{1}{T} \sum_t \mathbf{b}_t &= \frac{1}{T} \sum_t \left(X_t'X_t \right)^{-1} X_t' \mathbf{y}_t \\ &= \frac{1}{T} \sum_t S^{-1}_t \left( \frac{1}{n} \sum_i \mathbf{x}_{t,i} y_{t,i}\right) \quad \text{where } S_t = \frac{1}{n} \sum_i \mathbf{x}_{t,i} \mathbf{x}_{t,i}' \end{align*}$

Kesesuaian rata-rata:

Secara umum ini tidak sama dengan estimasi berdasarkan variasi cross-sectional dari rata-rata deret waktu (yaitu antara estimator).

{(\frac{1}{n} \sum_{i} {\bar{x}}_{i} {\bar{x}}_{i}^{'})}^{- 1} \frac{1}{n} \sum_{i} {\bar{x}}_{i} {\bar{y}}_{i}

$\left( \frac{1}{n} \sum_i \bar{\mathbf{x}}_i \bar{\mathbf{x}}_i' \right)^{-1} \frac{1}{n} \sum_i \bar{\mathbf{x}}_i \bar{y}_i$

Di mana dll ... $\bar{\mathbf{x}}_i = \frac{1}{T} \sum_t \mathbf{x}_{t, i}$

Taksiran OLS yang dikumpulkan:

Sesuatu yang mungkin berguna untuk dipikirkan adalah perkiraan OLS yang dikumpulkan. Apa itu? Kemudian gunakan

\begin{aligned} \hat{b} & = {(X^{'} X)}^{- 1} X^{'} Y \\ = {(\frac{1}{n T} \sum_{t} X_{t}^{'} X_{t})}^{- 1} (\frac{1}{n T} \sum_{t} X_{t}^{'} y_{i}) \end{aligned}

$\begin{align*} \hat{\mathbf{b}} &= \left(X'X\right)^{-1}X'Y \\ &= \left( \frac{1}{nT} \sum_t X_t'X_t \right)^{-1} \left( \frac{1}{nT} \sum_t X_t' \mathbf{y}_i \right) \end{align*}$

b_{t} = {(X_{t}^{'} X_{t})}^{- 1} X_{t}^{'} y_{i}

$\mathbf{b}_t = \left(X_t'X_t \right)^{-1}X_t' \mathbf{y}_i$

\begin{aligned} = {(\frac{1}{n T} \sum_{t} X_{t}^{'} X_{t})}^{- 1} (\frac{1}{n T} \sum_{t} X_{t}^{'} X_{t} b_{t}) \end{aligned}

$\begin{align*} &= \left( \frac{1}{nT} \sum_t X_t'X_t \right)^{-1} \left( \frac{1}{nT} \sum_t X_t'X_t \mathbf{b}_t \right) \end{align*}$

Mari dan menjadi taksiran kami untuk pada sampel penuh dan dalam periode masing-masing. Maka kita memiliki: $S = \frac{1}{nT} \sum_i X'X$ $S_t = \frac{1}{n} X_t'X_t$ $\operatorname{E}[\mathbf{x}\mathbf{x}']$ $t$

\begin{aligned} \hat{b} & = \frac{1}{T} \sum_{t} (S^{- 1} S_{t}) b_{t} \end{aligned}

$\begin{align*} \hat{\mathbf{b}} &= \frac{1}{T} \sum_t \left( S^{-1} S_t \right) \mathbf{b}_t \end{align*}$

Ini seperti rata-rata dari perkiraan waktu spesifik yang berbeda , tetapi ini sedikit berbeda. Dalam beberapa pengertian, Anda memberikan bobot lebih untuk periode dengan varians yang lebih tinggi dari variabel sisi kanan. $\mathbf{b}_t$

Kasus khusus: variabel sisi kanan invarian waktu dan spesifik perusahaan

Jika hak sisi variabel untuk setiap perusahaan yang konstan di waktu (yaitu untuk setiap dan ) maka untuk semua dan kita akan memiliki: $i$ $X_{t_1} = X_{t_2}$ $t_1$ $t_2$ $S = S_t$ $t$

\hat{b} = \frac{1}{T} \sum_{t} b_{t}

$\hat{\mathbf{b}} = \frac{1}{T} \sum_t \mathbf{b}_t$

Komentar menyenangkan:

Ini adalah kasus Fama dan Macbeth di mana ketika mereka menerapkan teknik ini rata-rata perkiraan cross-sectional untuk mendapatkan kesalahan standar yang konsisten ketika memperkirakan bagaimana pengembalian yang diharapkan bervariasi dengan kovarians perusahaan dengan pasar (atau pemuatan faktor lainnya).

Prosedur Fama-Macbeth adalah cara intuitif untuk mendapatkan kesalahan standar yang konsisten dalam konteks panel ketika istilah kesalahan dikorelasikan secara lintas-bagian tetapi independen sepanjang waktu. Teknik yang lebih modern yang menghasilkan hasil serupa adalah pengelompokan tepat waktu.

Matthew Gunn
sumber

(Catatan: Saya tidak memiliki reputasi yang cukup untuk berkomentar, jadi saya memposting ini sebagai jawaban.)

Untuk pertanyaan khusus yang diajukan, jawaban oleh fcop benar: pas rata-rata sama dengan rata-rata cocok (setidaknya untuk linear kuadrat terkecil). Namun perlu disebutkan bahwa salah satu dari pendekatan " online " naif ini dapat memberikan hasil yang bias, dibandingkan dengan menyesuaikan semua data sekaligus. Karena keduanya setara, saya akan fokus pada pendekatan "sesuai rata-rata". Pada dasarnya, menyesuaikan kurva rata-rata mengabaikan ketidakpastian relatif dalam nilai-nilai antara poin yang berbeda . Misalnya jika , , dan , maka $\bar{y}[x]=\langle y[x]\rangle$ $y$ $x$ $y_1[x_1]=y_2[x_1]=2$ $y_1[x_2]=1$ $y_1[x_2]=3$ $\bar{y}[x_1]=\bar{y}[x_2]=2$ , tetapi kurva apa pun yang cocok harus lebih peduli tentang ketidakcocokan di dibandingkan dengan . $x_1$ $x_2$

Perhatikan bahwa sebagian besar platform perangkat lunak ilmiah harus memiliki alat untuk menghitung / memperbarui kotak kuadrat "online" yang sebenarnya (dikenal sebagai kuadrat terkecil rekursif ). Jadi semua data dapat digunakan (jika ini diinginkan).

GeoMatt22
sumber

Jawaban yang diposting oleh fcop telah dihapus. Anda mungkin ingin sedikit mengubah jawaban Anda

Glen_b -Reinstate Monica