Bagaimana membandingkan 2 seri waktu non-stasioner untuk menentukan korelasi?

11

Saya memiliki dua seri data yang merencanakan usia rata-rata saat meninggal seiring waktu. Kedua seri menunjukkan peningkatan usia saat kematian dari waktu ke waktu, tetapi satu jauh lebih rendah dari yang lain. Saya ingin menentukan apakah kenaikan usia saat kematian dari sampel yang lebih rendah berbeda secara signifikan dibandingkan dengan sampel yang lebih tinggi.

Berikut adalah data , dipesan berdasarkan tahun (dari tahun 1972 hingga 2009 inklusif) dibulatkan menjadi tiga tempat desimal:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Kedua seri ini non-stasioner - bagaimana saya bisa membandingkan keduanya? Saya menggunakan STATA. Saran apa pun akan diterima dengan penuh syukur.

Plot data

Matt Hurley
sumber
Jika Anda memberikan tautan ke data Anda, Matt, kami dapat mengedit pertanyaan Anda untuk memasukkan data itu.
whuber
Terima kasih banyak atas minat Anda pada penderitaan saya - tautan ke data yang ditambahkan. Bantuan apa pun akan dihargai.
Mat
@ Matt: Melirik data Anda, sepertinya keduanya tren naik. Jadi, apakah Anda pada dasarnya tertarik pada hipotesis bahwa satu kelompok meningkat lebih cepat daripada yang lain?
Andrew
Ya Andrew - kohort atas adalah populasi umum, sementara kohort dengan usia kematian yang lebih miskin adalah kelompok yang sekarat dengan kondisi yang sama. Hipotesis nol adalah bahwa jika mereka berkorelasi erat setiap peningkatan dalam kelangsungan hidup berpotensi disebabkan oleh faktor-faktor umum (dan tidak meningkatkan perawatan kondisi tersebut).
Matt Hurley
Kenaikan, bagaimanapun diukur, sangat jelas berbeda sehingga tidak perlu tes formal. (Anda akan mendapatkan nilai-p atau kurang hampir tidak peduli bagaimana Anda menilai dan membandingkan lereng, tidak peduli bagaimana Anda memodelkan variasi.) Perbedaan dalam harapan hidup menurun secara eksponensial pada tingkat 0,83% per tahun. Yang menarik adalah kemunduran tiba-tiba di Cohort B pada 2001; perubahan ini - setara dengan kehilangan sesaat dari enam tahun kemajuan - secara statistik signifikan. 10-10
whuber

Jawaban:

14

Ini adalah situasi yang sederhana; mari kita simpan begitu. Kuncinya adalah fokus pada apa yang penting:

  • Memperoleh deskripsi data yang bermanfaat.

  • Menilai penyimpangan individu dari deskripsi itu.

  • Menilai kemungkinan peran dan pengaruh peluang dalam interpretasi.

  • Mempertahankan integritas dan transparansi intelektual.

Masih banyak pilihan dan banyak bentuk analisis akan valid dan efektif. Mari kita ilustrasikan satu pendekatan di sini yang dapat direkomendasikan untuk kepatuhannya pada prinsip-prinsip kunci ini.

Untuk menjaga integritas, mari kita bagi data menjadi dua: pengamatan dari tahun 1972 hingga 1990 dan dari tahun 1991 hingga 2009 (masing-masing 19 tahun). Kami akan mencocokkan model pada paruh pertama dan kemudian melihat seberapa baik cocok bekerja dalam memproyeksikan babak kedua. Ini memiliki keuntungan tambahan untuk mendeteksi perubahan signifikan yang mungkin terjadi selama paruh kedua.

Untuk mendapatkan deskripsi yang bermanfaat, kita perlu (a) menemukan cara untuk mengukur perubahan dan (b) menyesuaikan model paling sederhana yang sesuai untuk perubahan tersebut, mengevaluasinya, dan secara iteratif cocok dengan yang lebih rumit untuk mengakomodasi penyimpangan dari model sederhana.

(a) Anda memiliki banyak pilihan: Anda dapat melihat data mentah; Anda dapat melihat perbedaan tahunan mereka; Anda dapat melakukan hal yang sama dengan logaritma (untuk menilai perubahan relatif); Anda dapat menilai tahun hidup yang hilang atau harapan hidup relatif (RLE); atau banyak hal lainnya. Setelah beberapa pemikiran, saya memutuskan untuk mempertimbangkan RLE, yang didefinisikan sebagai rasio harapan hidup di Cohort B relatif terhadap yang (referensi) Cohort A. Untungnya, seperti yang ditunjukkan grafik, harapan hidup di Cohort A meningkat secara teratur di sebuah kandang mode dari waktu ke waktu, sehingga sebagian besar variasi yang tampak acak di RLE akan disebabkan oleh perubahan dalam Cohort B.

(B) Model yang paling sederhana untuk memulai adalah tren linier. Mari kita lihat seberapa baik kerjanya.

Gambar 1

Poin biru gelap dalam plot ini adalah data yang disimpan untuk pemasangan; titik emas ringan adalah data selanjutnya, tidak digunakan untuk fit. Garis hitam cocok, dengan kemiringan 0,009 / tahun. Garis putus-putus adalah interval prediksi untuk nilai masa depan individu.

Secara keseluruhan, kecocokan terlihat bagus: pemeriksaan residu (lihat di bawah) tidak menunjukkan perubahan penting dalam ukurannya dari waktu ke waktu (selama periode data 1972-1990). (Ada beberapa indikasi bahwa mereka cenderung lebih besar sejak dini, ketika harapan hidup rendah. Kita dapat menangani komplikasi ini dengan mengorbankan beberapa kesederhanaan, tetapi manfaat untuk memperkirakan tren tidak mungkin menjadi besar.) Hanya ada petunjuk terkecil korelasi serial (diperlihatkan oleh beberapa aliran positif dan negatif residual), tetapi jelas ini tidak penting. Tidak ada outlier, yang akan ditunjukkan oleh poin di luar band prediksi.

Satu kejutan adalah bahwa pada tahun 2001 nilai tiba-tiba jatuh ke band prediksi yang lebih rendah dan tetap di sana: sesuatu yang agak tiba-tiba dan besar terjadi dan bertahan.

Berikut adalah residu, yang merupakan penyimpangan dari deskripsi yang disebutkan sebelumnya.

Gambar 2

Karena kami ingin membandingkan residu dengan 0, garis vertikal ditarik ke level nol sebagai alat bantu visual. Sekali lagi, titik biru menunjukkan data yang digunakan untuk fit. Emas ringan adalah residu untuk data yang jatuh di dekat batas prediksi yang lebih rendah, pasca-2000.

Dari gambar ini kita dapat memperkirakan bahwa efek perubahan 2000-2001 adalah sekitar -0,07 . Ini mencerminkan penurunan tiba-tiba 0,07 (7%) dari masa hidup penuh dalam Cohort B. Setelah penurunan itu, pola horizontal residual menunjukkan bahwa tren sebelumnya terus berlanjut, tetapi pada level yang lebih rendah yang baru. Bagian dari analisis ini harus dianggap sebagai eksplorasi : itu tidak direncanakan secara khusus, tetapi muncul karena perbandingan mengejutkan antara data yang disimpan (1991-2009) dan kesesuaian dengan sisa data.

10-7

Tampaknya tidak ada alasan untuk mencocokkan model yang lebih rumit dengan data ini, setidaknya tidak untuk tujuan memperkirakan apakah ada tren asli dalam RLE dari waktu ke waktu: ada satu. Kami dapat melangkah lebih jauh dan membagi data menjadi nilai sebelum 2001 dan nilai pasca 2000 untuk menyempurnakan estimasi kamitren, tetapi tidak sepenuhnya jujur ​​untuk melakukan tes hipotesis. Nilai-p akan secara artifisial rendah, karena pengujian pemisahan tidak direncanakan sebelumnya. Tetapi sebagai latihan eksplorasi, estimasi seperti itu baik-baik saja. Pelajari semua yang Anda bisa dari data Anda! Berhati-hatilah untuk tidak menipu diri sendiri dengan overfitting (yang hampir pasti akan terjadi jika Anda menggunakan lebih dari setengah lusin parameter atau menggunakan teknik pemasangan otomatis), atau pengintaian data: tetap waspada terhadap perbedaan antara konfirmasi formal dan informal (tetapi berharga) eksplorasi data.

Mari kita simpulkan:

  • Dengan memilih ukuran harapan hidup (RLE) yang tepat, memegang setengah data, memasang model sederhana, dan menguji model itu terhadap data yang tersisa, kami telah menetapkan dengan keyakinan tinggi bahwa : ada tren yang konsisten; telah dekat dengan linear selama periode waktu yang lama; dan ada penurunan RLE yang tiba-tiba pada tahun 2001.

  • Model kami sangat pelit : hanya membutuhkan dua angka (kemiringan dan intersep) untuk menggambarkan data awal secara akurat. Perlu yang ketiga (tanggal istirahat, 2001) untuk menggambarkan keberangkatan yang jelas tapi tidak terduga dari deskripsi ini. Tidak ada outlier yang berhubungan dengan deskripsi tiga parameter ini. Model ini tidak akan ditingkatkan secara substansial dengan mengkarakterisasi korelasi serial (fokus teknik deret waktu secara umum), mencoba menggambarkan deviasi individu kecil (residu) yang diperlihatkan, atau memperkenalkan kecocokan yang lebih rumit (seperti menambahkan komponen waktu kuadratik) atau memodelkan perubahan ukuran residu dari waktu ke waktu).

  • Tren telah 0,009 RLE per tahun . Ini berarti bahwa setiap tahun, harapan hidup dalam Cohort B telah memiliki 0,009 (hampir 1%) dari harapan hidup normal yang ditambahkan. Selama masa studi (37 tahun), itu akan berjumlah 37 * 0,009 = 0,34 = sepertiga dari peningkatan seumur hidup penuh. Kemunduran pada tahun 2001 mengurangi kenaikan itu menjadi sekitar 0,28 seumur hidup dari tahun 1972 hingga 2009 (meskipun selama periode itu, harapan hidup secara keseluruhan meningkat 10%).

  • Meskipun model ini dapat ditingkatkan, kemungkinan akan membutuhkan lebih banyak parameter dan peningkatannya tidak mungkin menjadi besar (seperti perilaku hampir acak dari residual membuktikan). Maka, secara keseluruhan, kita harus puas untuk sampai pada deskripsi data yang ringkas, bermanfaat, dan sederhana untuk pekerjaan analitis yang sangat sedikit.

whuber
sumber
: whuber pulsa satu kali yang teridentifikasi tidak berperan dalam ramalan yang akan
dikata
2

Saya pikir jawaban whuber adalah langsung dan sederhana untuk dimengerti oleh orang yang tidak memiliki waktu seperti saya. Saya mendasarkan milik saya pada miliknya. Jawaban saya adalah dalam R bukan Stata karena saya tidak tahu stata dengan baik.

Saya bertanya-tanya apakah pertanyaannya sebenarnya meminta kita untuk melihat apakah peningkatan tahun absolut pada tahun yang sama di kedua kelompok (bukan relatif). Saya pikir ini penting dan menggambarkannya sebagai berikut. Pertimbangkan contoh mainan berikut:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

masukkan deskripsi gambar di sini

Di sini kita memiliki 2 kohort, yang masing-masing memiliki peningkatan rata-rata 1 tahun per tahun dalam kelangsungan hidup rata-rata. Jadi setiap tahun kedua kohort dalam contoh ini meningkat dengan jumlah absolut yang sama, tetapi RLE memberikan yang berikut:

rle <-  a / b
plot(rle)

masukkan deskripsi gambar di sini

Yang jelas memiliki tren naik, dan nilai p untuk menguji hipotesis bahwa gradien garis 0 adalah 2.2e-16. Garis lurus yang pas (mari kita abaikan bahwa garis ini terlihat melengkung) memiliki gradien 0,008. Jadi meskipun kedua kohort memiliki peningkatan absolut yang sama dalam setahun, RLE memiliki kemiringan ke atas.

Jadi jika Anda menggunakan RLE ketika Anda ingin mencari kenaikan absolut, maka Anda akan secara tidak tepat menolak hipotesis nol.

Menggunakan data yang disediakan, menghitung perbedaan absolut antara kohort yang kami dapatkan: masukkan deskripsi gambar di sini

Yang menyiratkan bahwa perbedaan absolut antara kelangsungan hidup median secara bertahap menurun (yaitu kohort dengan kelangsungan hidup yang buruk secara bertahap semakin dekat dengan kohort dengan kelangsungan hidup yang lebih baik).

Andrew
sumber
: Andrew perhatikan dua kelompok residu di akhir grafik Anda. Ini menunjukkan potensi kekurangan dalam analisis Anda. Sayangnya bahkan matematikawan terampil yang juga ahli statistik terampil kadang-kadang bukan orang-orang deret waktu. Apa yang saya sarankan adalah apa itu prosedur operasi standar untuk analisis deret waktu.
IrishStat
@ Dan tanggapan bagus. Saya terbalik, saya percaya pada kualifikasi Anda!
Adam
1
: Adam Terima kasih atas kata-kata baik Anda. Anda akan perhatikan bahwa saya hanya membahas masalah seri waktu / pertanyaan di mana saya memiliki beberapa keahlian karena saya telah mengkhususkan diri dalam bidang itu selama 40 tahun terakhir.
IrishStat
@IrishStat sentuhan diskursif. Pengalaman yang menyenangkan, Anda telah menempatkan punk seperti saya pada tempatnya sejak sebelum saya lahir.
Adam
: Adam Seluruh idenya adalah untuk membantu orang lain. Saya benar-benar berharap begitu. Saya bingung dengan kata "punk" karena saya tidak punya perasaan sama sekali. Hanya berusaha membantu!
IrishStat
1

Dua seri waktu ini tampaknya memiliki tren deterministik. Ini adalah salah satu hubungan yang Anda ingin hapus sebelum analisis lebih lanjut. Secara pribadi, saya akan melanjutkan sebagai berikut:

1) Saya akan menjalankan regresi untuk setiap deret waktu terhadap konstanta dan waktu, dan menghitung residual untuk setiap deret waktu.

2) Mengambil dua seri residu, dihitung pada langkah di atas, saya akan menjalankan regresi linier sederhana (tanpa suku konstan) dan melihat t-statistik, p-value, dan memutuskan apakah ada ketergantungan lebih lanjut antara dua seri.

Analisis ini mengasumsikan seperangkat asumsi yang sama dengan yang Anda buat dalam regresi linier.

Lalas
sumber
: user3544 Menjalankan regresi terhadap konstanta dalam waktu adalah bentuk detrending yang merupakan salah satu bentuk pra-pemutihan; differencing adalah bentuk lain dari pra-pemutihan: Keduanya bersifat duga karena mungkin ada beberapa tren atau berbagai bentuk operator yang berbeda. Perhatikan bahwa operator yang membedakan adalah kasus khusus dari filter ARIMA yang mengubah rangkaian menjadi white noise. Secara umum seseorang ingin memfilter X untuk membuatnya noise (x) dan kemudian menerapkan filter itu ke Y untuk membuat y (tidak harus white noise) untuk keperluan mengidentifikasi struktur atau transfer antara Y dan X.
IrishStat
: User3544 Saya seharusnya memuji Anda menggunakan tren tunggal sederhana yang tidak rumit tapi saya pikir kadang-kadang orang tidak boleh berasumsi. Tren sederhana sering kali tidak berguna jika ada perubahan level dalam seri atau ada sejumlah tren. Pengujian hipotesis tentang keteguhan parameter perlu kuat dan dilakukan di mana orang mencari titik waktu di mana parameter mungkin telah berubah daripada secara sewenang-wenang memilih titik menggunakan Uji Chow. Telah diketahui secara luas bahwa nilai-nilai yang tidak biasa menguji bias untuk autokorelasi itulah sebabnya seseorang perlu mendeteksinya.
IrishStat
IrishStat: tepuk tangan Anda diterima dan didengar dengan baik .. :) Saya sangat setuju dengan komentar Anda, namun, mengingat plot dari dua seri waktu, saya pikir "Mari kita tetap sederhana" .. :)
Lalas
1
: user3544 Kutipan Einstein favorit saya adalah "Jadikan semuanya sesederhana mungkin, tetapi tidak sesederhana" atau disajikan kembali. Buat model sesederhana mungkin, tetapi tidak sederhana karena beberapa orang berpikir sederhana adalah tujuan sementara itu bisa menjadi penyebab analisis yang tidak mencukupi. Dalam hal ini saran Anda sudah cukup untuk mengidentifikasi korelasi kontemporer dan korelasi lag antara kedua kelompok sambil menjelaskan pergeseran level. Baca lebih lanjut: brainyquote.com/quotes/quotes/a/… .
IrishStat
0

Dalam beberapa kasus, ada yang tahu model teoritis yang dapat digunakan untuk menguji hipotesis Anda. Dalam dunia saya ini "pengetahuan" sering tidak ada dan seseorang harus menggunakan teknik statistik yang dapat diklasifikasikan sebagai analisis data eksplorasi yang merangkum apa yang berikut. Ketika menganalisis data deret waktu yang tidak stasioner yaitu memiliki sifat autokorelasi, tes korelasi silang sederhana sering menyesatkan sejauh positif palsu dapat dengan mudah ditemukan. Salah satu analisis awal dari ini ditemukan dalam Yule, GU, 1926, "Mengapa kita kadang-kadang mendapatkan korelasi omong kosong antara deret waktu? Sebuah studi dalam pengambilan sampel dan sifat deret waktu", Journal of Royal Statistics Society 89, 1– 64. Atau ketika satu atau lebih dari seri itu sendiri telah dipengaruhi oleh aktivitas luar biasa (lihat whuber " kemunduran mendadak dalam Cohort B pada 2001) yang secara efektif dapat menyembunyikan hubungan yang signifikan. Sekarang mendeteksi hubungan antara deret waktu meluas ke memeriksa tidak hanya hubungan kontemporer tetapi juga hubungan yang tertinggal. Melanjutkan, jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: Sekarang mendeteksi hubungan antara deret waktu meluas ke memeriksa tidak hanya hubungan kontemporer tetapi juga hubungan yang tertinggal. Melanjutkan, jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: Sekarang mendeteksi hubungan antara deret waktu meluas ke memeriksa tidak hanya hubungan kontemporer tetapi juga hubungan yang tertinggal. Melanjutkan, jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut:

Y (T) = -194,45
+ [X1 (T)] [(+ 1.2396+ 1.6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

yang menunjukkan hubungan kontemporer 1,2936 dan efek tertinggal 1,6523. Perhatikan bahwa ada beberapa tahun di mana aktivitas yang tidak biasa diidentifikasi yaitu. (1975,2001,1983,1999,1976,1985,1984,1991 dan 1989). Penyesuaian selama bertahun-tahun memungkinkan kami untuk menilai lebih jelas hubungan antara kedua seri ini.

Dalam hal membuat perkiraan

MODEL DIUNGKAPKAN SEBAGAI XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ konstan

KONSTAN SISI TANGAN YANG TEPAT ADALAH: -194.45

COHORTA 0 1.239589 X (39) * 78.228616 = 96.971340

COHORTA 1 1.652332 X (38) * 77.983000 = 128.853835

I ~ L00030 0 -2.475963 X (39) * 1.000000 = -2.475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Empat koefisien adalah semua yang diperlukan untuk membuat perkiraan dan tentu saja prediksi untuk CohortA pada periode waktu 39 (78.228616) yang diperoleh dari model ARIMA untuk Cohorta.

IrishStat
sumber
4
Sembilan dari 38 tahun menunjukkan kegiatan "tidak biasa"? Dalam model dengan (tampaknya) 25 parameter ?! Ada yang salah dengan interpretasi itu. Terlepas dari semua pulsa ini dan pergeseran level, apakah Anda sudah menemukan komponen nonlinear dalam tren kohort b?
whuber
2
Berapa angka di kolom kanan (3, 30, 29, 11, dll.)? Mereka tampaknya menjadi bagian dari deskripsi data Anda dan karenanya juga merupakan parameter. Bahkan jika kita tidak menghitungnya, menggunakan 14 parameter untuk menggambarkan 38 nilai, terutama ketika pertanyaannya adalah "apakah ada tren?", Tampaknya berlebihan. Dalam hal ini, apa sebenarnya trennya? Di mana dalam semua taksiran ini seseorang menggali? Jika seorang dokter mendekati Anda dan bertanya, "oke, apa yang telah dicapai untuk pasien di Cohort B sejak 1972," dapatkah Anda memberi tahu mereka dalam satu kalimat yang jelas?
whuber
2
Re "prediksi yang sangat kuat": Saya mungkin salah paham tentang jumlah model Anda, tetapi secara umum, deskripsi yang lebih baik dari suatu metode (seri waktu atau lainnya) yang mengidentifikasi seperempat data seseorang sebagai "tidak biasa" dan membutuhkan "penyesuaian" akan menjadi "terlalu banyak" dan "tidak perlu rumit." Pernyataan Anda tentang tidak adanya tren dalam Cohort B sungguh luar biasa.
whuber
2
@Adam, karena analisis ini pada dasarnya mengabaikan informasi tentang variabilitas yang terkandung dalam 10 "pulsa", setiap band prediksi yang ditempatkan di sekitar perkiraan akan sangat optimis (terlalu ketat). Selain itu, analisis yang lebih dalam yang mencakup semua data (tidak seperti analisis ilustratif saya yang hanya mencakup paruh pertama) akan mendeteksi komponen nonlinier yang konsisten dengan sedikit penurunan tren, dan itu juga tidak terdeteksi di sini. Yang lebih penting daripada perkiraan adalah memahami efek 2000-2001: jika itu bisa diulang, maka semua perkiraan kemungkinan salah.
whuber
1
@whuber aku memang tidak tahu semua jargon teknis, tapi penjelasanmu masuk akal. Terima kasih banyak.
Adam
-1

Jawaban ini berisi beberapa gambar residual dari model yang berguna! [] [1]

aktual dibersihkan dari IntervensiACF residual modelmasukkan deskripsi gambar di sini fit dan perkiraan CohortB RESIDUAL DARI MODELfit dan perkiraan aktual

IrishStat
sumber