Saya memiliki dua seri data yang merencanakan usia rata-rata saat meninggal seiring waktu. Kedua seri menunjukkan peningkatan usia saat kematian dari waktu ke waktu, tetapi satu jauh lebih rendah dari yang lain. Saya ingin menentukan apakah kenaikan usia saat kematian dari sampel yang lebih rendah berbeda secara signifikan dibandingkan dengan sampel yang lebih tinggi.
Berikut adalah data , dipesan berdasarkan tahun (dari tahun 1972 hingga 2009 inklusif) dibulatkan menjadi tiga tempat desimal:
Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983
Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 12.639 11.667 14.286 12.794 12.250 14.079 17.917 16.250 17.321 18.182 17.500 20.000 18.824 21.522 21.500 21.167 21.818 22.895 23.214 24.167 26.250 24.375 27.143 24.500 23.676 25.179 24.861 26.875 27.143 27.045 28.500 29.318
Kedua seri ini non-stasioner - bagaimana saya bisa membandingkan keduanya? Saya menggunakan STATA. Saran apa pun akan diterima dengan penuh syukur.
time-series
correlation
stata
Matt Hurley
sumber
sumber
Jawaban:
Ini adalah situasi yang sederhana; mari kita simpan begitu. Kuncinya adalah fokus pada apa yang penting:
Memperoleh deskripsi data yang bermanfaat.
Menilai penyimpangan individu dari deskripsi itu.
Menilai kemungkinan peran dan pengaruh peluang dalam interpretasi.
Mempertahankan integritas dan transparansi intelektual.
Masih banyak pilihan dan banyak bentuk analisis akan valid dan efektif. Mari kita ilustrasikan satu pendekatan di sini yang dapat direkomendasikan untuk kepatuhannya pada prinsip-prinsip kunci ini.
Untuk menjaga integritas, mari kita bagi data menjadi dua: pengamatan dari tahun 1972 hingga 1990 dan dari tahun 1991 hingga 2009 (masing-masing 19 tahun). Kami akan mencocokkan model pada paruh pertama dan kemudian melihat seberapa baik cocok bekerja dalam memproyeksikan babak kedua. Ini memiliki keuntungan tambahan untuk mendeteksi perubahan signifikan yang mungkin terjadi selama paruh kedua.
Untuk mendapatkan deskripsi yang bermanfaat, kita perlu (a) menemukan cara untuk mengukur perubahan dan (b) menyesuaikan model paling sederhana yang sesuai untuk perubahan tersebut, mengevaluasinya, dan secara iteratif cocok dengan yang lebih rumit untuk mengakomodasi penyimpangan dari model sederhana.
(a) Anda memiliki banyak pilihan: Anda dapat melihat data mentah; Anda dapat melihat perbedaan tahunan mereka; Anda dapat melakukan hal yang sama dengan logaritma (untuk menilai perubahan relatif); Anda dapat menilai tahun hidup yang hilang atau harapan hidup relatif (RLE); atau banyak hal lainnya. Setelah beberapa pemikiran, saya memutuskan untuk mempertimbangkan RLE, yang didefinisikan sebagai rasio harapan hidup di Cohort B relatif terhadap yang (referensi) Cohort A. Untungnya, seperti yang ditunjukkan grafik, harapan hidup di Cohort A meningkat secara teratur di sebuah kandang mode dari waktu ke waktu, sehingga sebagian besar variasi yang tampak acak di RLE akan disebabkan oleh perubahan dalam Cohort B.
(B) Model yang paling sederhana untuk memulai adalah tren linier. Mari kita lihat seberapa baik kerjanya.
Poin biru gelap dalam plot ini adalah data yang disimpan untuk pemasangan; titik emas ringan adalah data selanjutnya, tidak digunakan untuk fit. Garis hitam cocok, dengan kemiringan 0,009 / tahun. Garis putus-putus adalah interval prediksi untuk nilai masa depan individu.
Secara keseluruhan, kecocokan terlihat bagus: pemeriksaan residu (lihat di bawah) tidak menunjukkan perubahan penting dalam ukurannya dari waktu ke waktu (selama periode data 1972-1990). (Ada beberapa indikasi bahwa mereka cenderung lebih besar sejak dini, ketika harapan hidup rendah. Kita dapat menangani komplikasi ini dengan mengorbankan beberapa kesederhanaan, tetapi manfaat untuk memperkirakan tren tidak mungkin menjadi besar.) Hanya ada petunjuk terkecil korelasi serial (diperlihatkan oleh beberapa aliran positif dan negatif residual), tetapi jelas ini tidak penting. Tidak ada outlier, yang akan ditunjukkan oleh poin di luar band prediksi.
Satu kejutan adalah bahwa pada tahun 2001 nilai tiba-tiba jatuh ke band prediksi yang lebih rendah dan tetap di sana: sesuatu yang agak tiba-tiba dan besar terjadi dan bertahan.
Berikut adalah residu, yang merupakan penyimpangan dari deskripsi yang disebutkan sebelumnya.
Karena kami ingin membandingkan residu dengan 0, garis vertikal ditarik ke level nol sebagai alat bantu visual. Sekali lagi, titik biru menunjukkan data yang digunakan untuk fit. Emas ringan adalah residu untuk data yang jatuh di dekat batas prediksi yang lebih rendah, pasca-2000.
Dari gambar ini kita dapat memperkirakan bahwa efek perubahan 2000-2001 adalah sekitar -0,07 . Ini mencerminkan penurunan tiba-tiba 0,07 (7%) dari masa hidup penuh dalam Cohort B. Setelah penurunan itu, pola horizontal residual menunjukkan bahwa tren sebelumnya terus berlanjut, tetapi pada level yang lebih rendah yang baru. Bagian dari analisis ini harus dianggap sebagai eksplorasi : itu tidak direncanakan secara khusus, tetapi muncul karena perbandingan mengejutkan antara data yang disimpan (1991-2009) dan kesesuaian dengan sisa data.
Tampaknya tidak ada alasan untuk mencocokkan model yang lebih rumit dengan data ini, setidaknya tidak untuk tujuan memperkirakan apakah ada tren asli dalam RLE dari waktu ke waktu: ada satu. Kami dapat melangkah lebih jauh dan membagi data menjadi nilai sebelum 2001 dan nilai pasca 2000 untuk menyempurnakan estimasi kamitren, tetapi tidak sepenuhnya jujur untuk melakukan tes hipotesis. Nilai-p akan secara artifisial rendah, karena pengujian pemisahan tidak direncanakan sebelumnya. Tetapi sebagai latihan eksplorasi, estimasi seperti itu baik-baik saja. Pelajari semua yang Anda bisa dari data Anda! Berhati-hatilah untuk tidak menipu diri sendiri dengan overfitting (yang hampir pasti akan terjadi jika Anda menggunakan lebih dari setengah lusin parameter atau menggunakan teknik pemasangan otomatis), atau pengintaian data: tetap waspada terhadap perbedaan antara konfirmasi formal dan informal (tetapi berharga) eksplorasi data.
Mari kita simpulkan:
Dengan memilih ukuran harapan hidup (RLE) yang tepat, memegang setengah data, memasang model sederhana, dan menguji model itu terhadap data yang tersisa, kami telah menetapkan dengan keyakinan tinggi bahwa : ada tren yang konsisten; telah dekat dengan linear selama periode waktu yang lama; dan ada penurunan RLE yang tiba-tiba pada tahun 2001.
Model kami sangat pelit : hanya membutuhkan dua angka (kemiringan dan intersep) untuk menggambarkan data awal secara akurat. Perlu yang ketiga (tanggal istirahat, 2001) untuk menggambarkan keberangkatan yang jelas tapi tidak terduga dari deskripsi ini. Tidak ada outlier yang berhubungan dengan deskripsi tiga parameter ini. Model ini tidak akan ditingkatkan secara substansial dengan mengkarakterisasi korelasi serial (fokus teknik deret waktu secara umum), mencoba menggambarkan deviasi individu kecil (residu) yang diperlihatkan, atau memperkenalkan kecocokan yang lebih rumit (seperti menambahkan komponen waktu kuadratik) atau memodelkan perubahan ukuran residu dari waktu ke waktu).
Tren telah 0,009 RLE per tahun . Ini berarti bahwa setiap tahun, harapan hidup dalam Cohort B telah memiliki 0,009 (hampir 1%) dari harapan hidup normal yang ditambahkan. Selama masa studi (37 tahun), itu akan berjumlah 37 * 0,009 = 0,34 = sepertiga dari peningkatan seumur hidup penuh. Kemunduran pada tahun 2001 mengurangi kenaikan itu menjadi sekitar 0,28 seumur hidup dari tahun 1972 hingga 2009 (meskipun selama periode itu, harapan hidup secara keseluruhan meningkat 10%).
Meskipun model ini dapat ditingkatkan, kemungkinan akan membutuhkan lebih banyak parameter dan peningkatannya tidak mungkin menjadi besar (seperti perilaku hampir acak dari residual membuktikan). Maka, secara keseluruhan, kita harus puas untuk sampai pada deskripsi data yang ringkas, bermanfaat, dan sederhana untuk pekerjaan analitis yang sangat sedikit.
sumber
Saya pikir jawaban whuber adalah langsung dan sederhana untuk dimengerti oleh orang yang tidak memiliki waktu seperti saya. Saya mendasarkan milik saya pada miliknya. Jawaban saya adalah dalam R bukan Stata karena saya tidak tahu stata dengan baik.
Saya bertanya-tanya apakah pertanyaannya sebenarnya meminta kita untuk melihat apakah peningkatan tahun absolut pada tahun yang sama di kedua kelompok (bukan relatif). Saya pikir ini penting dan menggambarkannya sebagai berikut. Pertimbangkan contoh mainan berikut:
Di sini kita memiliki 2 kohort, yang masing-masing memiliki peningkatan rata-rata 1 tahun per tahun dalam kelangsungan hidup rata-rata. Jadi setiap tahun kedua kohort dalam contoh ini meningkat dengan jumlah absolut yang sama, tetapi RLE memberikan yang berikut:
Yang jelas memiliki tren naik, dan nilai p untuk menguji hipotesis bahwa gradien garis 0 adalah 2.2e-16. Garis lurus yang pas (mari kita abaikan bahwa garis ini terlihat melengkung) memiliki gradien 0,008. Jadi meskipun kedua kohort memiliki peningkatan absolut yang sama dalam setahun, RLE memiliki kemiringan ke atas.
Jadi jika Anda menggunakan RLE ketika Anda ingin mencari kenaikan absolut, maka Anda akan secara tidak tepat menolak hipotesis nol.
Menggunakan data yang disediakan, menghitung perbedaan absolut antara kohort yang kami dapatkan:
Yang menyiratkan bahwa perbedaan absolut antara kelangsungan hidup median secara bertahap menurun (yaitu kohort dengan kelangsungan hidup yang buruk secara bertahap semakin dekat dengan kohort dengan kelangsungan hidup yang lebih baik).
sumber
Dua seri waktu ini tampaknya memiliki tren deterministik. Ini adalah salah satu hubungan yang Anda ingin hapus sebelum analisis lebih lanjut. Secara pribadi, saya akan melanjutkan sebagai berikut:
1) Saya akan menjalankan regresi untuk setiap deret waktu terhadap konstanta dan waktu, dan menghitung residual untuk setiap deret waktu.
2) Mengambil dua seri residu, dihitung pada langkah di atas, saya akan menjalankan regresi linier sederhana (tanpa suku konstan) dan melihat t-statistik, p-value, dan memutuskan apakah ada ketergantungan lebih lanjut antara dua seri.
Analisis ini mengasumsikan seperangkat asumsi yang sama dengan yang Anda buat dalam regresi linier.
sumber
Dalam beberapa kasus, ada yang tahu model teoritis yang dapat digunakan untuk menguji hipotesis Anda. Dalam dunia saya ini "pengetahuan" sering tidak ada dan seseorang harus menggunakan teknik statistik yang dapat diklasifikasikan sebagai analisis data eksplorasi yang merangkum apa yang berikut. Ketika menganalisis data deret waktu yang tidak stasioner yaitu memiliki sifat autokorelasi, tes korelasi silang sederhana sering menyesatkan sejauh positif palsu dapat dengan mudah ditemukan. Salah satu analisis awal dari ini ditemukan dalam Yule, GU, 1926, "Mengapa kita kadang-kadang mendapatkan korelasi omong kosong antara deret waktu? Sebuah studi dalam pengambilan sampel dan sifat deret waktu", Journal of Royal Statistics Society 89, 1– 64. Atau ketika satu atau lebih dari seri itu sendiri telah dipengaruhi oleh aktivitas luar biasa (lihat whuber " kemunduran mendadak dalam Cohort B pada 2001) yang secara efektif dapat menyembunyikan hubungan yang signifikan. Sekarang mendeteksi hubungan antara deret waktu meluas ke memeriksa tidak hanya hubungan kontemporer tetapi juga hubungan yang tertinggal. Melanjutkan, jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: Sekarang mendeteksi hubungan antara deret waktu meluas ke memeriksa tidak hanya hubungan kontemporer tetapi juga hubungan yang tertinggal. Melanjutkan, jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: Sekarang mendeteksi hubungan antara deret waktu meluas ke memeriksa tidak hanya hubungan kontemporer tetapi juga hubungan yang tertinggal. Melanjutkan, jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: jika salah satu seri telah dipengaruhi oleh anomali (peristiwa satu kali) maka kita harus memperkuat analisis kita dengan menyesuaikan distorsi satu kali ini. Literatur seri waktu menunjukkan bagaimana mengidentifikasi hubungan melalui pra-pemutihan untuk mengidentifikasi struktur dengan lebih jelas. Pra-pemutihan menyesuaikan untuk struktur intra-korelatif sebelum mengidentifikasi struktur antar-korelatif. Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut: Perhatikan kata kuncinya adalah mengidentifikasi struktur. Pendekatan ini dengan mudah mengarah pada "model berguna" berikut:
Y (T) = -194,45
+ [X1 (T)] [(+ 1.2396+ 1.6523B ** 1)] COHORTA
yang menunjukkan hubungan kontemporer 1,2936 dan efek tertinggal 1,6523. Perhatikan bahwa ada beberapa tahun di mana aktivitas yang tidak biasa diidentifikasi yaitu. (1975,2001,1983,1999,1976,1985,1984,1991 dan 1989). Penyesuaian selama bertahun-tahun memungkinkan kami untuk menilai lebih jelas hubungan antara kedua seri ini.
Dalam hal membuat perkiraan
MODEL DIUNGKAPKAN SEBAGAI XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ konstan
KONSTAN SISI TANGAN YANG TEPAT ADALAH: -194.45
COHORTA 0 1.239589 X (39) * 78.228616 = 96.971340
COHORTA 1 1.652332 X (38) * 77.983000 = 128.853835
I ~ L00030 0 -2.475963 X (39) * 1.000000 = -2.475963
Empat koefisien adalah semua yang diperlukan untuk membuat perkiraan dan tentu saja prediksi untuk CohortA pada periode waktu 39 (78.228616) yang diperoleh dari model ARIMA untuk Cohorta.
sumber
Jawaban ini berisi beberapa gambar
sumber