Berikut ini beberapa konteksnya. Saya tertarik untuk menentukan bagaimana dua variabel lingkungan (suhu, tingkat nutrisi) berdampak pada nilai rata-rata variabel respons selama periode 11 tahun. Dalam setiap tahun, ada data dari lebih dari 100 ribu lokasi.
Tujuannya adalah untuk menentukan apakah, selama periode 11 tahun, nilai rata-rata dari variabel respons telah merespons perubahan dalam variabel lingkungan (misalnya suhu yang lebih hangat + lebih banyak nutrisi akan = respons yang lebih besar).
Sayangnya, karena responsnya adalah nilai rata-rata (tanpa melihat rata-rata, hanya variasi inter-tahunan reguler akan membanjiri sinyal), regresi akan menjadi 11 titik data (1 nilai rata-rata per tahun), dengan 2 variabel penjelas. Bagi saya bahkan regresi linier positif akan sulit untuk dianggap bermakna mengingat bahwa dataset sangat kecil (bahkan tidak memenuhi nominal 40 poin / variabel kecuali hubungannya super kuat).
Apakah saya benar untuk membuat asumsi ini? Adakah yang bisa menawarkan pemikiran / perspektif lain yang mungkin saya lewatkan?
PS: Beberapa peringatan: Tidak ada cara untuk mendapatkan lebih banyak data tanpa menunggu tahun tambahan. Jadi data yang tersedia adalah apa yang harus kita kerjakan.
sumber
Jawaban:
Sejumlah kecil titik data membatasi jenis model apa yang cocok untuk data Anda. Namun itu tidak selalu berarti bahwa tidak masuk akal untuk memulai pemodelan. Dengan sedikit data, Anda hanya akan dapat mendeteksi asosiasi jika efeknya kuat dan hamburan lemah.
Ini pertanyaan lain model apa yang cocok dengan data Anda. Anda menggunakan kata 'regresi' dalam judul. Model tersebut sampai batas tertentu mencerminkan apa yang Anda ketahui tentang fenomena tersebut. Ini tampaknya merupakan pengaturan ekologis, sehingga tahun sebelumnya mungkin berpengaruh juga.
sumber
Saya telah melihat kumpulan data ekologis dengan kurang dari 11 poin, jadi saya akan mengatakan jika Anda sangat berhati-hati, Anda dapat menarik beberapa kesimpulan terbatas dengan data terbatas Anda.
Anda juga dapat melakukan analisis daya untuk menentukan seberapa kecil efek yang dapat Anda deteksi, mengingat parameter desain eksperimental Anda.
Anda juga mungkin tidak perlu membuang variasi ekstra per tahun jika Anda melakukan analisis yang cermat
sumber
Pemodelan data secara fundamental (terutama untuk deret waktu) mengasumsikan bahwa Anda telah mengumpulkan data pada frekuensi yang cukup untuk menangkap fenomena yang menarik. Contoh paling sederhana adalah untuk gelombang sinus - jika Anda mengumpulkan data pada frekuensi n * pi di mana n adalah bilangan bulat maka Anda tidak akan melihat apa pun kecuali nol dan melewatkan pola sinusoidal sama sekali. Ada artikel tentang teori sampling yang membahas seberapa sering data harus dikumpulkan.
sumber
Saya tidak yakin saya mengerti sedikit ini: "Sayangnya, karena responsnya adalah nilai rata-rata (tanpa melihat rata-rata, hanya variasi antar-tahunan reguler akan membanjiri sinyal)"
Dengan pemodelan yang cermat, menurut saya Anda bisa mendapatkan banyak dengan memodelkan ini sebagai data panel. Bergantung pada cakupan spasial data Anda, mungkin ada perbedaan besar dalam suhu tempat titik data Anda terpapar dalam tahun tertentu. Rata-rata semua variasi ini tampaknya mahal.
sumber
Saya akan mengatakan bahwa validitas tes kurang berkaitan dengan jumlah poin data dan lebih berkaitan dengan validitas asumsi bahwa Anda memiliki model yang benar.
Sebagai contoh, analisis regresi yang digunakan untuk menghasilkan kurva standar dapat didasarkan hanya pada 3 standar (rendah, med, dan tinggi) tetapi hasilnya sangat valid karena ada bukti kuat bahwa responsnya linier antara titik-titik.
Di sisi lain, bahkan regresi dengan 1000 titik data akan cacat jika model yang salah diterapkan pada data.
Dalam kasus pertama, variasi apa pun antara prediksi model dan data aktual disebabkan oleh kesalahan acak. Dalam kasus kedua beberapa variasi antara prediksi model dan data aktual adalah karena bias dari memilih model yang salah.
sumber
Jumlah pengamatan yang diperlukan untuk Mengidentifikasi model tergantung pada rasio sinyal terhadap noise dalam data dan bentuk model. Jika saya diberi nomor, 1,2,3,4,5, saya akan memperkirakan 6,7,8, .... Identifikasi model Box-Jenkins adalah pendekatan untuk menentukan Istilah Umum yang mendasarinya seperti tes untuk " kecerdasan numerik "yang kami berikan kepada anak-anak. Jika sinyalnya kuat maka kita perlu observasi lebih sedikit dan sebaliknya. Jika frekuensi yang diamati menunjukkan kemungkinan "struktur musiman" maka kita perlu pengulangan fenomena ini misalnya setidaknya 3 musim (lebih disukai lebih banyak) sebagai aturan praktis untuk mengekstraksi (mengidentifikasi ini dari statistik deskriptif dasar (ACF / pacf).
sumber
Mungkin Anda bisa mencoba menangani deret waktu Anda sebagai sistem persamaan linear dan menyelesaikannya dengan eliminasi Gauss. Tentu saja dalam hal ini Anda membatasi diri Anda pada data yang tersedia tetapi ini adalah satu-satunya harga yang harus Anda bayar.
sumber