Saya seorang pengembang web dan ahli statistik pemula.
Data saya terlihat seperti ini
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
Saya mencoba untuk memprediksi y1 sebagai produk dari variabel x. Namun, saya punya alasan untuk percaya bahwa mungkin ada kelambatan dalam pengaruh beberapa variabel x pada y1, yaitu variabel x dari minggu 1 untuk subjek A mempengaruhi y1 untuk subjek A dalam minggu 2.
Perhatikan bahwa tidak semua subjek memiliki poin data untuk setiap minggu (bahkan sebagian besar tidak akan). Subjek akan cenderung memiliki poin data untuk mengatakan minggu 1, 2, 3, 4 kemudian turun dan tidak muncul lagi sampai minggu 7,8,9. Saya bersedia membatasi analisis saya ke titik data di mana kami memiliki data untuk N minggu sebelumnya mengingat hipotesis saya tentang jeda.
Seperti yang saya katakan, saya seorang pemula dan tidak yakin cara terbaik untuk menangani dataset formulir ini. Saya berharap untuk melakukan analisis ini baik dalam R, Python, atau kombinasi keduanya. Saya tidak berpikir bahwa variabel x minggu ini tidak akan berpengaruh. Saya pikir mereka akan memiliki efek, mungkin lebih besar dari minggu-minggu sebelumnya. Saya hanya percaya bahwa minggu-minggu sebelumnya akan memiliki efek.
Saya berharap ada dua hingga tiga minggu jeda. Untuk memberikan sedikit konteks, analisis yang saya coba di sini berkaitan dengan menilai kualitas lalu lintas online. Setiap minggu saya mendapat nilai skor kualitas aliran tertentu dari pengguna yang saya kirim ke situs web tertentu. Saya mencoba menemukan metrik sekunder, seperti distribusi peramban, persen klik duplikat, dll. Yang memungkinkan saya memprediksi berapa skor yang akan terjadi sebelumnya.
Jawaban:
Seperti yang saya sebutkan dalam catatan saya di atas, saya akan memperlakukan ini sebagai masalah regresi. Berikut ini tautan untuk menyusun, dalam R, variabel lag (dan prospek) dari data Anda ( R Head ).
Termasuk dalam pos adalah pengantar singkat untuk menggunakan data yang dihasilkan dalam model regresi. Anda mungkin juga ingin melakukan sedikit penggalian latar belakang pada R paket dynlm (regresi linier dinamis).
sumber
Anda bisa membuat tabel di mana y1 digeser 0,1,2,3,4 minggu.
Kemudian Anda menjalankan analisis pada mereka. Misalnya, Anda bisa membuat jaringan saraf yang mencoba memprediksi y1 dari x. Untuk beberapa ide, Anda dapat memberikan Weka putaran.
Kemudian, Anda memiliki ukuran untuk memprediksi y1 dari x untuk setiap jeda. Dengan ini, Anda dapat menemukan lag yang paling cocok.
Atau, Anda dapat membuat satu tabel yang menyertakan x dari minggu ini, x dari minggu sebelumnya, ... dan y1. Kemudian lakukan analisis pengaruh (mis. PCA ) untuk melihat minggu mana dan variabel mana yang paling berpengaruh.
sumber