Kapan saya harus berhenti mencari model?

Saya mencari model antara stockprices energi dan cuaca. Saya memiliki harga MWatt yang dibeli antara negara-negara Eropa, dan banyak nilai pada cuaca (file Grib). Setiap jam dalam jangka waktu 5 tahun (2011-2015).

Harga / hari

Ini per hari selama satu tahun. Saya memiliki ini per jam pada 5 tahun.

Contoh cuaca

3Dscatterplot, di kelvin, selama satu jam. Saya memiliki 1000 nilai per data per jam dan 200 data, seperti klevin, wind, geopential dll.

Saya mencoba memperkirakan harga rata-rata per jam dari Mwatt.

Data saya tentang cuaca sangat padat, lebih dari 10.000 nilai / jam dan dengan korelasi yang tinggi. Ini masalah pendek, data besar.

Saya sudah mencoba metode Lasso, Ridge dan SVR dengan harga rata-rata MWatt sebagai hasil dan data cuaca saya sebagai pendapatan. Saya mengambil 70% sebagai data pelatihan dan 30% sebagai tes. Jika data pengujian saya non-perkiraan (di suatu tempat di dalam data pelatihan saya) saya memiliki prediksi yang baik (R² = 0,89). Tetapi saya ingin melakukan peramalan pada data saya.

Jadi, jika data uji secara kronologis setelah data pelatihan saya, ia tidak memprediksi apa pun (R² = 0,05). Saya pikir itu normal karena ini adalah seri waktu. Dan ada banyak autokorelasi.

Saya pikir saya harus menggunakan model seri waktu seperti ARIMA. Saya menghitung urutan metode (serinya stasioner) dan saya mengujinya. Tapi itu tidak berhasil. Maksud saya, peramalan memiliki r² 0,05. Prediksi saya pada data pengujian tidak sama sekali pada data pengujian saya. Saya mencoba metode ARIMAX dengan cuaca saya sebagai regressor. Taruh itu tidak menambahkan informasi apa pun.

ACF / PCF, Tes / data kereta

Jadi saya sudah melakukan pemotongan musiman per hari dan per minggu

Hari

Minggu di tren yang pertama

Dan saya dapat memiliki ini jika saya dapat menentukan tren tren harga saham saya:

Biru adalah prediksi saya dan merah adalah nilai sebenarnya.

Saya akan melakukan regresi dengan perputaran rata-rata cuaca sebagai pendapatan dan tren tren harga saham sebagai hasil. Tetapi untuk saat ini, saya belum menemukan hubungan apa pun.

Tetapi jika tidak ada interaksi, bagaimana saya bisa tahu tidak ada apa-apa? mungkin hanya saja saya belum menemukannya.

time-series forecasting predictive-models modeling large-data el Josso
sumber

Pertanyaan Anda terlalu luas untuk dijawab. Apa yang Anda modelkan? Apa "tidak berhasil"? Regresi dan ARIMA adalah model yang sama sekali berbeda, jadi apa sebenarnya yang Anda lakukan ..?

Tim

Saya memodelkan evolusi harga. Dan saya mendapat R² kurang dari 0,2 pada perkiraan saya

el Josso

Dan apa sebenarnya masalahnya di sini? Bisakah Anda menguraikan tentang apa data Anda, model apa yang sudah Anda coba, masalah apa yang Anda miliki dan yang paling penting: apa pertanyaan Anda di sini? Bagaimana Anda mendefinisikan "evolusi harga"? Seperti yang saya katakan, pertanyaan Anda terlalu samar dan terlalu luas dan begitu juga seorang kandidat untuk ditutup sebagai tidak dapat dijawab.

Tim

Apakah saya perlu menambahkan gambar?

el Josso

Anda dapat jika itu membantu (dalam banyak kasus memang demikian) :)

Tim

Anda mungkin tertarik pada domain sains formal yang disebut "mekanika komputasi." Dalam sebuah artikel oleh James Crutchfield dan David Feldman, mereka memaparkan program mekanika komputasi — sejauh yang saya mengerti — sebagai pengurai batas antara (1) ketidakpastian deterministik dan biaya informasi untuk menyimpulkan hubungan deterministik, (2) stokastik ketidakpastian dan biaya informasi untuk menyimpulkan distribusi probabilitas, dan (3) ketidakpastian entropik dan konsekuensi dari miskinnya informasi.

Untuk menjawab pertanyaan Anda secara langsung (walaupun juga cukup luas, karena Anda mengajukan pertanyaan yang luas), bagaimana kami tahu kapan kami telah belajar baik "cukup," atau "yang kami bisa" dari data adalah domain penelitian terbuka. Yang pertama tentu akan bergantung pada kebutuhan seseorang sebagai peneliti dan aktor di dunia (misalnya, mengingat berapa banyak waktu? Berapa banyak kekuatan pemrosesan? Berapa banyak memori, berapa banyak urgensi, dll).

Saya tidak menyukai bidang ini, atau bahkan mendalam dengan artikel ini, tetapi mereka adalah beberapa pemikir keren. :)

Crutchfield, JP and Feldman, DP (2003). Keteraturan yang tak terlihat, keacakan diamati: Tingkat konvergensi entropi . Chaos , 13 (1): 25–54.

Alexis
sumber

Tidak yakin apakah ini 'menjawab pertanyaan OP, tapi saya suka perspektif ini.

horaceT

Ini tidak benar-benar apa yang saya cari tetapi ini adalah artikel yang bagus.

el Josso

Kapan saya harus berhenti mencari model?

Harga / hari

Contoh cuaca

ACF / PCF, Tes / data kereta

Hari

Minggu di tren yang pertama

Jawaban: