Membangun model pembelajaran mesin untuk memprediksi hasil panen berdasarkan data lingkungan

10

Saya memiliki dataset yang berisi data tentang suhu, curah hujan, dan hasil kedelai untuk sebuah pertanian selama 10 tahun (2005 - 2014). Saya ingin memprediksi hasil untuk tahun 2015 berdasarkan data ini.

Harap dicatat bahwa dataset memiliki nilai SETIAP HARI untuk suhu dan curah hujan, tetapi hanya 1 nilai per tahun untuk hasil, karena panen tanaman terjadi pada akhir musim tanam.

Saya ingin membangun regresi atau model pembelajaran berbasis mesin lainnya untuk memprediksi hasil 2015, berdasarkan regresi / beberapa model lain yang diperoleh dengan mempelajari hubungan antara hasil dan suhu dan curah hujan di tahun-tahun sebelumnya.

Saya akrab dengan melakukan pembelajaran mesin menggunakan scikit-belajar. Namun, tidak yakin bagaimana merepresentasikan masalah ini. Bagian yang sulit di sini adalah bahwa suhu dan curah hujan setiap hari tetapi hasil hanya 1 nilai per tahun.

Bagaimana cara saya mendekati ini?

pengguna308827
sumber
bahkan saya mencoba membuat model untuk memprediksi hasil panen. Bisakah Anda berbagi rincian tentang pendekatan yang Anda ikuti?
Nitz
Apakah Anda bisa mendapatkan jawaban yang lengkap? Jika tidak, tolong beri tahu saya dan saya akan dengan senang hati menulis jawaban terperinci tentang cara melakukannya mengingat saya bekerja di domain yang sama
89_Sederhana
@ Crop89, itu akan luar biasa! menantikan jawaban Anda
user308827
Sudahkah Anda menemukan jawabannya? Saya menghadapi masalah yang sama. Bisakah Anda membagikan detailnya jika sudah berhasil? terima kasih banyak
eric huang

Jawaban:

3

Sebagai permulaan, Anda dapat memprediksi hasil untuk tahun mendatang berdasarkan data harian untuk tahun sebelumnya. Anda dapat memperkirakan parameter model dengan mempertimbangkan nilai data setiap tahun sebagai satu "titik", lalu memvalidasi model menggunakan validasi silang. Anda dapat memperpanjang model ini dengan mempertimbangkan lebih dari satu tahun terakhir, tetapi lihat ke belakang terlalu jauh dan Anda akan kesulitan memvalidasi model dan pakaian Anda.

Emre
sumber
terima kasih @Emre, kebingungan saya adalah bagaimana saya memperlakukan data sepanjang tahun sebagai 1 poin? Bukankah setiap baris data (mewakili satu hari) merupakan sampel dalam scikit-learn nomenklatur? Bagaimana saya memperlakukan satu tahun penuh sebagai satu sampel, bukan 365?
user308827
1
Saya tidak membahas spesifikasi sklearn, tetapi karena Anda bertanya, Anda ingin menggunakan sklearn.cross_validationmetode dengan "Label" pada namanya, seperti sklearn.cross_validation.LabelKFold .
Emre
terima kasih @ Emre, jadi idenya adalah untuk menetapkan label tunggal setiap tahun, kan?
user308827
Ya, @ user308827.
Emre
terima kasih lagi @Emre, silakan lihat pertanyaan tindak lanjut: datasetcience.stackexchange.com/questions/9612/…
user308827
1

Anda dapat menggunakan Bayesian Belief Network untuk prediksi. Dia adalah tautan untuk penjelasan dasar. Jaringan Bayesian

Turkuaz
sumber
1

Anda memiliki 10 titik data dengan setiap titik data memiliki dimensi 365 (suhu untuk setiap hari) + 365 (presipitasi untuk setiap hari). Idealnya, saya pertama-tama akan mengurangi dimensi melalui metode pembelajaran mesin, misalnya PCA. Kemudian gunakan metode pembelajaran mesin untuk membangun model prediksi. Namun, karena dataset kecil, saya tidak berpikir teknik pembelajaran mesin sesuai dengan masalah Anda.

Yuqian
sumber