Biasanya, satu topik penting dalam DevOps adalah bagaimana kami menangani pembuatan otomatis dan pengiriman artefak perangkat lunak.
Dengan munculnya ilmu data ada jenis baru artefak - gumpalan biner monolitik mewakili jaring saraf terlatih misalnya atau model pembelajaran mesin lainnya. Gumpalan seperti itu dapat memiliki ukuran banyak GB dan pembuatannya belum standar AFAIK yang membawa organisasi kembali ke zaman pra-CI. Namun demikian, mereka memiliki versi mereka dan koleksi terkait data pelatihan (korpora) yang cenderung tumbuh dengan cepat juga.
Apa praktik terbaik untuk mengatasi tantangan baru ini menggunakan metode DevOps - jika mungkin?
continuous-integration
continuous-delivery
automation
methodology
Peter Muryshkin
sumber
sumber
Jawaban:
Secara pribadi saya tidak melihat alasan di mana Repositori Artefact - alat DevOps yang direkomendasikan untuk mengelola artefak - tidak akan berlaku untuk jaring saraf terlatih atau artefak lainnya.
Ukuran artefak mungkin memiliki batas atas untuk repositori artefak tertentu, tetapi dalam kasus seperti itu akan menjadi batasan teknis atau kebijakan, bukan fundamental / prinsipal.
Sedangkan untuk menerapkan metodologi DevOps untuk proses memproduksi artefak ini, saya pikir sebagian besar jika tidak semuanya dapat diterapkan dengan baik, selama artefak:
Catatan: pengiriman kode perangkat lunak monolitik masih merupakan masalah besar dan dapat dipelihara dengan sempurna dengan metodologi DevOps (dengan sedikit perhatian), tidak semuanya dapat dibagi dalam layanan-layanan microser. Ukuran tidak cukup penting untuk membuat DevOps tidak berlaku.
sumber
git lfs
dan menarik mereka ketika diperlukan [paradigmagit-lfs
Saya akan merekomendasikan untuk melihat DVC - sistem kontrol versi open source untuk proyek ilmu data.
Salah satu hal dasar yang ditangani dengan sempurna adalah mengelola file data (bersama dengan kode) - input, output (model), hasil antara. Semantik ini mirip dengan
git-lfs
tetapi tidak sepertigit-lfs
itu mampu mengelola file seperti 100GB dan yang lebih penting tidak bergantung pada penyimpanan / format eksklusif. Ini sepenuhnya open-source dan kompatibel dengan penyimpanan jaringan sebagai server untuk menyimpan file data - S3, penyimpanan cloud GCP, SSH, FTP, dll.sumber