Saya mencari informasi tentang bagaimana seharusnya proyek Pembelajaran Mesin Python diatur. Untuk proyek Python biasa ada Cookiecutter dan untuk R ProjectTemplate .
Ini adalah struktur folder saya saat ini, tapi saya sedang mencampur Notebook Jupyter dengan kode Python yang sebenarnya dan sepertinya tidak terlalu jelas.
.
├── cache
├── data
├── my_module
├── logs
├── notebooks
├── scripts
├── snippets
└── tools
Saya bekerja di folder skrip dan saat ini menambahkan semua fungsi dalam file di bawah my_module, tetapi itu mengarah ke kesalahan memuat data (jalur relatif / absolut) dan masalah lainnya.
Saya tidak dapat menemukan praktik terbaik yang tepat atau contoh yang baik tentang topik ini selain beberapa solusi persaingan yang menakjubkan dan beberapa Notebook yang memiliki semua fungsi yang terkondensasi pada awal Notebook tersebut.
Jawaban:
Saya belum berpikir ada praktik terbaik di daerah berkembang ini tetapi, selain juru masak, ada beberapa ide menarik yang ditunjukkan dalam tutorial di konferensi SciPy 2016: http://isaacslavitt.com/2016/07/20/ data-science-is-software-talk /
Secara pribadi, saya mencoba untuk meminimalkan jumlah sub-folder dalam suatu proyek kecuali jika saya memiliki cara yang sangat baik untuk membedakannya dan memiliki alasan yang baik untuk memisahkannya. Organisasi yang buruk hampir sama buruknya dengan tidak ada organisasi. Saya pikir praktik terbaik mungkin tergantung pada use case - tidak setiap proyek membutuhkan jumlah boilerplate yang sama.
sumber
University of Washington telah merilis template proyek untuk proyek python ilmiah kecil (termasuk proyek ilmu data) yang disebut
shablona
. Apakah itu kurang lebih yang Anda cari?https://github.com/uwescience/shablona
sumber