Pembelajaran Python Machine / Struktur Proyek Sains Data

10

Saya mencari informasi tentang bagaimana seharusnya proyek Pembelajaran Mesin Python diatur. Untuk proyek Python biasa ada Cookiecutter dan untuk R ProjectTemplate .

Ini adalah struktur folder saya saat ini, tapi saya sedang mencampur Notebook Jupyter dengan kode Python yang sebenarnya dan sepertinya tidak terlalu jelas.

.
├── cache
├── data
├── my_module
├── logs
├── notebooks
├── scripts
├── snippets
└── tools

Saya bekerja di folder skrip dan saat ini menambahkan semua fungsi dalam file di bawah my_module, tetapi itu mengarah ke kesalahan memuat data (jalur relatif / absolut) dan masalah lainnya.

Saya tidak dapat menemukan praktik terbaik yang tepat atau contoh yang baik tentang topik ini selain beberapa solusi persaingan yang menakjubkan dan beberapa Notebook yang memiliki semua fungsi yang terkondensasi pada awal Notebook tersebut.

David Gasquez
sumber
Lihat apakah ini membantu (tidak ada pengalaman pribadi).
Emre

Jawaban:

4

Saya belum berpikir ada praktik terbaik di daerah berkembang ini tetapi, selain juru masak, ada beberapa ide menarik yang ditunjukkan dalam tutorial di konferensi SciPy 2016: http://isaacslavitt.com/2016/07/20/ data-science-is-software-talk /

Secara pribadi, saya mencoba untuk meminimalkan jumlah sub-folder dalam suatu proyek kecuali jika saya memiliki cara yang sangat baik untuk membedakannya dan memiliki alasan yang baik untuk memisahkannya. Organisasi yang buruk hampir sama buruknya dengan tidak ada organisasi. Saya pikir praktik terbaik mungkin tergantung pada use case - tidak setiap proyek membutuhkan jumlah boilerplate yang sama.

RHC
sumber
3

University of Washington telah merilis template proyek untuk proyek python ilmiah kecil (termasuk proyek ilmu data) yang disebut shablona. Apakah itu kurang lebih yang Anda cari?

https://github.com/uwescience/shablona

takiklin
sumber