Saya sedang dalam proses mempersiapkan untuk mengajar kursus pengantar tentang ilmu data menggunakan bahasa pemrograman R. Audiens saya adalah mahasiswa sarjana jurusan mata pelajaran bisnis. Sarjana bisnis yang khas tidak memiliki pengalaman pemrograman komputer, tetapi telah mengambil beberapa kelas yang menggunakan Excel.
Secara pribadi, saya sangat nyaman dengan R (atau bahasa pemrograman lain) karena saya mengambil jurusan ilmu komputer. Namun, saya merasa bahwa banyak siswa saya akan merasa khawatir belajar bahasa pemrograman karena mungkin terasa sulit bagi mereka.
Saya memiliki sedikit keakraban dengan Excel, dan itu adalah keyakinan saya bahwa sementara Excel dapat berguna untuk ilmu data sederhana, perlu bagi siswa untuk belajar bahasa pemrograman yang serius untuk ilmu data (misalnya, R atau Python). Bagaimana saya meyakinkan diri sendiri dan para siswa bahwa Excel tidak cukup untuk siswa bisnis yang serius mempelajari ilmu data, dan bahwa mereka perlu mempelajari beberapa pemrograman?
Diedit dalam menanggapi komentar
Berikut adalah beberapa topik yang akan saya bahas:
- Pemrosesan data dan pembersihan data
- Cara memanipulasi tabel data, mis. Pilih subset baris (filter), tambahkan variabel baru (mutasi), sortir baris berdasarkan kolom
- SQL bergabung menggunakan paket dplyr
- Cara menggambar plot (plot sebar, plot bar, histogram, dll.) Menggunakan paket ggplot2
- Cara memperkirakan dan menafsirkan model statistik seperti regresi linier, regresi logistik, pohon klasifikasi, dan tetangga terdekat k
Karena saya tidak mengenal Excel dengan baik, saya tidak tahu apakah semua tugas ini dapat dilakukan dengan mudah di Excel.
sumber
Jawaban:
Pertama-tama periksa pos ini . Ini memiliki banyak alasan mengapa Excel lebih rendah daripada solusi lain, mengenai tugas-tugas ilmu data. Excel juga tidak bisa menangani kumpulan data besar (ratusan ribu catatan - belum lagi data sekitar Big Data ), data gambar dan suara.
Excel baik untuk tugas-tugas sederhana tentang spreadsheet; itu lebih menekankan pada presentasi dan kemudahan penggunaan , sementara memiliki dukungan minimal untuk benar-benar menganalisis data. Kecuali jika semua yang ingin Anda lakukan adalah menghitung ukuran statistik sederhana (rata-rata, rata-rata, dll) atau membangun model yang sangat sederhana (misalnya regresi linier), Excel tidak efisien. Karena itu, 99% pekerjaan yang harus dihadapi perusahaan terkait data cukup sederhana untuk dikelola melalui Excel.
Namun Ilmu Data terutama berkaitan dengan regresi, klasifikasi dan model kompleks yang unggul tidak siap untuk menangani! Jika siswa Anda ingin melihat ilmu data, Anda perlu mengajari mereka alat yang akan berguna bagi mereka (R, python, dll.). Bahasa-bahasa ini juga memiliki perpustakaan dengan banyak model bawaan untuk "bermain dengan".
Alasan lain yang sangat besar saya akan pergi dengan opsi terakhir adalah bahwa mereka open source . Saya pribadi merasa bahwa perangkat lunak open source harus lebih disukai dari sudut pandang pendidikan untuk solusi berpemilik (ini juga mengapa saya menyarankan python dan R lebih dari Matlab)!
sumber
Saya baru saja selesai dengan Magister Analisis Bisnis dan dihadapkan dengan masalah yang sama yang Anda gambarkan. Untungnya saya adalah orang teknis dan mampu mengajar diri saya sendiri R dan Python, tetapi saya terjebak mengajar seluruh kelas bagaimana menggunakan R dan Python. Kelas yang saya gunakan yang menggunakan R / Python cacat oleh kurangnya pemahaman teknis oleh siswa dan terlalu banyak waktu yang dihabiskan untuk membahas bagaimana cara hanya membuka R / Python. Kelas-kelas yang menempuh rute lain kurang memuaskan dan tidak terlalu praktis. Saya ingin melakukan proyek kelas sesuatu yang akhirnya tidak dapat dilakukan di Excel karena keterbatasannya tetapi guru tidak mau menerima alat lain.
Ini mungkin bukan sesuatu yang dapat Anda lakukan segera tetapi saya akan sangat menyarankan Anda mencoba dan meminta departemen untuk memerlukan kursus pemrograman sebelum mengambil kursus Anda. Ilmu Data dan Analisis Bisnis IMHO harus jalur lintas disiplin yang membutuhkan sedikit Ilmu Komputer, tetapi sampai program matang dan sistem universitas menjadi lebih baik itu mungkin tidak terjadi untuk sementara waktu.
sumber
Saya pikir Anda perlu mengajari mereka bahasa Ilmu Data populer seperti Python atau R. Excel tidak akan membantu mereka dalam pekerjaan nyata, dan tidak praktis untuk tujuan ilmu data. Saya mungkin akan mengatakan Python akan menjadi yang paling berharga bagi mereka dalam jangka panjang, dan dengan paket seperti scikit-pelajari regresi dan klasifikasi Anda dapat ditunjukkan dalam sangat sedikit baris kode yang dapat mereka baca dan pahami dengan lebih mudah. Tidak selalu mudah untuk memahami apa yang dilakukan R hanya dengan membacanya.
Saran lain: Jangan buang waktu memaksa siswa Anda untuk membuat IDE dan mengunduh paket yang diperlukan, jika Anda menggunakan python, buat lingkungan virtual untuk mereka dengan semua paket yang diperlukan, dan buat IDE seperti pycharm (mereka bisa dapatkan ini dan sebagian besar IDE lainnya di bawah lisensi siswa / akademik) di mana kemudian dapat mengembangkan dan menjalankan kode mereka melalui UI daripada konsol yang mereka anggap menakutkan dan membingungkan. Jika Anda menuruni rute R maka pastikan Anda memiliki IDE seperti RStudio yang diatur untuk mereka dan pastikan semua menyertakan dan menginstal paket baik dimasukkan dalam kode contoh Anda atau dijelaskan sepenuhnya.
sumber
Buat di R data.frame besar (beberapa juta baris dan ratusan kolom), simpan sebagai .xlsx.
Tunjukkan pada mereka perbedaan waktu dalam memuatnya dengan R, dan di Excel pada mesin yang sama. Bandingkan operasi statistik dasar antara keduanya pada dataset yang sama, bahkan plot.
Poin no. 2-4 pada daftar Anda juga dapat dilakukan di Excel, cukup BANYAK yang lebih menyakitkan, tunjukkan pada mereka beberapa contoh seberapa banyak yang sederhana (dan lebih cepat) difilter dengan
dplyr
, dibandingkan dengan Excel dasar, lagi pada dataset besar yang akan disorot perbedaan.Poin bonus jika Anda dapat membuat dataset yang membuat crash PC Anda dengan Excel going.
Juga, saya akan menekankan bagian "bebas untuk digunakan" dari R (atau Python). Misalnya, dibandingkan dengan SAS, jika Anda hanya ingin mencoba satu solusi (yaitu beberapa jenis cluster), Anda memuat pustaka, dan mencobanya, tidak perlu membayar lebih, hanya untuk mencoba.
Bagi saya itulah keindahannya, Anda dapat mencoba secara gratis apa pun yang Anda butuhkan, dan sering kali itu adalah kunci dalam DS, bayangkan jika Anda harus membayar untuk setiap perpustakaan yang Anda instal.
sumber
Excel dan Ilmu Data - terdengar sangat aneh bagi saya. Mungkin Excel dan 'Analisis Data'.
Bagaimanapun, saya pikir kompromi yang baik antara Excel dan R adalah: KNIME ( http://www.knime.org/knime-analytics-platform ). Gratis di desktop dan jauh lebih mudah untuk memulai. Anda dapat mengimpor / mengekspor ke Excel tetapi juga menggunakan R, Python atau Java jika ~ 1.000 node kehilangan beberapa fungsi yang Anda butuhkan. Karena alur kerja dibuat secara visual, itu juga jauh lebih mudah untuk menunjukkannya kepada seseorang yang tidak tahu bahasa pemrograman - yang merupakan keuntungan di beberapa perusahaan.
sumber
Saya pikir masalahnya adalah Anda mencoba meyakinkan siswa Anda bahwa dengan mengikuti kelas Anda, mereka dapat melakukan ilmu data yang serupa dengan tingkat ilmu data modern, yaitu hal-hal mewah seperti pemrosesan gambar, pengenalan wajah. Anda sering mendengar perkataan ini, "dengan mengikuti kelas ini, Anda akan ..." Apa yang perlu Anda ajarkan kepada mereka adalah kecintaan pada data dan keberanian untuk melihat melalui sekumpulan data, bermain-main dengan mereka untuk berharap membuat beberapa rasa keluar dari mereka. Saat mereka dapat melakukan itu, Anda dapat memanggil mereka ilmuwan data dan Anda harus merasa bangga dengan diri Anda karena sekarang memiliki generasi baru ilmuwan data. Setelah itu, jika mereka sangat serius tentang ilmu data, mereka dapat melanjutkan kursus intensif lainnya yang berhubungan dengan matematika, statistik, dan ilmu komputer (pengalaman pemrograman seperti yang Anda katakan). Saya berada dalam situasi yang mirip dengan siswa Anda. Saya tidak memiliki latar belakang CS tetapi ingin membobol ilmu data dan AI dengan mengambil beberapa kelas online dengan janji-janji mewah. Saya akhirnya menghabiskan banyak uang namun merasa frustrasi luar biasa (oh, saya perlu mengambil kelas ini untuk mengetahui algoritma ini, oh mereka berbicara tentang jaringan saraf sekarang jadi saya harus mendaftar untuk kelas lain, dll.) TL ; DR. Alat hanya menyumbang 1% dari masalah yang Anda miliki. Dengan latar belakang Anda, Anda seharusnya tidak memiliki masalah dalam mencari tahu tugas-tugas di atas dalam Excel dalam seminggu. oh mereka berbicara tentang jaringan saraf sekarang jadi saya harus mendaftar untuk kelas lain, dll.) TL; DR. Alat hanya menyumbang 1% dari masalah yang Anda miliki. Dengan latar belakang Anda, Anda seharusnya tidak memiliki masalah dalam mencari tahu tugas-tugas di atas dalam Excel dalam seminggu. oh mereka berbicara tentang jaringan saraf sekarang jadi saya harus mendaftar untuk kelas lain, dll.) TL; DR. Alat hanya menyumbang 1% dari masalah yang Anda miliki. Dengan latar belakang Anda, Anda seharusnya tidak memiliki masalah dalam mencari tahu tugas-tugas di atas dalam Excel dalam seminggu.
sumber