Banyak orang menggunakan alat utama seperti Excel atau spreadsheet lain, SPSS, Stata, atau R untuk kebutuhan statistik mereka. Mereka mungkin beralih ke beberapa paket khusus untuk kebutuhan yang sangat khusus, tetapi banyak hal dapat dilakukan dengan spreadsheet sederhana atau paket statistik umum atau lingkungan pemrograman statistik.
Saya selalu menyukai Python sebagai bahasa pemrograman, dan untuk kebutuhan sederhana, mudah untuk menulis program pendek yang menghitung apa yang saya butuhkan. Matplotlib memungkinkan saya untuk merencanakannya.
Adakah yang sepenuhnya beralih dari, katakanlah R, ke Python? R (atau paket statistik lainnya) memiliki banyak fungsi khusus untuk statistik, dan memiliki struktur data yang memungkinkan Anda untuk memikirkan statistik yang ingin Anda lakukan dan lebih sedikit tentang representasi internal data Anda. Python (atau bahasa dinamis lainnya) memiliki manfaat memungkinkan saya untuk memprogram dalam bahasa tingkat tinggi yang akrab, dan memungkinkan saya berinteraksi secara terprogram dengan sistem dunia nyata di mana data berada atau dari mana saya dapat melakukan pengukuran. Tapi saya belum menemukan paket Python yang memungkinkan saya untuk mengekspresikan sesuatu dengan "terminologi statistik" - dari statistik deskriptif sederhana hingga metode multivariat yang lebih rumit.
Apa yang dapat Anda rekomendasikan jika saya ingin menggunakan Python sebagai "meja kerja statistik" untuk menggantikan R, SPSS, dll.?
Apa yang akan saya dapatkan dan kehilangan, berdasarkan pengalaman Anda?
Jawaban:
Sulit untuk mengabaikan kekayaan paket statistik yang tersedia di R / CRAN. Yang mengatakan, saya menghabiskan banyak waktu di tanah Python dan tidak akan pernah menghalangi orang dari bersenang-senang seperti saya. :) Berikut adalah beberapa perpustakaan / tautan yang mungkin berguna untuk pekerjaan statistik.
NumPy / Scipy Anda mungkin sudah tahu tentang ini. Tetapi izinkan saya menunjukkan Cookbook di mana Anda dapat membaca tentang banyak fasilitas statistik yang sudah tersedia dan Daftar Contoh yang merupakan referensi bagus untuk berbagai fungsi (termasuk manipulasi data dan operasi lainnya). Referensi praktis lainnya adalah Distribusi John Cook di Scipy .
panda Ini adalah perpustakaan yang sangat bagus untuk bekerja dengan data statistik - data tabular, seri waktu, data panel. Termasuk banyak fungsi bawaan untuk ringkasan data, pengelompokan / agregasi, pivoting. Juga memiliki perpustakaan statistik / ekonometrika.
larry array berlabel yang bermain bagus dengan NumPy. Menyediakan fungsi statistik yang tidak ada dalam NumPy dan bagus untuk manipulasi data.
python-statlib Upaya yang cukup baru yang menggabungkan sejumlah perpustakaan statistik yang tersebar. Berguna untuk statistik dasar dan deskriptif jika Anda tidak menggunakan NumPy atau panda.
statsmodels Pemodelan statistik: model Linear, GLMs, antara lain.
scikits Paket statistik dan komputasi ilmiah - terutama perataan, optimisasi, dan pembelajaran mesin.
PyMC Untuk kebutuhan pemodelan hierarkis Bayesian / MCMC / Anda. Sangat dianjurkan.
Model Campuran PyMix .
Biopython Berguna untuk memuat data biologis Anda ke dalam python, dan menyediakan beberapa alat pembelajaran statistik / mesin dasar untuk analisis.
Jika kecepatan menjadi masalah, pertimbangkan Theano - digunakan dengan sukses baik oleh orang-orang yang belajar dalam.
Ada banyak hal lain di luar sana, tetapi inilah yang saya temukan paling berguna di sepanjang baris yang Anda sebutkan.
sumber
Sebagai platform numerik dan pengganti MATLAB, Python mencapai kematangan setidaknya 2-3 tahun yang lalu, dan sekarang jauh lebih baik daripada MATLAB dalam banyak hal. Saya mencoba untuk beralih ke Python dari R sekitar waktu itu, dan gagal total. Ada terlalu banyak paket R yang saya gunakan setiap hari yang tidak memiliki persamaan Python. Tidak adanya ggplot2 sudah cukup untuk menjadi showstopper, tetapi ada banyak lagi. Selain itu, R memiliki sintaks yang lebih baik untuk analisis data. Pertimbangkan contoh dasar berikut:
Python :
R :
Apa yang Anda anggap lebih ekspresif? Dalam R, Anda dapat berpikir dalam hal variabel, dan dapat dengan mudah memperluas model, untuk, katakanlah,
Dibandingkan dengan R, Python adalah bahasa tingkat rendah untuk pembuatan model.
Jika saya memiliki lebih sedikit persyaratan untuk fungsi statistik tingkat lanjut dan sudah mengkodekan Python pada proyek yang lebih besar, saya akan mempertimbangkan Python sebagai kandidat yang baik. Saya akan mempertimbangkannya juga ketika pendekatan bare-bone diperlukan, baik karena keterbatasan kecepatan, atau karena paket R tidak memberikan keunggulan.
Bagi mereka yang melakukan Statistik yang relatif maju saat ini , jawabannya adalah no-brainer, dan tidak . Bahkan, saya percaya Python akan membatasi cara Anda berpikir tentang analisis data. Diperlukan waktu beberapa tahun dan bertahun-tahun upaya untuk menghasilkan penggantian modul untuk 100 paket R esensial, dan bahkan kemudian, Python akan terasa seperti bahasa di mana kemampuan analisis data telah ditingkatkan. Karena R telah menangkap bagian relatif terbesar dari statistik yang diterapkan di beberapa bidang, saya tidak melihat ini terjadi dalam waktu dekat. Karena itu, ini adalah negara bebas, dan saya tahu orang-orang melakukan Statistik di APL dan C.
sumber
results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()
. Statsmodels masih jauh di belakang paket statistik lain seperti R dalam hal cakupan, tetapi ada lebih banyak hal yang dapat Anda lakukan dengan python sebelum Anda harus mengambil bahasa lain atau paket statistik. (GEE dan Mixed akan ada di rilis berikutnya.)Pertama, izinkan saya mengatakan saya setuju dengan jawaban John D Cook: Python bukan Bahasa Khusus Domain seperti R, dan karenanya, ada banyak lagi yang dapat Anda lakukan dengan itu di ujung jalan. Tentu saja, R menjadi DSL berarti bahwa algoritma terbaru yang diterbitkan di JASA hampir pasti akan di R. Jika Anda melakukan sebagian besar pekerjaan sementara dan ingin bereksperimen dengan teknik regresi laso terbaru, katakanlah, R sulit dikalahkan. Jika Anda melakukan lebih banyak pekerjaan analitik produksi, berintegrasi dengan perangkat lunak dan lingkungan yang ada, dan memperhatikan kecepatan, ekstensibilitas, dan pemeliharaan, Python akan melayani Anda jauh lebih baik.
Kedua, ars memberikan jawaban yang bagus dengan tautan yang bagus. Berikut adalah beberapa paket yang saya anggap penting untuk pekerjaan analitis dengan Python:
Jika Anda menginginkan IDE / konsol interaktif yang lebih mirip MATLAB, periksa Spyder , atau plugin PyDev untuk Eclipse .
sumber
Saya tidak berpikir ada argumen bahwa kisaran paket statistik dalam cran dan Bioconductor jauh melebihi apa pun yang ditawarkan dari bahasa lain, bagaimanapun, itu bukan satu-satunya hal yang perlu dipertimbangkan.
Dalam penelitian saya, saya menggunakan R ketika saya bisa tetapi kadang-kadang R terlalu lambat. Misalnya, menjalankan MCMC besar.
Baru-baru ini, saya menggabungkan python dan C untuk mengatasi masalah ini. Ringkasan singkat: pas model populasi stokastik besar dengan ~ 60 parameter dan menyimpulkan sekitar 150 negara laten menggunakan MCMC.
for
loop python , panggil fungsi C yang memperbarui parameter dan menghitung kemungkinannya.Perhitungan cepat menunjukkan bahwa program menghabiskan 95% dalam fungsi C. Namun, saya tidak perlu menulis kode C yang menyakitkan untuk membaca data atau membangun struktur data C.
Saya tahu ada juga rpy , di mana python dapat memanggil fungsi R. Ini bisa berguna, tetapi jika Anda "hanya" melakukan statistik maka saya akan menggunakan R.
sumber
Diskusi StackOverflow berikut mungkin berguna
sumber
Saya belum melihat scikit-learning yang disebutkan secara eksplisit dalam jawaban di atas. Ini adalah paket Python untuk pembelajaran mesin dengan Python. Ini cukup muda tetapi tumbuh sangat cepat (penafian: Saya adalah pengembang scikit-belajar). Tujuannya adalah untuk menyediakan alat algoritmik pembelajaran mesin standar dalam antarmuka terpadu dengan fokus pada kecepatan, dan kegunaan. Sejauh yang saya tahu, Anda tidak dapat menemukan yang serupa di Matlab. Poin kuatnya adalah:
Sebuah dokumentasi rinci , dengan banyak contoh
Alat pengawasan belajar (regresi / klasifikasi) standar kualitas tinggi . Secara khusus:
SVM sangat fleksibel (berdasarkan libsvm, tetapi dengan integrasi tambalan eksternal, dan banyak pekerjaan pada pengikatan Python)
model linier yang dihukum ( Lasso , regresi logistik jarang ...) dengan implementasi yang efisien.
Kemampuan untuk melakukan pemilihan model dengan validasi silang menggunakan beberapa CPU
Pembelajaran tanpa pengawasan untuk mengeksplorasi data atau melakukan pengurangan dimensi pertama, yang dapat dengan mudah dirantai ke pembelajaran yang diawasi.
Sumber terbuka, berlisensi BSD. Jika Anda tidak berada di lingkungan akademis murni (saya berada di laboratorium nasional di negara bagian) ini sangat penting karena biaya Matlab sangat tinggi, dan Anda mungkin berpikir untuk mendapatkan produk dari pekerjaan Anda.
Matlab adalah alat yang hebat, tetapi dalam pekerjaan saya sendiri, scipy + scikit-learn mulai memberi saya keunggulan di Matlab karena Python melakukan pekerjaan yang lebih baik dengan memori karena mekanisme tampilan (dan saya memiliki data besar), dan karena scikit-learn memungkinkan saya untuk dengan mudah membandingkan berbagai pendekatan.
sumber
Salah satu manfaat pindah ke Python adalah kemungkinan untuk melakukan lebih banyak pekerjaan dalam satu bahasa. Python adalah pilihan yang masuk akal untuk menghitung angka, menulis situs web, skrip administratif, dll. Jadi, jika Anda melakukan statistik dengan Python, Anda tidak perlu berganti bahasa untuk melakukan tugas pemrograman lainnya.
Pembaruan: Pada tanggal 26 Januari 2011, Microsoft Research mengumumkan Sho , lingkungan berbasis Python baru untuk analisis data. Saya belum punya kesempatan untuk mencobanya, tapi sepertinya ini kemungkinan yang menarik jika ingin menjalankan Python dan juga berinteraksi dengan .NET libraries.
sumber
Mungkin jawaban ini curang, tetapi tampaknya aneh tidak ada yang menyebutkan proyek rpy , yang menyediakan antarmuka antara R dan Python. Anda mendapatkan api pythonic untuk sebagian besar fungsi R sambil mempertahankan sintaks (saya berpendapat lebih baik), pemrosesan data, dan dalam beberapa kasus kecepatan Python. Tidak mungkin bahwa Python akan memiliki alat statistik edge pendarahan sebanyak R, hanya karena R adalah dsl dan komunitas statistik lebih banyak diinvestasikan dalam R daripada bahasa lainnya.
Saya melihat ini sebagai analog dengan menggunakan ORM untuk memanfaatkan keunggulan SQL, sementara membiarkan Python menjadi Python dan SQL menjadi SQL.
Paket berguna lainnya yang khusus untuk struktur data meliputi:
sumber
Saya seorang ahli biostatistik dalam apa yang pada dasarnya adalah toko R (~ 80 orang menggunakan R sebagai alat utama mereka). Namun, saya menghabiskan sekitar 3/4 dari waktu saya bekerja di Python. Saya menghubungkan ini terutama dengan fakta bahwa pekerjaan saya melibatkan Bayesian dan pendekatan pembelajaran mesin untuk pemodelan statistik. Python hits lebih dekat dengan sweet spot kinerja / produktivitas daripada R, setidaknya untuk metode statistik yang iteratif atau berbasis simulasi. Jika saya melakukan ANOVAS, regresi dan uji statistik, saya yakin saya terutama akan menggunakan R. Sebagian besar yang saya butuhkan, bagaimanapun, tidak tersedia sebagai paket R kalengan.
sumber
Saya ingin mengatakan bahwa dari sudut pandang seseorang yang sangat bergantung pada model linier untuk pekerjaan statistik saya, dan mencintai Python untuk aspek lain dari pekerjaan saya, saya sangat kecewa dengan Python sebagai platform untuk melakukan apa pun kecuali statistik yang cukup mendasar.
Saya menemukan R memiliki dukungan yang lebih baik dari komunitas statistik, implementasi model linier yang jauh lebih baik, dan jujur dari sisi statistik, bahkan dengan distribusi yang sangat baik seperti Enthought, Python terasa sedikit seperti Wild West.
Dan kecuali Anda bekerja sendiri, kemungkinan Anda memiliki kolaborator yang menggunakan Python untuk statistik, pada titik ini, sangat tipis.
sumber
Sebenarnya tidak perlu menyerahkan R untuk Python. Jika Anda menggunakan IPython dengan tumpukan penuh, Anda memiliki ekstensi R, Oktaf dan Cython, sehingga Anda dapat dengan mudah dan bersih menggunakan bahasa-bahasa tersebut di dalam notebook IPython Anda. Anda juga memiliki dukungan untuk meneruskan nilai di antara mereka dan namespace Python Anda. Anda dapat menampilkan data sebagai plot, menggunakan matplotlib, dan ekspresi matematika yang ditampilkan dengan benar. Ada banyak fitur lain, dan Anda dapat melakukan semua ini di browser Anda.
IPython telah datang jauh :)
sumber
Apa yang Anda cari disebut Sage: http://www.sagemath.org/
Ini adalah antarmuka online yang sangat baik untuk kombinasi alat Python untuk matematika yang dibangun dengan baik.
sumber
Rpy2 - bermain dengan R tinggal di Python ...
Penjabaran lebih lanjut per permintaan Gung:
Dokumentasi Rpy2 dapat ditemukan di http://rpy.sourceforge.net/rpy2/doc-dev/html/introduction.html
Dari dokumentasi, antarmuka tingkat tinggi di rpy2 dirancang untuk memfasilitasi penggunaan R oleh programmer Python. Objek R diekspos sebagai instance dari kelas yang diimplementasikan Python, dengan fungsi R sebagai metode terikat ke objek tersebut dalam sejumlah kasus. Bagian ini juga berisi pengantar grafik dengan plot R: trellis (lattice) serta tata bahasa grafik yang diimplementasikan di ggplot2, mari kita buat plot yang kompleks dan informatif dengan sedikit kode yang ditulis, sementara grafik kotak yang mendasarinya memungkinkan semua kemungkinan penyesuaian diuraikan.
Kenapa saya suka itu:
Saya dapat memproses data saya menggunakan fleksibilitas python, mengubahnya menjadi matriks menggunakan numpy atau panda dan melakukan perhitungan dalam R, dan mendapatkan kembali r objek untuk melakukan pemrosesan pos. Saya menggunakan econometrics dan python tidak akan memiliki alat statistik edge of R. dan R tidak akan pernah sefleksibel python. Ini memang mengharuskan Anda untuk memahami R. Untungnya, ia memiliki komunitas pengembang yang bagus.
Rpy2 sendiri didukung dengan baik dan pria yang mendukungnya sering mengunjungi forum SO. Instalasi Windows mungkin sedikit sakit - https://stackoverflow.com/questions/5068760/bizzarre-issue-trying-to-make-rpy2-2-1-9-work-with-r-2-12-1-using -python-2-6-un? rq = 1 mungkin membantu.
sumber
Saya menggunakan Python untuk analisis dan peramalan statistik. Seperti yang disebutkan oleh orang lain di atas, Numpy dan Matplotlib adalah pekerja yang baik. Saya juga menggunakan ReportLab untuk menghasilkan output PDF.
Saat ini saya sedang melihat Resolver dan Pyspread yang merupakan aplikasi spreadsheet mirip Excel yang didasarkan pada Python. Resolver adalah produk komersial tetapi Pyspread masih bersifat open-source. (Maaf, saya terbatas hanya satu tautan)
sumber
gambaran bagus sejauh ini. Saya menggunakan python (khusus scipy + matplotlib) sebagai pengganti matlab sejak 3 tahun bekerja di Universitas. Saya kadang-kadang masih kembali karena saya terbiasa dengan perpustakaan tertentu misalnya paket wavelet matlab murni luar biasa.
Saya suka http://enthought.com/ distribusi python. Ini komersial, namun gratis untuk tujuan akademis dan, sejauh yang saya tahu, sepenuhnya open-source. Karena saya bekerja dengan banyak siswa, sebelum menggunakan enthought, kadang-kadang merepotkan bagi mereka untuk menginstal numpy, scipy, ipython dll. Enthought menyediakan installer untuk Windows, Linux dan Mac.
Dua paket lain yang layak disebutkan:
ipython (sudah hadir dengan enthought) shell canggih yang bagus. intro yang bagus ada di showmedo http://showmedo.com/videotutorials/series?name=PythonIPythonSeries
nltk - paket bahasa alami http://www.nltk.org/ paket hebat jika Anda ingin melakukan beberapa statistik / pembelajaran mesin pada setiap corpus.
sumber
Ini adalah pertanyaan yang menarik, dengan beberapa jawaban bagus.
Anda mungkin menemukan beberapa diskusi bermanfaat dalam makalah yang saya tulis dengan Roseline Bilina. Versi terakhir ada di sini: http://www.enac.fr/recherche/leea/Steve%20Lawford/papers/python_paper_revised.pdf (sejak itu telah muncul, dalam hampir bentuk ini, sebagai "Python untuk Penelitian Terpadu dalam Ekonometrika dan Statistik) ", dalam Ulasan Ekonometrik (2012), 31 (5), 558-591).
sumber
Mungkin tidak terkait langsung, tetapi R memiliki lingkungan GUI yang bagus untuk sesi interaktif (edit: di Mac / Windows). IPython sangat bagus tetapi untuk lingkungan yang lebih dekat dengan Matlab, Anda dapat mencoba Spyder atau IEP. Saya lebih beruntung terlambat menggunakan IEP, tetapi Spyder terlihat lebih menjanjikan.
IEP: http://code.google.com/p/iep/
Spyder: http://packages.python.org/spyder/
Dan situs IEP mencakup perbandingan singkat dari perangkat lunak terkait: http://code.google.com/p/iep/wiki/Alternatives
sumber
Saya menemukan pengantar panda di sini yang saya sarankan untuk dicoba. Pandas adalah perangkat yang luar biasa dan memberikan kemampuan analisis data tingkat tinggi dari R dengan perpustakaan yang luas dan kualitas produksi Python.
Posting blog ini memberikan intro yang bagus untuk Pandas dari perspektif pemula lengkap:
http://manishamde.github.com/blog/2013/03/07/pandas-and-python-top-10/
sumber
Saya harus menambahkan teriakan untuk Sho, lingkungan komputasi numerik yang dibangun di atas IronPython. Saya menggunakannya sekarang untuk kelas pembelajaran mesin Stanford dan ini sangat membantu. Itu dibangun dalam paket aljabar linier dan kemampuan grafik. Menjadi .Net mudah untuk diperluas dengan C # atau bahasa .Net lainnya. Saya merasa jauh lebih mudah untuk memulai, menjadi pengguna windows, daripada lurus Python dan NumPy.
sumber
Belum ada yang menyebutkan Orange sebelumnya:
Saya tidak menggunakannya setiap hari, tapi itu harus-lihat untuk siapa saja yang lebih suka GUI daripada antarmuka baris perintah.
Bahkan jika Anda lebih suka yang terakhir, Orange adalah hal yang baik untuk dibiasakan, karena Anda dapat dengan mudah mengimpor potongan-potongan Orange ke skrip Python Anda jika Anda memerlukan beberapa fungsinya.
sumber
Perhatikan bahwa SPSS Statistics memiliki antarmuka Python terintegrasi (juga R). Jadi, Anda dapat menulis program Python yang menggunakan prosedur Statistik dan menghasilkan output Statistik yang diformat dengan baik atau mengembalikan hasil ke program Anda untuk diproses lebih lanjut. Atau Anda dapat menjalankan program Python di aliran perintah Statistik. Anda masih harus tahu bahasa perintah Statistik, tetapi Anda dapat mengambil keuntungan dari semua manajemen data, output presentasi dll yang disediakan oleh Statistik serta prosedurnya.
sumber
Perbandingan terbaru dari DataCamp memberikan gambaran yang jelas tentang R dan Python.
Penggunaan kedua bahasa ini di bidang analisis data. Python digunakan secara umum digunakan ketika tugas analisis data perlu diintegrasikan dengan aplikasi web atau jika kode statistik perlu dimasukkan ke dalam basis data produksi. R terutama digunakan ketika tugas analisis data memerlukan komputasi mandiri atau analisis pada masing-masing server.
Saya menemukannya sangat berguna di blog ini dan berharap itu akan membantu orang lain juga untuk memahami tren terbaru dalam kedua bahasa ini. Julia juga muncul di daerah itu. Semoga ini membantu !
sumber
Saya percaya Python adalah meja kerja yang unggul di bidang saya. Saya melakukan banyak pengikisan, pertengkaran data, pekerjaan data besar, analisis jaringan, pemodelan Bayesian, dan simulasi. Semua hal ini biasanya memerlukan kecepatan dan fleksibilitas sehingga saya menemukan Python berfungsi lebih baik daripada R dalam kasus ini. Berikut adalah beberapa hal tentang Python yang saya sukai (beberapa disebutkan di atas, poin lainnya tidak):
Sintaks -Cleaner; kode lebih mudah dibaca. Saya percaya Python menjadi bahasa yang lebih modern dan konsisten secara sintaksis.
-Python memiliki Notebook, Ipython, dan alat luar biasa lainnya untuk berbagi kode, kolaborasi, penerbitan.
-iPython notebook memungkinkan seseorang untuk menggunakan R dalam kode Python seseorang sehingga selalu mungkin untuk kembali ke R.
-Benar-benar lebih cepat tanpa bantuan C. Menggunakan Cython, NUMBA, dan metode integrasi C lainnya akan menempatkan kode Anda ke kecepatan yang sebanding dengan C. murni, sejauh yang saya ketahui, tidak dapat dicapai dalam R.
-Panda, Numpy, dan Scipy meniup standar R keluar dari air. Ya, ada beberapa hal yang dapat dilakukan R dalam satu baris tetapi menggunakan Pandas 3 atau 4. Secara umum, bagaimanapun, Pandas dapat menangani set data yang lebih besar, lebih mudah digunakan, dan memberikan fleksibilitas luar biasa dalam hal integrasi dengan Python lainnya. paket dan metode.
-Python lebih stabil. Coba muat dataset 2gig ke RStudio.
-Satu paket yang tampaknya tidak disebutkan di atas adalah PyMC3 - paket umum yang bagus untuk sebagian besar pemodelan Bayesian Anda.
-Beberapa, sebutkan di atas ggplot2 dan grub tentang ketidakhadirannya dari Python. Jika Anda pernah menggunakan fungsi grafik Matlab dan / atau menggunakan matplotlib dengan Python maka Anda akan tahu bahwa opsi yang terakhir umumnya jauh lebih mampu daripada ggplot2.
Namun, mungkin R lebih mudah dipelajari dan saya sering menggunakannya dalam kasus di mana saya belum terlalu terbiasa dengan prosedur pemodelan. Dalam hal ini, kedalaman perpustakaan statistik R's off-the-shelf tidak terkalahkan. Idealnya, saya tahu cukup baik untuk dapat digunakan sesuai kebutuhan.
sumber
Bagi mereka yang harus bekerja di Windows, Anaconda ( https://store.continuum.io/cshop/anaconda/ ) sangat membantu. Menginstal paket di bawah Windows adalah sakit kepala. Dengan Anaconda terinstal, Anda dapat mengatur lingkungan pengembangan siap pakai dengan one-liner.
Misalnya dengan
semua paket ini akan diambil dan diinstal secara otomatis.
sumber
Python memiliki jalan panjang sebelum dapat dibandingkan dengan R. Ia memiliki paket yang jauh lebih sedikit daripada R dan kualitasnya lebih rendah. Orang-orang yang berpegang teguh pada dasar-dasar atau hanya mengandalkan perpustakaan khusus mereka mungkin dapat melakukan pekerjaan mereka secara eksklusif dengan Python tetapi jika Anda seseorang yang membutuhkan solusi kuantitatif yang lebih maju, saya berani mengatakan bahwa tidak ada yang mendekati R di luar sana.
Perlu juga dicatat bahwa, sampai saat ini, Python tidak memiliki IDE gaya Matlab ilmiah yang sebanding dengan R-Studio (tolong jangan katakan Spyder) dan Anda perlu mengerjakan semua yang ada di konsol. Secara umum, seluruh pengalaman Python membutuhkan "geekness" dalam jumlah yang baik yang tidak dimiliki dan tidak diperhatikan oleh kebanyakan orang.
Jangan salah paham, saya suka Python, ini sebenarnya bahasa favorit saya yang, tidak seperti R, adalah bahasa pemrograman yang sebenarnya . Namun, ketika datang ke analisis data murni saya bergantung pada R, yang sejauh ini merupakan solusi yang paling khusus dan dikembangkan hingga saat ini. Saya menggunakan Python ketika saya harus menggabungkan analisis data dengan rekayasa perangkat lunak, misalnya membuat alat yang akan melakukan otomatisasi pada metode yang pertama kali saya programkan dalam skrip R yang kotor. Dalam banyak kesempatan saya menggunakan rpy2 untuk memanggil R dari Python karena dalam sebagian besar kasus paket R jauh lebih baik (atau tidak ada sama sekali di Python sama sekali). Dengan cara ini saya mencoba untuk mendapatkan yang terbaik dari kedua dunia.
Saya masih menggunakan beberapa Matlab untuk pengembangan algoritma murni karena saya suka sintaks dan kecepatan gaya matematisnya.
sumber