Bahasa pemrograman apa untuk inferensi statistik?

8

hanya untuk rasa ingin tahu ... Bahasa apa yang paling banyak digunakan di sini? R? MATLAB? Python? Jawa?

Apa untuk prototipe atau untuk produksi? Sebagai contoh saya pikir MATLAB sebagian besar digunakan untuk prototyping, python untuk kedua prot. dan produksi ...

nkint
sumber
6
cukup banyak diselesaikan di sini: stackoverflow.com/questions/2200460/…
radek
2
Dibuat wiki karena ini sepenuhnya subjektif.
Shane

Jawaban:

7

Saya sangat setuju dengan suara untuk R. R adalah "Lingua Franca" dari dunia statistik. Ini adalah definisi terkini, sementara sebagian besar paket untuk MATLAB dan SAS memakan waktu beberapa bulan. Bahasa ini sangat sederhana untuk dipahami sebagai lawan SAS. Ini juga memberi Anda kekuatan untuk terhubung dengan C / C ++ / Python dan database.

Pertimbangkan versi Revolution Analytics dari R untuk kinerja yang sedikit lebih.

http://www.revolutionanalytics.com/products/revolution-r.php

pslice
sumber
2
Saya harus mengatakan saya harus tidak setuju tentang R yang lebih mudah dipelajari daripada SAS. Mungkin karena saya pertama kali mempelajari SAS dan SPSS, tetapi saya pikir SAS, SPSS (PASW sekarang), dan Stata adalah bahasa yang lebih mudah diambil daripada R. Namun, ini adalah argumen subjektif.
Andy W
Saya merasa seperti R memberi pengguna lebih banyak dalam hal fungsi. Ini melampaui apa yang dapat dilakukan SAS / SPSS.
pslice
3
Saya tidak setuju dengan itu, tetapi itu tidak membuatnya lebih mudah untuk dipahami. Saya pikir itu cukup transparan objek apa yang saya kerjakan di SAS, SPSS, atau Stata dan format / sifat dari objek-objek itu, tetapi tidak transparan di R. Meskipun R mungkin lebih canggih, saya jarang memiliki perlu untuk teknik statistik canggih dalam pekerjaan saya sehari-hari.
Andy W
Sulit untuk memikirkan sistem sumber tertutup yang transparan. Bahkan jika Anda hanya menggunakan metode statistik lama, R adalah sistem yang lebih efisien untuk menggunakannya, dan membentuk kotak alat penelitian lengkap yang dapat direproduksi.
Frank Harrell
8

Nah, Anda dapat MEMBAYAR untuk MATLAB, dan kemudian (1) memprogram hal-hal yang benar-benar Anda butuhkan dari bawah ke atas atau (2) MEMBAYAR LEBIH BANYAK untuk kotak alat MATLAB. Dan temukan bahwa melakukan statistik yang bermanfaat di MATLAB adalah suatu renungan yang ditangani dalam Kotak Alat Statistik yang semakin tidak berguna. Atau ... Anda dapat mengunduh R secara GRATIS dan mencari (dan menemukan!) Paket yang Anda butuhkan, yang juga dapat Anda unduh secara GRATIS.

Banyak hal produksi skala kecil dapat dilakukan di R. Jika Anda melakukan sesuatu yang sangat besar (pikirkan sensus AS), Anda mungkin perlu belajar SAS - dan membuat majikan Anda membayar untuk itu.

Mike Anderson
sumber
7

"Popularitas" tergantung pada komunitas dan definisi "statistik". Di seluruh dunia, mengambil pandangan luas tentang "inferensi statistik" sebagai termasuk metode menggambar kesimpulan atau mengambil tindakan berdasarkan data kuantitatif, ada sedikit pertanyaan bahwa Excel mengalahkan semua aplikasi lain, termasuk R, SAS, Stata, SPSS, dan S -Plus . (Tautan mengarah ke berbagai jenis statistik, tetapi mereka sangat sugestif, untuk sedikitnya.) Python dan MATLAB bahkan tidak gagal dalam statistik. Saya tidak mengatakan bahwa ini adalah hal yang baik atau bahwa kita harus menyukainya: begitulah adanya dan itulah yang akan bertahan untuk waktu yang sangat lama.

Kami tidak boleh menarik kesimpulan apa pun dari apa yang tampaknya populer di sini di forum ini. Vendor perangkat lunak komersial mendukung forum mereka sendiri, sehingga secara alami tempat seperti SE akan lebih menyukai orang yang menggunakan perangkat lunak yang tidak didukung secara aktif, terutama gratis, sumber terbuka, dan solusi akademik.

whuber
sumber
6

Seharusnya jelas dengan melihat tag paling populer bahwa R adalah bahasa yang paling populer di situs ini. Apakah itu menjadikannya bahasa yang paling populer untuk analisis statistik tidak dapat disimpulkan secara langsung, tetapi orang mungkin mengira begitu.

Shane
sumber
4

R dan SAS masing-masing memiliki pro dan kontra. Saya pikir lebih banyak ahli statistik perlu merangkul fakta bahwa banyak perangkat lunak statistik hebat tersedia, daripada pertengkaran tanpa henti tentang mana yang lebih unggul.

R gratis. SAS sangat mahal. R memberi Anda kemampuan untuk melakukan apa saja. SAS mungkin atau mungkin tidak. R memiliki kemampuan grafis yang luar biasa. Melihat grafik SAS membuatnya terasa seperti tahun 1985 lagi. SAS memiliki dukungan pelanggan yang hebat. Dukungan R = jam mencari arsip milis. Juga dengan nama seperti "R", hasil mesin pencari seringkali buruk. R sangat lambat dan tidak berurusan dengan set data yang besar. SAS tidak masalah dengan kumpulan data besar. SAS cenderung lebih kuat. Dalam pengalaman saya, ketika datang ke pemodelan efek campuran atau apa pun yang melibatkan desain eksperimen (seperti menganalisis desain crossover), SAS lebih unggul.

Untuk skala besar, simulasi brute force, saya menggunakan Fortran. Saya dulu menggunakan C, tetapi menemukan Fortran jauh lebih mudah digunakan. Saya tidak pernah menggunakan MATLAB. Jika saya membutuhkan kekuatan statistik R tetapi kecepatan Fortran, saya akan menulis operasi intensif waktu (yaitu loop) di Fortran dan memanggil subrutin dari R.

MichaelSnot
sumber
3
Nah, dukungan R adalah tempat-tempat seperti di sini, yang seringkali lebih efektif daripada dukungan berbayar. Untuk Googling, ada rseek.org, kerjanya sangat bagus. 99% dari kasus R-is-slow dapat diselesaikan dengan beberapa pemikiran; ada juga paket untuk menangani data yang sangat besar (tidak langsung di SAS juga). R adalah bahasa pemrograman, SAS adalah SQL yang diperluas.
2
Memberi +1 karena jawaban ini bermanfaat, tetapi menurut saya poin Anda tentang dukungan, kecepatan, dan kemampuan R untuk menangani data besar sudah usang atau menjadi sangat cepat.
Matt Parker
2
Saya akan komentar kedua @Matt dan @ mbq tentang kinerja R, tapi saya ingin menambahkan bahwa R sebenarnya cukup bagus untuk (N) LME. Saya dapat mengingat ceramah dari Doug Bates di konferensi DSC 2009 di mana ia menunjukkan bagaimana lme4paket itu dengan mudah menangani banyak efek acak (seperti yang dijumpai misalnya, dalam penilaian pendidikan). Pengalaman saya sendiri (tetapi terbatas) (SAS NLMIXED vs R lme4) mengonfirmasi hal itu: R sama sekali tidak lebih lambat dari SAS dalam hal menerapkan model IRT yang kompleks , dan ia menangani set data genetik yang besar juga (berkat implementasi C yang pintar) .
chl
1

Preferensi saya masuk ke Python, dan mungkin, Jawa. Pertama, mereka adalah bahasa pemrograman nyata. Kedua, mereka adalah bahasa yang paling populer (Indeks TIOBE). Anda juga dapat mengkonversi antara bahasa-bahasa ini menggunakan beberapa bahasa scripting. Di masa lalu saya menggunakan platform DMelt http://jwork.org/dmelt/ untuk melakukan perhitungan statistik, dan saya sangat terkesan dengan grafik dalam 2D ​​dan 3D, yang dapat dengan mudah dicapai untuk makalah profesional. Paket R tidak membuat saya terkesan dengan gambarnya.

John2
sumber
2
Ini tidak menjawab pertanyaan tentang bahasa paling populer untuk inferensi statistik. Sebagian besar tentang preferensi pribadi Anda dengan menyebutkan apa yang merupakan bahasa pemrograman populer.
Nick Cox