Saya telah memperhatikan dalam kehidupan akademis saya yang pendek bahwa banyak makalah yang diterbitkan di daerah kami terkadang tidak memiliki banyak ketelitian mengenai statistik. Ini bukan hanya asumsi; Saya pernah mendengar profesor mengatakan hal yang sama.
Sebagai contoh, dalam disiplin ilmu CS saya melihat makalah yang diterbitkan mengklaim bahwa metodologi X telah diamati efektif dan ini dibuktikan oleh ANOVA dan ANCOVA, namun saya tidak melihat referensi untuk peneliti lain mengevaluasi bahwa kendala yang diperlukan telah diamati. Agak terasa seperti begitu beberapa 'fungsi dan nama kompleks' muncul, maka itu menunjukkan bahwa peneliti menggunakan beberapa metode dan pendekatan yang sangat kredibel bahwa 'dia harus tahu apa yang dia lakukan dan tidak apa-apa jika dia tidak menggambarkan kendala' , katakanlah, untuk distribusi atau pendekatan yang diberikan itu, sehingga masyarakat dapat mengevaluasinya.
Terkadang, ada alasan untuk membenarkan hipotesis dengan ukuran sampel yang kecil.
Pertanyaan saya di sini karena itu diajukan sebagai mahasiswa disiplin CS sebagai calon untuk belajar lebih banyak tentang statistik: Bagaimana ilmuwan komputer mendekati statistik?
Pertanyaan ini mungkin sepertinya saya bertanya apa yang sudah saya jelaskan, tapi itu pendapat saya . Saya mungkin salah, atau saya mungkin berfokus pada sekelompok praktisi sedangkan kelompok peneliti CS lainnya mungkin melakukan hal lain yang mengikuti praktik yang lebih baik sehubungan dengan kekakuan statistik.
Jadi secara spesifik, yang saya inginkan adalah "Area kami adalah statistik atau tidak karena fakta yang diberikan (makalah contoh, buku, atau artikel diskusi lain tentang ini baik-baik saja)". @Patrick jawaban lebih dekat dengan ini.
sumber
Jawaban:
Sebagai seorang mahasiswa pascasarjana dalam ilmu komputer, yang memiliki eksposur untuk penelitian di bidang selain ilmu komputer, dan yang kelompok penelitiannya bekerja di bidang ilmu komputer di mana statistik dapat diterapkan secara bermanfaat, saya dapat menawarkan pengalaman saya; jarak tempuh Anda dapat bervariasi.
Secara umum, bahkan penelitian ilmiah yang paling baik sekalipun dapat gagal menerapkan analisis statistik secara ketat pada hasil, dan menurut pengalaman saya hal ini tidak selalu menghalangi makalah termasuk hasil analisis yang kurang baik dari yang diterima untuk dipublikasikan. Area di mana grup saya beroperasi terutama dalam komputasi terdistribusi dan arsitektur komputer berkinerja tinggi. Seringkali, penelitian melibatkan desain eksperimental yang kinerjanya tidak mudah dipahami secara analitis dalam detail yang diperlukan. Dengan demikian, hasil empiris sering digunakan sebagai bukti untuk klaim.
Jelas, eksperimen harus dirancang - dan hasilnya dianalisis - sedemikian rupa untuk memberikan keyakinan bahwa hasilnya signifikan secara statistik. Sebagian besar waktu, ini tidak dilakukan, bahkan di beberapa tempat yang paling penting. Ketika analisis statistik diterapkan, hampir tidak pernah ketat dalam arti yang berarti; yang paling sering dilihat orang (dan orang senang melihatnya!) adalah bahwa percobaan diulangi sebanyak n kali, untuk beberapa n yang dipilih secara sewenang-wenang , di mana biasanya1 < n < 5 . Pemilihan bar kesalahan (jika ada ditunjukkan) tampaknya terutama masalah preferensi atau selera pribadi.
Singkatnya, tidak, itu bukan hanya Anda; dan itu bukan hanya rekayasa perangkat lunak. Secara umum, berdasarkan pengalaman saya, beberapa bidang penelitian komputasi tampaknya keliru di sisi tidak cukup melakukan. Memang, itu mungkin bahkan merusak kelayakan makalah yang diserahkan untuk memikirkan pertimbangan statistik. Bukan untuk mengatakan bahwa saya merasa situasinya memuaskan; jauh dari itu. Tapi ini adalah kesan saya. Misalnya, Anda dapat melihat bagian 5 dari makalah ini, yang dipresentasikan di Supercomputing 2011, salah satu konferensi paling terkenal di bidang komputasi kinerja tinggi. Secara khusus, lihat beberapa pembahasan hasil di bagian 5, dan lihat apakah Anda sampai pada kesimpulan yang sama yang saya lakukan tentang kerasnya analisis statistik hasil eksperimen.
Secara lebih umum, kekurangan ini mungkin merupakan gejala dari suatu kondisi dalam beberapa bidang komputasi untuk menerbitkan lebih banyak makalah daripada lebih sedikit, untuk menargetkan konferensi daripada jurnal, dan untuk menekankan kemajuan tambahan daripada perbaikan yang signifikan dan mendasar dalam pemahaman. Anda dapat membaca artikel ini , yang memberikan wawasan berharga di sepanjang baris ini.
sumber
Rekayasa perangkat lunak mencakup banyak fitur. Dua di antaranya adalah faktor manusia dan ukuran kualitas.
Katakanlah saya ingin melakukan analisis produktivitas. Pengumpulan data akan sulit dibandingkan dengan analisis algoritma karena data tentang produktivitas manusia. Juga ukuran obyektif kualitas tidak mudah dicapai.
10 baris kode per hari untuk sistem avionik versus 150 baris kode per hari untuk aplikasi di ponsel pintar, mana yang memiliki produktivitas lebih tinggi dan mana yang memiliki kualitas lebih baik? Dan jika keduanya mengklaim bahwa mereka menggunakan metodologi yang sama? Membandingkannya adalah membandingkan apel dan jeruk.
Terkadang sulit untuk mencapai ukuran efisiensi kode yang akurat. Sebagai contoh, saya memasukkan banyak variabel yang tidak berguna dan banyak baris kode untuk variabel-variabel tersebut, misalnya untuk tujuan debugging. Ini meningkatkan produktivitas saya pada tahap pengembangan. Pada akhirnya, saya menghapus semuanya dan saya katakan saya meningkatkan kode saya untuk mencapai efisiensi.
Kemudian, seorang peneliti datang dan melakukan analisis efisiensi. Dia mungkin memperlakukan hal di atas sebagai suara dan hanya berkonsentrasi pada hasil akhir. Beberapa peneliti memperhatikan kebisingan. Maka Anda akan melihat artikel dengan kesimpulan berbeda.
Statistik seharusnya menjadi alat untuk membantu para peneliti dalam menemukan penyebab masalah. Banyak peneliti menggunakannya untuk menarik kesimpulan. Inilah yang telah Anda amati.
Beberapa komentar di atas mungkin membuat OP berpikir bahwa saya menentang penggunaan statistik dalam rekayasa perangkat lunak. Jika demikian, saya ingin membuat diri saya jelas.
Saya tidak menentang statistik. Analisis statistik dapat memberi tahu Anda X mungkin benar. Tapi, itu seharusnya bukan akhir dari penelitian. Tugas selanjutnya adalah mencari tahu apakah X benar dan mengapa. Inilah yang saya yakini tentang sains - untuk menemukan kebenaran.
Apakah atau tidak rekayasa perangkat lunak milik ilmu komputer adalah masalah lain.
sumber
Statistik sulit , dan seringkali kontra-intuitif. Selain itu, dorongan untuk "melakukan satu percobaan lagi" untuk melihat apakah ada efek (dan berhenti ketika itu muncul) kuat, khususnya jika eksperimen itu mahal (waktu, kerja, bukan hanya uang). Juga ingat bahwa menerbitkan makalah tentang bagaimana percobaan yang dibuat dengan hati-hati, panjang dan mahal tidak menunjukkan hubungan yang signifikan secara statistik.
Khususnya dalam rekayasa perangkat lunak ada banyak variabel yang tidak dapat dikendalikan. Untuk menjelaskannya, Anda akan memerlukan banyak ulangan percobaan, dan Anda mendapatkan sumber daya untuk melakukan satu atau dua yang terbaik.
sumber
ada beberapa pertanyaan di atas & beberapa tidak sama dengan pertanyaan judul & dalam beberapa hal pertanyaan ini memiliki premis / miskonsepsi yang salah tentang kurangnya koneksi antara statistik dan CS. pertanyaan umum adalah tentang antarmuka ilmu komputer dan statistik.
ada yang luas, mendekati tumpang tindih yang intens di beberapa daerah dan ini merupakan tren yang meningkat dengan bidang baru big data yang muncul . di beberapa sekolah (misalnya sekolah elit "Ivy League") gelar CS erat dengan departemen matematika dan statistik dan beberapa memiliki mata pelajaran bersama . ada interkoneksi yang sangat kuat di bidang CS / statistik Machine Learning . juga bidang bioinformatika yang relatif baru memiliki landasan statistik CS + yang sangat kuat.
ada seluruh bidang Statistik komputasi yang difokuskan pada antarmuka!
ya, setuju, sebagaimana ditunjukkan dalam pertanyaan, ada banyak makalah CS yang tidak menggunakan statistik, termasuk situasi (seperti mengevaluasi eksperimen empiris) di mana itu mungkin bahkan sangat berlaku & relevan, tetapi persis sama dapat dikatakan banyak lainnya bidang ilmiah, misalnya matematika, dan bahkan lebih banyak bidang terapan seperti fisika.
ada banyak cara untuk menggunakan / menerapkan statistik, beberapa kurang ketat daripada yang lain, dan tidak semua konteks membutuhkan aplikasi penuh dari aspek statistik yang sangat canggih. misalnya hanya menjalankan beberapa percobaan dan merencanakan bilah kesalahan untuk penyimpangan statistik (atau bahkan hanya rata - rata! ) adalah penggunaan dasar statistik. penggunaan yang lebih ketat termasuk pengujian hipotesis, tetapi ada pengamatan umum di lapangan bahwa banyak makalah ilmiah tidak melakukan pengujian hipotesis yang ketat bahkan di mana itu mungkin berlaku.
juga, pertanyaan ini ditandai dengan rekayasa Perangkat Lunak. ini adalah jurusan saya, dan kelas statistik diperlukan untuk lulus untuk menyelesaikan gelar ini di sekolah saya & untuk mendapatkan jurusan yang bersertifikat teknik (misalnya ABET ), ini mungkin terjadi di banyak universitas lain. jika seseorang menginginkan prinsip-prinsip tipe CS yang lebih terapan dan ketat seperti aplikasi statistik, seseorang dapat menempuh rute "rekayasa perangkat lunak" dalam pendidikan.
Menggabungkan ilmu komputer, statistik menciptakan mesin yang dapat belajar, Prof. John Lafferty mengajarkan komputer untuk mengekstrak pengetahuan dari data
statistik gabungan dan jurusan ilmu komputer, U of Illinois
Matematika, CS, statistik, Purdue
statistik apa yang seharusnya diketahui oleh seorang ilmuwan komputer stackoverflow
sumber