Kursus desain eksperimental untuk penambang data

11

Saya seorang ilmuwan komputer yang bekerja di penambangan data. Bukan rahasia lagi untuk mengatakan bahwa para ilmuwan komputer cukup miskin dalam melakukan desain dan evaluasi eksperimental yang sistematis - penggunaan nilai-p dan perkiraan kepercayaan diri dianggap maju :).

Apa yang ingin saya ketahui jika ada kursus / materi yang bagus untuk mengajar ilmuwan komputer tentang desain eksperimental yang baik. Untuk membuat ini lebih spesifik, saya akan menambahkan informasi berikut:

  • Kursus ini harus ditargetkan pada mahasiswa pascasarjana yang dapat diasumsikan memiliki pemahaman yang masuk akal tentang probabilitas, tetapi latar belakang statistik yang terbatas.
  • Kursus harus fokus pada desain eksperimental dalam "pengaturan tidak wajar yang tidak terkendali": dengan kata lain tidak ada kebenaran dasar fisik yang mendasari atau cara untuk mengontrol proses pengumpulan data (seperti dengan subyek manusia). Tentu saja kursus yang baik akan fokus pada fundamental, tetapi harus berurusan dengan skenario ini secara signifikan.
  • Elemen komputasi akan menjadi bonus tetapi tidak wajib. Kami menangani banyak data, tetapi dapat memecahkan sendiri masalah komputasi jika perlu.
Suresh Venkatasubramanian
sumber
1
Semua kondisi percobaan yang Anda jelaskan mengingatkan saya pada Tes A / B ... kebetulan? :)
steffen

Jawaban:

5

[Noah Smith] [1] dan [David Smith] [2] menawarkan kursus di JHU beberapa waktu lalu dengan motivasi yang sama.

Garis besar:

  • Kuliah 1: pengantar, tinjauan statistik, pengujian hipotesis, pengambilan sampel
  • Kuliah 2: statistik yang menarik: berarti, kuantil, varians
  • Kuliah 3–4: percobaan dengan runtime dan “space”
  • Kuliah 5: analisis data eksplorasi
  • Kuliah 6: pemodelan parametrik, regresi, dan klasifikasi
  • Kuliah 7: debugging statistik dan profil
  • Kuliah 8: ringkasan dan ulasan

Untuk detailnya, lihat Metode Penelitian Empiris dalam Ilmu Komputer (600.408) http://www.cs.jhu.edu/~nasmith/erm/

Delip
sumber
3

Pertanyaan bagus. Saya ingin melihat jawabannya.

Dari sudut pandang statistik, dua masalah perlu diatasi: sebagian besar statistik dan desain statistik membahas statistik sampel kecil dan sebagian besar metodologi yang digunakan oleh insinyur bukanlah statistik "modern".

Saya tidak memiliki saran langsung untuk masalah pertama di luar sekolah yang bagus dalam penambangan / eksplorasi data dan arti statistik yang berbeda ketika dihadapkan dengan analisis statistik populasi (atau sampel besar).

Namun dua buku yang menarik untuk memperkenalkan siswa pada statistik adalah dari Rand Wilcox (seorang psikolog):

Wilcox, RR (2012). Pengantar Estimasi Kuat dan Pengujian Hipotesis, 3rd Ed. Pers Akademik.

Wilcox, RR (2010). Dasar-dasar Metode Statistik Modern: Secara Substansial Meningkatkan Kekuatan dan Akurasi, Springer, 2nd Ed.

Jason Morrison
sumber
2
Tampaknya bagi saya bahwa masalah pertama adalah untuk penelitian, dan mungkin belum memiliki "praktik terbaik". Mungkin sekali pengantar yang kuat untuk pengujian dasar dan pengeboran dalam masalah beberapa hipotesis mungkin merupakan tempat terbaik untuk memulai.
Suresh Venkatasubramanian