Saya akan mengajar statistik sebagai asisten pengajar untuk paruh kedua semester ini untuk mahasiswa sarjana berorientasi-CS. Sebagian besar siswa mengambil kelas tidak memiliki insentif untuk mempelajari subjek dan hanya mengambilnya untuk persyaratan utama. Saya ingin membuat subjek menarik dan bermanfaat, bukan hanya kelas yang mereka pelajari untuk mendapatkan B + untuk lulus.
Sebagai mahasiswa PhD matematika murni, saya hanya tahu sedikit tentang sisi kehidupan nyata yang diterapkan. Saya ingin meminta beberapa aplikasi statistik sarjana kehidupan nyata. Contoh yang saya cari adalah yang (dalam semangat) seperti:
1) Menampilkan teorema limit pusat berguna untuk data sampel besar tertentu.
2) Berikan contoh tandingan bahwa teorema batas pusat tidak berlaku (katakanlah, yang mengikuti distribusi Cauchy).
3) Menunjukkan bagaimana pengujian hipotesis bekerja dalam contoh kehidupan nyata yang terkenal menggunakan uji-Z, uji-t atau sesuatu.
4) Menunjukkan bagaimana overfitting atau salah hipotesis awal dapat memberikan hasil yang salah.
5) Menunjukkan bagaimana p-value dan interval kepercayaan bekerja dalam kasus kehidupan nyata (terkenal) dan di mana mereka tidak bekerja dengan baik.
6) Demikian pula tipe I, kesalahan tipe II, kekuatan statistik, tingkat penolakan , dll.
Masalah saya adalah bahwa sementara saya memiliki banyak contoh di sisi probabilitas (lemparan koin, lemparan dadu, kehancuran penjudi, martingales, jalan acak, paradoks tiga tahanan, masalah ruang monty, metode probabilitas dalam desain algoritma, dll), saya tidak tahu banyak contoh kanonik di sisi statistik. Yang saya maksud adalah contoh serius dan menarik yang memiliki nilai pedagogis, dan tidak dibuat-buat secara artifisial yang tampaknya sangat terlepas dari kehidupan nyata. Saya tidak ingin memberikan kesan yang salah kepada siswa bahwa tes-Z dan uji-t adalah segalanya. Tetapi karena latar belakang matematika murni saya, saya tidak tahu cukup contoh untuk membuat kelas menarik dan bermanfaat bagi mereka. Jadi saya mencari bantuan.
Tingkat murid saya adalah sekitar kalkulus I dan kalkulus II. Mereka bahkan tidak dapat menunjukkan varians normal standar adalah 1 menurut definisi karena mereka tidak tahu bagaimana mengevaluasi kernel Gaussian. Jadi segala sesuatu yang sedikit teoretis atau komputasi langsung (seperti distribusi hypergeometrik, hukum arcsin dalam 1D random walk) tidak akan berfungsi. Saya ingin menunjukkan beberapa contoh yang mereka dapat mengerti tidak hanya "bagaimana", tetapi juga "mengapa". Kalau tidak, saya tidak yakin apakah saya akan membuktikan apa yang saya katakan dengan intimidasi.
sumber
Jawaban:
Salah satu cara yang baik adalah menginstal R ( http://www.r-project.org/ ) dan menggunakan contohnya untuk mengajar. Anda dapat mengakses bantuan dalam R dengan perintah "? T.test" dll. Di akhir setiap file bantuan adalah contoh. Untuk t.test, misalnya:
sumber
Saya menyarankan aplikasi teorema limit pusat untuk pra-penentuan ukuran sampel dan menemukan jawaban untuk pertanyaan seperti "apakah saya mengirimkan cukup kuesioner" dll.
http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf memberikan contoh dunia nyata yang baik tentang bagaimana menerapkan teorema batas pusat. Strategi didaktik mungkin:
A) teori
* memperjelas perbedaan antara distribusi pengambilan sampel dan distribusi perkiraan, misalnya dengan distribusi "datar" dari menggulung dadu versus distribusi rata-rata dadu N (gunakan R atau biarkan siswa bahkan bermain sendiri dengan Excel menggambar tunggal) -distribusi nilai versus distribusi cara)
* perlihatkan perhitungan berbasis rumus dari persentil untuk distribusi rata-rata (saat Anda mempelajari matematika, Anda mungkin ingin menurunkan rumus) - titik ini sesuai dengan slide 10-17 dalam presentasi yang ditautkan di atas
dan kemudian (seperti pada slide 20 dari presentasi yang ditautkan di atas):
B) aplikasi
* menunjukkan bagaimana teorema limit pusat membantu menentukan ukuran sampel untuk ukuran yang diinginkan dalam perkiraan rata-rata
Aplikasi ini B) adalah apa yang menurut pengalaman saya non-ahli statistik dari ahli statistik - menjawab pertanyaan dari jenis "apakah saya punya cukup data?"
sumber
Karena Anda mengajar siswa CS, aplikasi bagus dari Central Limit Theorem mungkin untuk memperkirakan rata-rata dari kumpulan data besar (yaitu> 100 juta catatan). Mungkin instruktif untuk menunjukkan bahwa tidak perlu menghitung rata-rata untuk seluruh dataset, tetapi sebaliknya untuk mengambil sampel dari dataset dan menggunakan sampel mean untuk memperkirakan rata-rata dari seluruh dataset / database. Anda bisa mengambil langkah ini lebih jauh jika Anda ingin dan mensimulasikan set data yang memiliki nilai yang berbeda secara drastis untuk berbagai subkelompok. Anda kemudian dapat meminta siswa mengeksplorasi pengambilan sampel bertingkat untuk mendapatkan perkiraan yang lebih akurat.
Sekali lagi, karena ada siswa CS, Anda mungkin ingin melakukan bootstrap untuk mendapatkan interval kepercayaan juga atau untuk memperkirakan variasi statistik yang lebih kompleks. Ini adalah persimpangan statistik dan komputer yang bagus karena, menurut pendapat saya dan mungkin mengarah ke minat yang lebih besar dalam materi pelajaran.
sumber
Saya mulai dengan mengetik komentar tetapi terlalu panjang ...
Jadi, menurut saya, mereka akan menyukainya jika Anda menyajikan kesimpulan dari sudut pandang "belajar", dan jika Anda menyajikan tes dari sudut pandang "teori keputusan" atau "klasifikasi" - singkatnya, mereka seharusnya menyukai algoritma. Untuk grok algoritma!
Juga, cobalah untuk menemukan set data terkait CS; misalnya durasi koneksi dan jumlah permintaan per unit waktu ke server html dapat membantu menggambarkan banyak konsep.
Mereka akan senang mempelajari teknik simulasi. Generator Lehmer mudah diimplementasikan. Tunjukkan pada mereka cara mensimulasikan distribusi lain dengan membalikkan cdf. Jika Anda suka ini, tunjukkan pada mereka algoritma Ziggurat Marsaglia. Oh, dan generator MWC256 oleh Marsaglia adalah permata kecil. Tes Diehard oleh Marsaglia (tes untuk keadilan generator seragam) dapat membantu untuk menggambarkan banyak konsep probabilitas dan statistik. Anda bahkan dapat memilih untuk menyajikan teori probabilitas berdasarkan "aliran (independen) ganda acak, oups, maksudku realita" - ini agak kurang ajar, tetapi bisa besar.
Jika Anda cukup menguasai subjek Anda, jangan ragu untuk menjadi orisinal. Kuliah "klasik" tidak masalah ketika Anda mengajarkan sesuatu yang tidak Anda kenal sepenuhnya. Semoga berhasil, dan jika Anda mengeluarkan beberapa catatan kuliah, tolong beri tahu saya!
sumber
Anda mengatakan ini adalah siswa ilmu komputer. Apa minat mereka, apakah ini terutama ilmu komputer teoretis, atau siswa terutama termotivasi dengan mempersiapkan pekerjaan? Anda juga dapat memberi tahu kami apa deskripsi kursusnya!
Tetapi, apa pun jawaban Anda untuk pertanyaan-pertanyaan itu, Anda bisa mulai dengan beberapa statistik praktis yang terjadi dalam konteks informatika, seperti (misalnya) desain web. Situs ini dari waktu ke waktu memiliki pertanyaan tentang ini, seperti tingkat Konversi dari waktu ke waktu atau /stats/96853/comparing-sales-person-conversion-rates atau AB Menguji faktor lain selain tingkat konversi .
Ada banyak pertanyaan di sini seperti ini, sepertinya dari orang yang terlibat dalam desain web. Situasinya adalah Anda memiliki beberapa halaman web (katakanlah, Anda menjual sesuatu). "Tingkat konversi", seperti yang saya mengerti, adalah persentase pengunjung yang pergi ke beberapa tugas yang disukai (seperti membeli, atau beberapa tujuan lain yang Anda miliki untuk pengunjung Anda). Maka Anda, sebagai perancang web, bertanya apakah tata letak halaman Anda memengaruhi perilaku ini. Jadi, Anda memprogram dua (atau lebih) versi halaman web, memilih versi mana yang akan disajikan secara acak kepada beberapa pelanggan baru, dan dapat membandingkan tingkat konversi, dan akhirnya memilih untuk mengimplementasikan versi dengan tingkat konversi tertinggi.
Ini adalah masalah desain percobaan perbandingan, dan Anda memerlukan metode statistik untuk membandingkan persentase, atau mungkin secara langsung tabel kontingensi desain versus konversi / tanpa konversi. Contoh itu dapat menunjukkan kepada mereka bahwa statistik sebenarnya dapat berguna bagi mereka dalam beberapa pekerjaan pengembangan web! Dan, dari sisi statistik, terbuka untuk banyak pertanyaan menarik tentang validitas asumsi ...
Untuk terhubung dengan apa yang Anda katakan tentang teorema batas pusat, Anda dapat bertanya berapa banyak pengamatan yang Anda butuhkan sebelum Anda dapat memperlakukan persentase seperti yang didistribusikan secara normal, dan minta mereka mempelajari bahwa menggunakan simulasi ...
Anda dapat mencari di situs ini untuk pertanyaan statistik lain yang diajukan oleh tipe programmer ...
sumber
Saya menyarankan agar, sebelum contoh yang baik, lebih baik fokus pada definisi yang jelas. Dalam pengalaman saya, probabilitas sarjana dan statistik adalah kursus yang diisi dengan kata-kata yang tidak dipahami oleh siswa. Sebagai percobaan, tanyakan kepada siswa yang baru saja menyelesaikan kursus probabilitas apa "variabel acak" itu. Mereka mungkin memberi Anda contoh, tetapi saya ragu sebagian besar akan memberi Anda definisi yang jelas tentang itu. Apa sebenarnya "probabilitas"? Apa itu "distribusi"? Terminologi dalam statistik bahkan lebih membingungkan. Sebagian besar buku sarjana yang saya lihat melakukan pekerjaan yang sangat buruk ketika menjelaskan ini. Contoh dan perhitungan bagus, tetapi tanpa definisi yang jelas itu tidak membantu seperti yang dipikirkan orang. Berbicara dari pengalaman saya, inilah mengapa saya membenci teori probabilitas sebagai sarjana. Meskipun minat saya sejauh mungkin dilepaskan dari kemungkinan, saya sekarang menghargai subjek, karena saya akhirnya belajar sendiri apa arti sebenarnya dari semua terminologi. Saya minta maaf bahwa ini bukan apa yang Anda minta, tetapi mengingat bahwa Anda mengajar kelas seperti itu saya pikir ini akan menjadi saran yang berguna.
sumber