Saya menyadari ini subjektif, tetapi saya pikir akan menyenangkan untuk berbicara tentang kumpulan data favorit kami dan apa yang kami pikir membuatnya menarik. Ada banyak data di luar sana, dan apa dengan semua API (misalnya, Datamob ) bersama dengan kumpulan data klasik (misalnya, data R ), saya pikir ini bisa memiliki beberapa respons yang sangat menarik.
Sebagai contoh, saya selalu menyukai dataset seperti dataset "Boston Housing" (terlepas dari implikasi yang disayangkan) dan "mtcars" karena keserbagunaannya. Dari sudut pandang pedagogis, orang dapat menunjukkan manfaat dari berbagai teknik statistik yang menggunakannya; dan dataset iris Anderson / Fisher akan selalu mendapat tempat di hati saya.
Pikiran?
Jawaban:
Studi berat badan lahir rendah
Ini adalah salah satu dataset dalam buku teks Hosmer dan Lemeshow tentang Regresi Logistik Terapan (2000, Wiley, edisi kedua). Tujuan dari penelitian prospektif ini adalah untuk mengidentifikasi faktor-faktor risiko yang terkait dengan melahirkan bayi berat lahir rendah (berat kurang dari 2.500 gram). Data dikumpulkan pada 189 wanita, 59 di antaranya memiliki bayi berat lahir rendah dan 130 di antaranya memiliki bayi berat lahir normal. Empat variabel yang dianggap penting adalah usia, berat subjek pada periode menstruasi terakhir, ras, dan jumlah kunjungan dokter selama trimester pertama kehamilan.
Ini tersedia dalam R as
data(birthwt, package="MASS")
atau di Stata denganwebuse lbw
. Versi teks muncul di sini: lowbwt.dat ( deskripsi ). Sebagai catatan, ada beberapa versi dataset ini karena diperluas ke studi kasus-kontrol (1-1 atau 1-3, sesuai usia), seperti yang diilustrasikan oleh Hosmer dan Lemeshow dalam ALR bab 7.Saya biasa mengajar kursus pengantar berdasarkan dataset ini karena alasan berikut:
Poin lain yang dapat ditekankan, tergantung pada audiens dan tingkat keahlian dengan perangkat lunak statistik, atau statistik secara umum.
Adapun dataset yang tersedia di R, prediktor kategoris dinilai sebagai bilangan bulat (misalnya, untuk etnis ibu kita memiliki '1' = putih, '2' = hitam, '3' = lainnya), walaupun fakta bahwa pemesanan alami untuk beberapa prediktor (misalnya, jumlah pekerja prematur sebelumnya atau jumlah kunjungan dokter) atau penggunaan label eksplisit (itu selalu merupakan ide yang baik untuk menggunakan 'ya' / 'tidak' daripada 1/0 untuk variabel biner, bahkan jika itu tidak ' t mengubah apa pun dalam matriks desain!) benar-benar tidak ada. Dengan demikian, mudah untuk membahas masalah apa yang mungkin muncul dengan mengabaikan tingkat atau unit pengukuran dalam analisis data.
Variabel tipe campuran menarik ketika melakukan analisis eksplorasi dan mendiskusikan jenis tampilan grafis yang sesuai untuk meringkas hubungan univariat, bivariat, atau trivariat. Demikian juga, menghasilkan tabel ringkasan yang bagus, dan pelaporan yang lebih umum, adalah aspek lain yang menarik dari dataset ini (tetapi
Hmisc::summary.formula
perintah membuatnya sangat mudah di bawah R).Hosmer dan Lemeshow melaporkan bahwa data aktual telah dimodifikasi untuk melindungi kerahasiaan subjek (hlm. 25). Mungkin menarik untuk membahas masalah kerahasiaan data, seperti yang dilakukan di salah satu Journal Club kami sebelumnya , tetapi lihat transkripnya . (Harus kuakui aku tidak pernah membahas banyak hal dengan itu.)
Sangat mudah untuk memperkenalkan beberapa nilai yang hilang atau nilai yang salah (yang merupakan masalah umum dalam kehidupan nyata seorang ahli statistik), yang mengarah untuk membahas (a) deteksi mereka melalui codebook (
Hmisc::describe
atau Stata'scodebook
) atau grafik eksplorasi (selalu plot data Anda terlebih dahulu!) , dan (b) kemungkinan perbaikan (imputasi data, penghapusan listwise atau ukuran hubungan berpasangan, dll.).sumber
Tentu saja, dataset Anscombe 4 sangat baik untuk pengajaran - mereka terlihat sangat berbeda, namun memiliki sifat statistik sederhana yang identik.
Saya juga menyarankan dataset KDD Cup http://www.kdd.org/kddcup/ karena mereka telah dipelajari dengan baik dan ada banyak solusi, sehingga siswa dapat membandingkan hasil mereka dan melihat bagaimana peringkat mereka.
Dalam kursus penambangan data, saya memberikan kompetisi dataset Microarray yang dapat digunakan oleh profesor http://www.kdnuggets.com/data_mining_course/
sumber
Banyak kursus Analisis Statistik saya di Cal Poly telah menggunakan dataset "Iris" yang sudah ada di R. Ini memiliki variabel kategori, dan variabel yang sangat berkorelasi.
sumber
Dataset Titanic digunakan oleh Harrell dalam "Strategi Pemodelan Regresi". Saya menggunakan versi sederhana analisisnya ketika menjelaskan regresi logistik, menjelaskan kelangsungan hidup menggunakan jenis kelamin, kelas, dan usia.
The Loyn dataset dibahas dalam "Desain Eksperimental dan Analisis Data untuk biologi" oleh Gerry Quinn dan Mick Keough mengandung masalah yang bagus yang memerlukan transformasi untuk regresi linier berganda.
sumber