Apa dataset yang baik untuk menggambarkan aspek-aspek tertentu dari analisis statistik?

16

Saya menyadari ini subjektif, tetapi saya pikir akan menyenangkan untuk berbicara tentang kumpulan data favorit kami dan apa yang kami pikir membuatnya menarik. Ada banyak data di luar sana, dan apa dengan semua API (misalnya, Datamob ) bersama dengan kumpulan data klasik (misalnya, data R ), saya pikir ini bisa memiliki beberapa respons yang sangat menarik.

Sebagai contoh, saya selalu menyukai dataset seperti dataset "Boston Housing" (terlepas dari implikasi yang disayangkan) dan "mtcars" karena keserbagunaannya. Dari sudut pandang pedagogis, orang dapat menunjukkan manfaat dari berbagai teknik statistik yang menggunakannya; dan dataset iris Anderson / Fisher akan selalu mendapat tempat di hati saya.

Pikiran?

DA
sumber
2
Yang digunakan untuk disertasi saya, karena saya akan mendapatkan gelar doktor jika saya menganalisanya dengan benar>.>
Fomite
3
Selamat Datang di Cross Divalidasi! Ini dirancang sebagai situs tanya jawab untuk pertanyaan dengan jawaban nyata, bukan forum diskusi. Karena itu, saya tidak percaya ini adalah jenis pertanyaan yang kita inginkan di situs ini. Silakan lihat FAQ .
Michael McGowan
4
Saya sadar ini dirancang sebagai tanya jawab, tetapi dengan pertanyaan seperti "Apa kartun statistik favorit Anda?" sedang dinilai tinggi, saya pikir ini tidak akan sangat tidak pantas. Khususnya secara pedagogis, jika seseorang mencoba belajar tentang analisis data dan teknik eksplorasi, mungkin berguna untuk mendapatkan umpan balik tentang kumpulan data publik yang menawarkan struktur kaya dan memiliki banyak sejarah dan penelitian di belakangnya.
DA
4
Saya cenderung membiarkan masyarakat memutuskan apakah ini harus ditutup (tidak konstruktif) atau tidak, meskipun saya akan menambahkan bahwa jawaban yang menyeluruh dan argumentatif mungkin berfungsi sebagai dukungan untuk pertanyaan di masa depan pada aspek-aspek tertentu dari analisis data. Saya mengonversikan ini ke CW sementara itu karena, jelas, tidak ada jawaban terbaik.
chl
2
Pertanyaan ini dan jawaban mereka sangat berguna bagi saya. Tolong jangan hapus.
dsign

Jawaban:

12

Studi berat badan lahir rendah

Ini adalah salah satu dataset dalam buku teks Hosmer dan Lemeshow tentang Regresi Logistik Terapan (2000, Wiley, edisi kedua). Tujuan dari penelitian prospektif ini adalah untuk mengidentifikasi faktor-faktor risiko yang terkait dengan melahirkan bayi berat lahir rendah (berat kurang dari 2.500 gram). Data dikumpulkan pada 189 wanita, 59 di antaranya memiliki bayi berat lahir rendah dan 130 di antaranya memiliki bayi berat lahir normal. Empat variabel yang dianggap penting adalah usia, berat subjek pada periode menstruasi terakhir, ras, dan jumlah kunjungan dokter selama trimester pertama kehamilan.

Ini tersedia dalam R as data(birthwt, package="MASS")atau di Stata dengan webuse lbw. Versi teks muncul di sini: lowbwt.dat ( deskripsi ). Sebagai catatan, ada beberapa versi dataset ini karena diperluas ke studi kasus-kontrol (1-1 atau 1-3, sesuai usia), seperti yang diilustrasikan oleh Hosmer dan Lemeshow dalam ALR bab 7.

Saya biasa mengajar kursus pengantar berdasarkan dataset ini karena alasan berikut:

  • Ini menarik dari perspektif historis dan epidemiologis (data dikumpulkan pada tahun 1986); tidak diperlukan latar belakang kedokteran atau statistik untuk memahami gagasan utama dan pertanyaan apa yang dapat diajukan dari penelitian itu.
  • χ2
  • Hal ini memungkinkan untuk membahas perspektif pemodelan yang berbeda (pendekatan penjelas atau prediksi), dan implikasi dari skema pengambilan sampel ketika mengembangkan model (stratifikasi / kasus yang cocok).

Poin lain yang dapat ditekankan, tergantung pada audiens dan tingkat keahlian dengan perangkat lunak statistik, atau statistik secara umum.

  1. Adapun dataset yang tersedia di R, prediktor kategoris dinilai sebagai bilangan bulat (misalnya, untuk etnis ibu kita memiliki '1' = putih, '2' = hitam, '3' = lainnya), walaupun fakta bahwa pemesanan alami untuk beberapa prediktor (misalnya, jumlah pekerja prematur sebelumnya atau jumlah kunjungan dokter) atau penggunaan label eksplisit (itu selalu merupakan ide yang baik untuk menggunakan 'ya' / 'tidak' daripada 1/0 untuk variabel biner, bahkan jika itu tidak ' t mengubah apa pun dalam matriks desain!) benar-benar tidak ada. Dengan demikian, mudah untuk membahas masalah apa yang mungkin muncul dengan mengabaikan tingkat atau unit pengukuran dalam analisis data.

  2. Variabel tipe campuran menarik ketika melakukan analisis eksplorasi dan mendiskusikan jenis tampilan grafis yang sesuai untuk meringkas hubungan univariat, bivariat, atau trivariat. Demikian juga, menghasilkan tabel ringkasan yang bagus, dan pelaporan yang lebih umum, adalah aspek lain yang menarik dari dataset ini (tetapi Hmisc::summary.formulaperintah membuatnya sangat mudah di bawah R).

  3. Hosmer dan Lemeshow melaporkan bahwa data aktual telah dimodifikasi untuk melindungi kerahasiaan subjek (hlm. 25). Mungkin menarik untuk membahas masalah kerahasiaan data, seperti yang dilakukan di salah satu Journal Club kami sebelumnya , tetapi lihat transkripnya . (Harus kuakui aku tidak pernah membahas banyak hal dengan itu.)

  4. Sangat mudah untuk memperkenalkan beberapa nilai yang hilang atau nilai yang salah (yang merupakan masalah umum dalam kehidupan nyata seorang ahli statistik), yang mengarah untuk membahas (a) deteksi mereka melalui codebook ( Hmisc::describeatau Stata's codebook) atau grafik eksplorasi (selalu plot data Anda terlebih dahulu!) , dan (b) kemungkinan perbaikan (imputasi data, penghapusan listwise atau ukuran hubungan berpasangan, dll.).

chl
sumber
+1 Terima kasih telah memberikan jawaban teladan yang menunjukkan utas ini dapat bermanfaat dan memberikan standar paparan yang dapat dituju oleh balasan lain.
whuber
Ini fantastis dan persis apa yang saya cari dengan mengajukan pertanyaan. Saya berterima kasih atas pengertian Anda yang berharga.
DA
5

Tentu saja, dataset Anscombe 4 sangat baik untuk pengajaran - mereka terlihat sangat berbeda, namun memiliki sifat statistik sederhana yang identik.

Saya juga menyarankan dataset KDD Cup http://www.kdd.org/kddcup/ karena mereka telah dipelajari dengan baik dan ada banyak solusi, sehingga siswa dapat membandingkan hasil mereka dan melihat bagaimana peringkat mereka.

Dalam kursus penambangan data, saya memberikan kompetisi dataset Microarray yang dapat digunakan oleh profesor http://www.kdnuggets.com/data_mining_course/

Gregory Piatetsky
sumber
Untuk kumpulan data lain yang telah dirancang untuk tujuan pedagogis dengan cara yang mirip dengan Kuartet Anscombe, lihat pertanyaan ini .
Silverfish
3

Banyak kursus Analisis Statistik saya di Cal Poly telah menggunakan dataset "Iris" yang sudah ada di R. Ini memiliki variabel kategori, dan variabel yang sangat berkorelasi.

Kurtis Voris
sumber
Maukah Anda memperluas poin terakhir Anda: Bagaimana dataset ini membantu mengajar statistik? (AFAICT, set data iris hanya memiliki satu variabel kategori, yaitu kelas iris.)
chl
Berikut adalah utas yang sepenuhnya terkait dengan penggunaan dataset Iris dalam pengajaran .
Silverfish
3

Dataset Titanic digunakan oleh Harrell dalam "Strategi Pemodelan Regresi". Saya menggunakan versi sederhana analisisnya ketika menjelaskan regresi logistik, menjelaskan kelangsungan hidup menggunakan jenis kelamin, kelas, dan usia.

The Loyn dataset dibahas dalam "Desain Eksperimental dan Analisis Data untuk biologi" oleh Gerry Quinn dan Mick Keough mengandung masalah yang bagus yang memerlukan transformasi untuk regresi linier berganda.

Luis Apiolaza
sumber