Aspek apa dari kumpulan data “Iris” yang membuatnya sangat sukses sebagai contoh / kumpulan data pengajaran / tes

28

The "Iris" dataset mungkin akrab bagi kebanyakan orang di sini - itu salah satu set data uji kanonik dan masuk ke contoh dataset untuk segalanya dari visualisasi data ke mesin belajar. Sebagai contoh, semua orang dalam pertanyaan ini akhirnya menggunakannya untuk diskusi tentang sebar yang dipisahkan oleh perlakuan.

Apa yang membuat set data Iris sangat berguna? Hanya saja itu ada di sana dulu? Jika seseorang mencoba membuat contoh / pengujian data yang berguna, pelajaran apa yang bisa mereka ambil darinya?

Fomite
sumber
13
Kecil tapi tidak sepele. Sederhana tapi menantang. Data nyata. Reputasi Fisher, meskipun itu bukan datanya. Tradisi. Kelembaman. Kontinuitas. Anda dapat menemukan gambar bunga untuk mengejanya.
Nick Cox
Dan sekarang ini berjalan seperti jarum jam.
Michael M
Saya akan mengatakan @NickCox tepat sasaran.
Marc Claesen
@NickCox Ingin memperluas sedikit itu sebagai jawaban?
Fomite
6
Dataset 'iris' dapat digunakan untuk analisis diskriminan, serta klasifikasi tanpa pengawasan (pengelompokan berbasis model atau bebas model) untuk tujuan ilustrasi. Pertanyaan ini layak mendapatkan referensi silang ke Apa dataset yang baik untuk menggambarkan aspek-aspek tertentu dari analisis statistik?
chl

Jawaban:

40

The Iris dataset sepatutnya secara luas digunakan di seluruh ilmu statistik, terutama untuk menggambarkan berbagai masalah dalam grafis statistik, statistik multivariat dan mesin belajar.

  • Mengandung 150 pengamatan, itu kecil tapi tidak sepele.

  • Tugas yang ditimbulkannya untuk membedakan antara tiga spesies Iris dari pengukuran kelopak dan sepal mereka adalah sederhana namun menantang.

  • Data adalah data nyata, tetapi tampaknya berkualitas baik. Pada prinsipnya dan dalam praktiknya, kumpulan data uji bisa jadi sintetik dan yang mungkin perlu atau bermanfaat untuk menyampaikan maksud. Namun demikian, beberapa orang menolak data nyata.

  • Data tersebut digunakan oleh ahli statistik Inggris terkenal Ronald Fisher pada tahun 1936. (Belakangan ia gelar bangsawan dan menjadi Sir Ronald.) Setidaknya beberapa guru menyukai gagasan dataset dengan tautan ke seseorang yang begitu terkenal di bidangnya. Data awalnya diterbitkan oleh ahli botani yang berpikiran statistik Edgar S. Anderson, tetapi asal usul sebelumnya tidak mengurangi asosiasi.

  • Menggunakan beberapa dataset terkenal adalah salah satu tradisi yang kami berikan, seperti memberi tahu setiap generasi baru bahwa Siswa bekerja untuk Guinness atau bahwa banyak ahli statistik terkenal berselisih satu sama lain. Itu mungkin terdengar seperti inersia, tetapi dalam membandingkan metode lama dan baru, dan dalam mengevaluasi metode apa pun, sering dianggap bermanfaat untuk mencobanya pada kumpulan data yang diketahui, sehingga mempertahankan beberapa kesinambungan dalam cara kami menilai metode.

  • Terakhir, namun tidak kalah pentingnya, dataset Iris dapat dengan senang hati digabungkan dengan gambar-gambar bunga yang bersangkutan, seperti dari misalnya entri Wikipedia yang berguna pada dataset .

Catatan. Lakukan sedikit demi kebenaran biologis dalam mengutip tanaman yang bersangkutan dengan hati-hati. Iris setosa , Iris versicolor dan Iris virginica adalah tiga spesies (bukan varietas, seperti dalam beberapa statistik); binominals mereka harus disajikan dalam huruf miring, seperti di sini; dan Iris sebagai nama genus dan nama lain yang menunjukkan spesies tertentu harus dimulai dengan huruf besar dan kecil.

Nick Cox
sumber
3
(+1) Terima kasih telah memperluas komentar Anda menjadi jawaban.
kardinal
5
Saya akan memberi +1 ekstra jika saya bisa untuk prinsip berprinsip pada kebenaran biologis.
Fomite
6

Dataset besar dan cukup menarik untuk menjadi non-sepele, tetapi cukup kecil untuk "pas di saku Anda", dan tidak memperlambat eksperimen dengannya.

Saya pikir aspek kuncinya adalah itu juga mengajarkan tentang over-fitting. Tidak ada cukup kolom untuk memberikan skor sempurna: kita melihat ini segera ketika kita melihat scatterplots, dan mereka tumpang tindih dan bertemu satu sama lain. Jadi setiap pendekatan pembelajaran mesin yang mendapat skor sempurna bisa dianggap mencurigakan.

Darren Cook
sumber