The "Iris" dataset mungkin akrab bagi kebanyakan orang di sini - itu salah satu set data uji kanonik dan masuk ke contoh dataset untuk segalanya dari visualisasi data ke mesin belajar. Sebagai contoh, semua orang dalam pertanyaan ini akhirnya menggunakannya untuk diskusi tentang sebar yang dipisahkan oleh perlakuan.
Apa yang membuat set data Iris sangat berguna? Hanya saja itu ada di sana dulu? Jika seseorang mencoba membuat contoh / pengujian data yang berguna, pelajaran apa yang bisa mereka ambil darinya?
Jawaban:
The Iris dataset sepatutnya secara luas digunakan di seluruh ilmu statistik, terutama untuk menggambarkan berbagai masalah dalam grafis statistik, statistik multivariat dan mesin belajar.
Mengandung 150 pengamatan, itu kecil tapi tidak sepele.
Tugas yang ditimbulkannya untuk membedakan antara tiga spesies Iris dari pengukuran kelopak dan sepal mereka adalah sederhana namun menantang.
Data adalah data nyata, tetapi tampaknya berkualitas baik. Pada prinsipnya dan dalam praktiknya, kumpulan data uji bisa jadi sintetik dan yang mungkin perlu atau bermanfaat untuk menyampaikan maksud. Namun demikian, beberapa orang menolak data nyata.
Data tersebut digunakan oleh ahli statistik Inggris terkenal Ronald Fisher pada tahun 1936. (Belakangan ia gelar bangsawan dan menjadi Sir Ronald.) Setidaknya beberapa guru menyukai gagasan dataset dengan tautan ke seseorang yang begitu terkenal di bidangnya. Data awalnya diterbitkan oleh ahli botani yang berpikiran statistik Edgar S. Anderson, tetapi asal usul sebelumnya tidak mengurangi asosiasi.
Menggunakan beberapa dataset terkenal adalah salah satu tradisi yang kami berikan, seperti memberi tahu setiap generasi baru bahwa Siswa bekerja untuk Guinness atau bahwa banyak ahli statistik terkenal berselisih satu sama lain. Itu mungkin terdengar seperti inersia, tetapi dalam membandingkan metode lama dan baru, dan dalam mengevaluasi metode apa pun, sering dianggap bermanfaat untuk mencobanya pada kumpulan data yang diketahui, sehingga mempertahankan beberapa kesinambungan dalam cara kami menilai metode.
Terakhir, namun tidak kalah pentingnya, dataset Iris dapat dengan senang hati digabungkan dengan gambar-gambar bunga yang bersangkutan, seperti dari misalnya entri Wikipedia yang berguna pada dataset .
Catatan. Lakukan sedikit demi kebenaran biologis dalam mengutip tanaman yang bersangkutan dengan hati-hati. Iris setosa , Iris versicolor dan Iris virginica adalah tiga spesies (bukan varietas, seperti dalam beberapa statistik); binominals mereka harus disajikan dalam huruf miring, seperti di sini; dan Iris sebagai nama genus dan nama lain yang menunjukkan spesies tertentu harus dimulai dengan huruf besar dan kecil.
sumber
Dataset besar dan cukup menarik untuk menjadi non-sepele, tetapi cukup kecil untuk "pas di saku Anda", dan tidak memperlambat eksperimen dengannya.
Saya pikir aspek kuncinya adalah itu juga mengajarkan tentang over-fitting. Tidak ada cukup kolom untuk memberikan skor sempurna: kita melihat ini segera ketika kita melihat scatterplots, dan mereka tumpang tindih dan bertemu satu sama lain. Jadi setiap pendekatan pembelajaran mesin yang mendapat skor sempurna bisa dianggap mencurigakan.
sumber