Saya mendengar berkali-kali tentang kutukan dimensi, tetapi entah bagaimana saya masih tidak dapat memahami gagasan itu, semuanya berkabut.
Adakah yang bisa menjelaskan hal ini dengan cara yang paling intuitif, seperti yang Anda jelaskan kepada seorang anak, sehingga saya (dan yang lain bingung seperti saya) dapat memahami hal ini untuk selamanya?
SUNTING:
Sekarang, katakanlah anak itu entah bagaimana mendengar tentang pengelompokan (misalnya, mereka tahu cara mengelompokkan mainan mereka :)). Bagaimana peningkatan dimensi akan membuat pekerjaan mengelompokkan mainan mereka lebih sulit?
Misalnya, mereka dulu hanya mempertimbangkan bentuk mainan dan warna mainan (mainan satu warna), tetapi sekarang perlu mempertimbangkan ukuran dan berat mainan juga. Mengapa anak lebih sulit menemukan mainan yang serupa?
EDIT 2
Demi diskusi, saya perlu mengklarifikasi bahwa dengan - "Mengapa anak lebih sulit menemukan mainan yang serupa" - Maksud saya juga mengapa gagasan jarak hilang dalam ruang dimensi tinggi?
Jawaban:
Mungkin anak itu akan suka makan kue, jadi mari kita asumsikan bahwa Anda memiliki seluruh truk dengan kue yang memiliki warna berbeda, bentuk berbeda, rasa berbeda, harga berbeda ...
Jika anak harus memilih tetapi hanya mempertimbangkan satu karakteristik, misalnya rasa, maka ia memiliki empat kemungkinan: manis, garam, asam, pahit, sehingga anak hanya perlu mencoba empat kue untuk menemukan apa yang paling disukainya.
Jika anak itu suka kombinasi rasa dan warna, dan ada 4 (saya agak optimis di sini :-)) warna yang berbeda, maka dia sudah harus memilih antara 4x4 jenis yang berbeda;
Jika dia ingin, di samping itu, untuk mempertimbangkan bentuk cookie dan ada 5 bentuk yang berbeda maka dia harus mencoba 4x4x5 = 80 cookie
Kita bisa terus, tetapi setelah makan semua kue ini dia mungkin sudah sakit perut ... sebelum dia bisa membuat pilihan terbaik :-) Selain dari sakit perut, itu bisa sangat sulit untuk mengingat perbedaan dalam rasa dari setiap cookie.
Seperti yang Anda lihat (@Almo) kebanyakan (semua?) Hal-hal menjadi lebih rumit karena jumlah dimensi meningkat, ini berlaku untuk orang dewasa, untuk komputer dan juga untuk anak-anak.
sumber
Analogi yang saya suka gunakan untuk kutukan dimensionalitas sedikit lebih pada sisi geometris, tapi saya harap itu masih cukup berguna untuk anak Anda.
Sangat mudah untuk berburu anjing dan mungkin menangkapnya jika berlarian di dataran (dua dimensi). Jauh lebih sulit untuk berburu burung, yang sekarang memiliki dimensi ekstra tempat mereka dapat bergerak. Jika kita berpura-pura bahwa hantu adalah makhluk berdimensi lebih tinggi (mirip dengan Sphere yang berinteraksi dengan A. Square di Flatland ), mereka bahkan lebih sulit ditangkap. :)
sumber
Ok, jadi mari kita menganalisis contoh anak mengelompokkan mainannya.
Bayangkan anak hanya memiliki 3 mainan:
Mari kita lakukan hipotesis awal berikut mengenai bagaimana mainan dapat dibuat:
Sekarang kita dapat memiliki (num_colors * num_shapes) = 3 * 3 = 9 kemungkinan cluster.
Bocah itu akan mengelompokkan mainan sebagai berikut:
Hanya menggunakan 2 dimensi ini (warna, bentuk) kami memiliki 2 cluster yang tidak kosong: jadi dalam kasus pertama ini 7/9 ~ 77% dari ruang kami kosong.
Sekarang mari kita tambahkan jumlah dimensi yang harus dipertimbangkan anak. Kami juga melakukan hipotesis berikut mengenai bagaimana mainan dapat dibuat:
Jika kami ingin mengelompokkan mainan SEKARANG, kami memiliki (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 kemungkinan cluster.
Bocah itu akan mengelompokkan mainan sebagai berikut:
Menggunakan 4 dimensi saat ini (bentuk, warna, ukuran, bobot) hanya 3 cluster yang tidak kosong: jadi dalam hal ini 897/900 ~ 99,7% dari ruang kosong.
Ini adalah contoh dari apa yang Anda temukan di Wikipedia ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... ketika dimensionality meningkat, volume ruang meningkat begitu cepat sehingga data yang tersedia menjadi jarang.
Sunting: Saya tidak yakin saya bisa benar-benar menjelaskan kepada seorang anak mengapa jarak kadang-kadang salah dalam ruang dimensi tinggi, tetapi mari kita coba melanjutkan dengan contoh anak dan mainannya.
Pertimbangkan hanya 2 fitur pertama {warna, bentuk} yang semua orang setuju bahwa bola biru lebih mirip dengan freesbe biru daripada dengan kubus hijau.
Sekarang mari kita tambahkan 98 fitur lainnya {katakan: ukuran, berat, day_of_production_of_the_toy, material, kelembutan, day_in_which_the_toy_was_bought_by_daddy, price etc}: well, bagi saya akan semakin sulit untuk menilai mainan mana yang mirip.
Begitu:
Jika Anda mendengarkan saya, kuliah yang baik adalah "Beberapa Hal Berguna untuk Diketahui tentang Pembelajaran Mesin" ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), paragraf 6 khususnya menyajikan ini semacam alasan.
Semoga ini membantu!
sumber
Saya telah menemukan tautan berikut yang memberikan penjelasan yang sangat intuitif (dan terperinci) tentang kutukan dimensi: http://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/
Dalam beberapa kata artikel ini diturunkan (secara intuitif) bahwa menambahkan lebih banyak fitur (yaitu meningkatkan dimensi ruang fitur kami) mengharuskan untuk mengumpulkan lebih banyak data. Faktanya jumlah data yang perlu kita kumpulkan (untuk menghindari overfitting) tumbuh secara eksponensial saat kita menambahkan lebih banyak dimensi.
Ini juga memiliki ilustrasi yang bagus seperti yang berikut:
sumber
Kutukan dimensi agak kabur dalam definisi karena menggambarkan hal-hal yang berbeda tetapi terkait dalam berbagai disiplin ilmu. Berikut ini menggambarkan kutukan dimensi pembelajaran mesin:
Misalkan seorang gadis memiliki sepuluh mainan, yang hanya disukainya yang dicetak miring:
Sekarang, ayahnya ingin memberinya mainan baru sebagai hadiah untuk ulang tahunnya dan ingin memastikan bahwa dia menyukainya. Dia berpikir sangat keras tentang kesamaan mainan yang dia sukai dan akhirnya menemukan solusi. Dia memberi putrinya teka-teki warna-warni. Ketika dia tidak suka, dia menjawab: "Mengapa kamu tidak menyukainya? Itu memang mengandung huruf w. ”
Sang ayah telah menjadi korban kutukan dimensi (dan optimasi dalam sampel). Dengan mempertimbangkan huruf-huruf, ia bergerak dalam ruang 26-dimensi dan karenanya sangat mungkin ia akan menemukan beberapa kriteria yang memisahkan mainan yang disukai oleh sang putri. Ini tidak perlu menjadi kriteria satu huruf seperti dalam contoh, tetapi bisa juga menjadi sesuatu seperti
Untuk mengetahui apakah surat-surat merupakan kriteria yang baik untuk menentukan mainan mana yang disukai putrinya, ayah harus mengetahui preferensi putrinya pada sejumlah besar mainan¹ - atau hanya menggunakan otaknya dan hanya mempertimbangkan parameter yang benar-benar dapat memengaruhi mainan anak perempuan itu. pendapat.
¹ urutan besarnya: , jika semua huruf memiliki kemungkinan yang sama dan dia tidak akan memperhitungkan banyak kemunculan huruf.226
sumber
Volume hyper cube adalah 1, tentu saja, bila diukur dalam unit. Namun, volume bola hiper menyusut dengan n tumbuh.1n
Jika ada sesuatu yang menarik di dalam bola hiper, akan semakin sulit untuk melihatnya dalam dimensi yang lebih tinggi. Dalam kasus -dimensional, hyper sphere menghilang! Itu kutukannya.∞
UPDATE: Tampaknya beberapa orang tidak mendapatkan koneksi ke statistik. Anda dapat melihat hubungannya jika Anda membayangkan memilih titik acak di dalam kubus hiper. Dalam kasus dua dimensi probabilitas bahwa titik ini berada di dalam lingkaran (hiper sphere) adalah , dalam kasus tiga dimensi itu dll. Dalam kasus -dimensional probabilitasnya adalah nol.π / 6 ∞π/4 π/6 ∞
sumber
Saya: "Saya sedang memikirkan seekor binatang coklat kecil yang dimulai dengan 'S'. Apa itu?"
Her: "Tupai!"
Aku: "Oke, yang lebih keras. Aku sedang memikirkan seekor binatang kecil berwarna coklat. Ada apa?"
Dia: "Masih tupai?"
Saya: "Tidak"
Dia: "Tikus, tikus, tikus?
Saya: "Tidak"
Her: "Umm ... beri aku petunjuk"
Saya: "Tidak, tapi saya akan melakukan sesuatu yang lebih baik: Saya akan membiarkan Anda menjawab pertanyaan CrossValidated"
Her: [erangan]
Saya: "Pertanyaannya adalah: Apa kutukan dimensi itu? Dan Anda sudah tahu jawabannya"
Dia: "Saya lakukan?"
Saya: "Ya. Mengapa lebih sulit untuk menebak hewan pertama daripada yang kedua?"
Dia: "Karena ada lebih banyak binatang coklat kecil daripada binatang coklat kecil yang dimulai dengan 'S'?"
Aku: "Benar. Dan itu kutukan dimensi. Mari kita mainkan lagi."
Her: "OK"
Saya: "Saya sedang memikirkan sesuatu. Apa itu?"
Her: "Tidak adil. Game ini sangat sulit."
Saya: "Benar. Itu sebabnya mereka menyebutnya kutukan. Anda tidak bisa melakukannya dengan baik tanpa mengetahui hal-hal yang cenderung saya pikirkan."
sumber
Misalkan Anda ingin mengirimkan barang. Anda ingin menyia-nyiakan ruang sesedikit mungkin saat mengemas barang (mis. Tinggalkan ruang sesedikit mungkin), karena biaya pengiriman terkait dengan volume amplop / kotak. Wadah yang Anda inginkan (amplop, kotak) memiliki sudut siku-siku, jadi tidak ada karung dll.
Masalah pertama: kirimkan pena ("garis") - Anda dapat membuat kotak di sekitarnya tanpa kehilangan ruang.
Masalah kedua: kirimkan CD ("bola"). Anda harus memasukkannya ke dalam amplop persegi. Bergantung berapa usia anak itu, ia mungkin dapat menghitung berapa banyak amplop akan tetap kosong (dan masih tahu bahwa ada CD dan bukan hanya unduhan ;-)).
Masalah ketiga: kirimkan sepak bola (sepak bola, dan itu harus dipompa!). Anda harus memasukkannya ke dalam kotak, dan beberapa ruang akan tetap kosong. Ruang kosong itu akan menjadi fraksi yang lebih tinggi dari total volume daripada dalam contoh CD.
Pada saat itu, intuisi saya menggunakan analogi ini berhenti, karena saya tidak dapat membayangkan dimensi ke-4.
EDIT: Analogi ini paling berguna (jika sama sekali) untuk estimasi nonparametrik, yang menggunakan pengamatan "lokal" ke tempat tujuan untuk memperkirakan, katakanlah, kepadatan atau fungsi regresi pada titik itu. Kutukan dimensionalitas adalah bahwa dalam dimensi yang lebih tinggi, seseorang membutuhkan lingkungan yang jauh lebih besar untuk sejumlah pengamatan tertentu (yang membuat gagasan lokalitas dipertanyakan) atau sejumlah besar data.
sumber
6 tahun saya lebih pada ayat dari penelitian penyebab utama, seperti dalam "tapi dari mana semua gas di alam semesta ini berasal?" ... yah, saya akan membayangkan anak Anda memahami "dimensi yang lebih tinggi", yang tampaknya sangat tidak mungkin bagi saya.
Sekarang ambil kamarmu, ayah harus bekerja.
sumber
Ada masalah klasik, buku teks, matematika yang menunjukkan ini.
Apakah Anda lebih suka mendapatkan (opsi 1) 100 sen sehari, setiap hari selama sebulan, atau (opsi 2) satu kali lipat dua kali lipat setiap hari selama sebulan? Anda dapat menanyakan pertanyaan ini kepada anak Anda.
Jika Anda memilih opsi 1,
pada hari 1 Anda mendapatkan 100 sen pada hari 2 Anda mendapatkan 100 sen pada hari 3 Anda mendapatkan 100 sen ... pada hari 30 Anda mendapatkan 100 sen
jumlah total uang ditemukan dengan mengalikan jumlah hari dengan jumlah uang per hari:
Jika Anda memilih opsi 2:
pada hari 1 Anda mendapatkan 1 sen pada hari 2 Anda mendapatkan 2 sen pada hari 3 Anda mendapatkan 4 sen pada hari 4 Anda mendapatkan 8 sen pada hari 5 Anda mendapatkan 16 sen ... pada hari 30 Anda mendapatkan 1.073.741.824 uang receh
Siapa pun dengan keserakahan akan memilih jumlah yang lebih besar. Keserakahan sederhana mudah ditemukan, dan hanya membutuhkan sedikit pemikiran. Hewan-hewan yang tak mampu berbicara dengan mudah mampu tamak - serangga terkenal pandai melakukannya. Manusia mampu melakukan lebih dari itu.
Jika Anda memulai dengan satu sen, bukannya seratus, keserakahan lebih mudah, tetapi jika Anda mengubah kekuatan untuk polinomial, itu lebih kompleks. Kompleks juga bisa berarti jauh lebih berharga.
Tentang "kutukan"
Operasi matematika yang berhubungan dengan fisika "yang paling penting" adalah pembalikan matriks. Ini mendorong solusi sistem persamaan diferensial parsial, yang paling umum adalah persamaan Maxwell (elektromagnetik), persamaan Navier Stokes (cairan), persamaan Poisson (transfer difusif), dan variasi pada Hukum Hookes (benda padat yang dapat dideformasi). Masing-masing persamaan memiliki mata kuliah yang dibangun di sekitar mereka.
Kutukan itu ada karena jika diatasi ada pot nilai emas di ujung pelangi. Itu tidak mudah - orang-orang hebat telah menggunakan masalahnya dengan giat.
tautan:
sumber
Fcop menawarkan analogi yang bagus dengan cookie tetapi hanya mencakup aspek kepadatan sampel dari kutukan dimensi. Kita dapat memperluas analogi ini dengan volume sampel atau jarak dengan mendistribusikan jumlah cookie Fcop yang sama di, katakanlah, sepuluh kotak dalam satu baris, 10x10 kotak datar di atas meja dan 10x10x10 dalam tumpukan. Kemudian Anda dapat menunjukkan bahwa untuk memakan porsi kue yang sama, anak harus membuka lebih banyak lagi kotak.
Ini benar-benar tentang harapan tetapi mari kita mengambil pendekatan "skenario terburuk" untuk menggambarkan.
Jika ada 8 kue dan kami ingin makan setengahnya yaitu 4, dari 10 kotak dalam kasus terburuk kami hanya perlu membuka 6 kotak. Itu 60% - hanya sekitar setengahnya juga. Dari 10x10 (sekali lagi dalam kasus terburuk) - 96 (%). Dan dari 10x10x10 - 996 (99,6%). Itu hampir semuanya!
Mungkin analogi ruang penyimpanan dan jarak berjalan di antara kamar akan lebih baik daripada kotak di sini.
sumber