Mengapa model Machine Learning disebut kotak hitam?

40

Saya sedang membaca posting blog ini berjudul: Dunia Keuangan Ingin Membuka Kotak Hitam AI , di mana penulis berulang kali menyebut model ML sebagai "kotak hitam".

Terminologi serupa telah digunakan di beberapa tempat ketika merujuk pada model ML. Kenapa gitu?

Ini tidak seperti insinyur ML tidak tahu apa yang terjadi di dalam jaring saraf. Setiap lapisan dipilih oleh insinyur ML mengetahui fungsi aktivasi apa yang digunakan, apa jenis lapisan itu, bagaimana kesalahan kembali diperbanyak, dll.

Dawny33
sumber
4
Sesuatu yang sedikit halus: Insinyur ML tahu semua struktur - berapa banyak lapisan, fungsi aktivasi, dll. Apa yang mereka tidak tahu adalah bobotnya sendiri. Tetapi model ML sangat ditentukan oleh bobotnya sehingga evaluasi model dengan seperangkat bobot tertentu tidak dapat (saat ini) ditafsirkan, dijelaskan atau dipahami oleh manusia, bahkan manusia ahli yang sepenuhnya memahami struktur.
isaacg
Sedikit relevan: stats.stackexchange.com/a/297476/100456
Miguel
3
@isaacg - Seorang insinyur ML dapat dengan mudah mengetahui apa bobotnya. Kotak hitam lebih berkaitan dengan tidak mengetahui mengapa bobotnya seperti apa adanya dan apa bobot itu terkait di dunia nyata. Karena itu, ini bahkan lebih halus.
josh
Pertanyaan terkait lainnya: datasetcience.stackexchange.com/q/33524/53479
mapto

Jawaban:

51

The kotak hitam hal tidak ada hubungannya dengan tingkat keahlian dari penonton (selama penonton adalah manusia), tetapi dengan explainability fungsi yang dimodelkan oleh algoritma pembelajaran mesin.

Dalam regresi logistik, ada hubungan yang sangat sederhana antara input dan output. Anda kadang-kadang dapat memahami mengapa sampel tertentu tidak salah katalog (misalnya karena nilai komponen tertentu dari vektor input terlalu rendah).

Hal yang sama berlaku untuk pohon keputusan: Anda dapat mengikuti logika yang diterapkan oleh pohon dan memahami mengapa elemen tertentu ditugaskan ke satu kelas atau yang lain.

Namun, jaringan saraf yang dalam adalah contoh paradigma algoritma kotak hitam. Tidak seorang pun, bahkan orang yang paling ahli di dunia pun tidak memahami fungsi yang sebenarnya dimodelkan dengan melatih jaringan saraf. Wawasan tentang hal ini dapat diberikan oleh contoh-contoh permusuhan : beberapa perubahan kecil (dan tidak diperhatikan oleh manusia) dalam sampel pelatihan dapat membuat jaringan berpikir bahwa itu milik label yang sama sekali berbeda. Ada beberapa teknik untuk membuat contoh permusuhan, dan beberapa teknik untuk meningkatkan ketahanan terhadap mereka. Tetapi mengingat tidak ada yang benar-benar tahu semua sifat yang relevan dari fungsi yang dimodelkan oleh jaringan, selalu mungkin untuk menemukan cara baru untuk membuatnya.

Manusia juga kotak hitam dan kita juga masuk akal untuk contoh permusuhan .

ncasas
sumber
2
Logika pohon keputusan dapat diikuti secara teori , tetapi seringkali tidak praktis. Saya tidak melihat di mana perbedaan mendasar dengan NNs.
Miguel
BTW Saya telah menggunakan dan melihat kotak hitam bekas dalam hal kurangnya keahlian / minat dalam mempelajari bahkan dasar-dasar alat yang digunakan.
Miguel
4
"Tetapi mengingat bahwa tidak ada yang benar-benar tahu fungsi dimodelkan oleh jaringan". Itu salah / diungkapkan buruk. Jika kita tidak tahu persis fungsi mana yang dimodelkan, kita tidak bisa melatihnya atau menggunakannya untuk prediksi. Kita tahu persis fungsi mana yang dimodelkan. Kami tidak tahu (semua) properti yang relevan dengannya. Dan fungsinya rumit. Tapi itu pernyataan yang sangat berbeda.
Martin Thoma
1
@MartinThoma setuju dan diperbarui.
ncasas
1
(+1) Tapi nitpick. Regresi logistik tidak membuat penugasan kelas, itu hanya mencoba untuk memperkirakan probabilitas bersyarat. Ditto dengan pohon klasifikasi yang digunakan dengan benar. Tugas kelas dipaksakan oleh manusia yang perlu membuat keputusan, bukan oleh algoritma ML itu sendiri.
Matthew Drury
18

Sementara saya setuju pada jawaban ncasas di sebagian besar poin (+1), saya mohon berbeda pada beberapa:

  • Pohon Keputusan dapat digunakan sebagai model kotak hitam juga. Bahkan, saya katakan dalam banyak kasus mereka digunakan sebagai model kotak hitam. Jika Anda memiliki 10.000 fitur dan pohon kedalaman 50, Anda tidak bisa mengharapkan manusia untuk memahaminya.
  • Jaringan Saraf Tiruan dapat dipahami. Ada banyak teknik analisis (lihat bab 2.5 dari tesis master saya untuk beberapa yang ditujukan untuk meningkatkan model). Terutama analisis oklusi (Gambar 2.10), Visualisasi filter (Gambar 2.11). Juga Mengapa Saya Harus Memercayai Anda? kertas ( catatan saya ).

Menjelaskan prediksi model kotak hitam dengan analisis oklusi mewah (dari "Mengapa saya harus mempercayai Anda?"): masukkan deskripsi gambar di sini

Saya ingin menunjukkan The Mythos of Model Interpretability . Ini merumuskan beberapa ide tentang interpretabilitas dalam cara yang ringkas.

Pertanyaanmu

Mengapa model Machine Learning disebut kotak hitam?

Bagaimana orang menggunakannya : Karena mereka tidak memodelkan masalah dengan cara yang memungkinkan manusia untuk secara langsung mengatakan apa yang terjadi untuk setiap masukan yang diberikan.

Pikiran pribadi

Saya tidak berpikir gagasan "model kotak hitam" ini masuk akal. Misalnya, pikirkan ramalan cuaca. Anda tidak bisa mengharapkan manusia mengatakan cuaca mana yang akan diprediksi jika dia hanya diberi data. Namun kebanyakan orang tidak akan mengatakan bahwa model cuaca fisik adalah model kotak hitam. Jadi di mana perbedaannya? Apakah hanya fakta bahwa satu model dihasilkan menggunakan data dan yang lainnya dihasilkan dengan menggunakan wawasan fisika?

Ketika orang berbicara tentang model kotak hitam, mereka biasanya mengatakannya seolah itu adalah hal yang buruk. Tetapi manusia juga adalah model kotak hitam. Perbedaan kritis yang saya lihat di sini adalah bahwa kelas kesalahan yang dibuat manusia lebih mudah diprediksi untuk manusia. Karenanya ini adalah masalah pelatihan (contoh-contoh permusuhan di sisi NN) dan masalah pendidikan (mengajar manusia bagaimana NN bekerja).

Bagaimana istilah 'model kotak hitam' harus digunakan : Suatu pendekatan yang lebih masuk akal bagi saya adalah menyebut masalah itu sebagai "masalah kotak hitam", mirip dengan apa yang ditulis pengguna144410 (+1). Oleh karena itu setiap model yang hanya memperlakukan masalah sebagai kotak hitam - maka sesuatu yang dapat Anda masukkan input dan keluar output - adalah model kotak hitam. Model yang memiliki wawasan (tidak hanya berasumsi!) Tentang masalahnya bukan model kotak hitam. Bagian wawasannya rumit. Setiap model membuat batasan pada fungsi yang mungkin dapat dimodelkan (ya, saya tahu tentang masalah perkiraan universal. Selama Anda menggunakan NN ukuran tetap, itu tidak berlaku). Saya akan mengatakan sesuatu adalah wawasan masalah jika Anda tahu sesuatu tentang hubungan input dan output tanpa menyodok masalah (tanpa melihat data).

Apa yang mengikuti dari ini:

  • Neural Networks dapat berupa non-kotak hitam (papan tulis?)
  • Regresi Logistik dapat menjadi model kotak hitam.
  • Ini lebih tentang masalah dan wawasan Anda tentang itu, lebih sedikit tentang model.
Martin Thoma
sumber
1
Terima kasih. Jawaban Anda selalu menyenangkan untuk dibaca :)
Dawny33
1
Sama-sama :-) Dan terima kasih atas kata-kata bagusnya :-) Mohon jawab pertanyaan saya dengan sebutir garam. Saya juga tidak terlalu yakin tentang itu. Saya tidak berpikir ada jawaban yang pasti karena orang menggunakan kata itu tanpa memiliki definisi untuk itu. Jadi di satu sisi penggunaan di antara orang-orang cenderung berbeda dan di sisi lain bahkan satu orang mungkin tidak menggunakannya dengan cara yang sama.
Martin Thoma
7

Itu datang ke model interpretabilitas dan penjelasan. Mengingat output dari model yang lebih sederhana, adalah mungkin untuk mengidentifikasi dengan tepat bagaimana setiap input berkontribusi terhadap output model, tetapi itu menjadi lebih sulit karena model menjadi lebih kompleks. Misalnya dengan regresi, Anda dapat menunjuk ke koefisien, dengan pohon keputusan Anda dapat mengidentifikasi pemisahan. Dan dengan informasi ini, Anda dapat memperoleh aturan untuk menjelaskan perilaku model.

Namun, ketika jumlah parameter model meningkat, menjadi semakin sulit untuk menjelaskan kombinasi input apa yang mengarah pada output model akhir, atau menurunkan aturan dari perilaku model. Katakan dalam industri keuangan ketika COO datang dan bertanya 'jadi, mengapa perdagangan frekuensi tinggi Anda menghancurkan ekonomi', dia tidak ingin mendengar bagaimana itu dibangun, hanya mengapa itu membuatnya bangkrut. Dimungkinkan untuk menyatakan bagaimana model dibangun, tetapi mungkin tidak mungkin untuk menjelaskan kombinasi faktor apa yang diterima model sebagai input yang mengarah pada output, dan itulah mengapa orang berbicara tentang kotak hitam.

redhqs
sumber
5

Model kotak hitam mengacu pada model matematika apa saja yang persamaannya dipilih untuk bersifat umum dan sefleksibel mungkin tanpa bergantung pada hukum fisika / ilmiah.

Model kotak abu-abu adalah model matematika di mana bagian persamaan (fungsi matematika) berasal dari hukum yang diketahui secara fisik tetapi bagian sisanya diasumsikan fungsi umum untuk mengkompensasi bagian yang tidak dapat dijelaskan.

Model kotak putih adalah model matematika yang sepenuhnya dibangun di atas hukum fisik dan pemahaman sistem, seperti misalnya hukum gerak mekanis (model pesawat terbang, dll.)

Lihat: https://en.wikipedia.org/wiki/Mathematical_model#A_priori_information

pengguna144410
sumber
Definisi yang menarik! Mari kita telusuri beberapa contoh: Regresi logistik, SVM, NNs, decion tree semuanya adalah model kotak hitam. Tergantung pada konteksnya, model bayesian dapat berada di ketiga kategori. Model cuaca adalah model kotak putih atau kotak abu-abu.
Martin Thoma
Saya harus tidak setuju dengan jawaban ini. Anda menggambar perbedaan antara model empiris dan model berdasarkan teori fisik. Namun, salah satu jenis model dapat kotak putih atau hitam tergantung pada bagaimana itu dikemas.
Brian Borchers
Istilah kotak hitam mengacu pada sistem 'benar' yang mendasarinya dan terkait dengan masalah pemilihan struktur model.
user144410
"Istilah modern" kotak hitam "tampaknya telah memasuki bahasa Inggris sekitar tahun 1945. Dalam teori sirkuit elektronik, proses sintesis jaringan dari fungsi transfer, yang menyebabkan sirkuit elektronik dianggap sebagai" kotak hitam "yang ditandai dengan respons mereka terhadap sinyal yang diterapkan ke porta mereka, dapat ditelusuri ke Wilhelm Cauer yang menerbitkan ide-idenya dalam bentuk yang paling berkembang pada tahun 1941 ... "Sumber: en.wikipedia.org/wiki/Black_box#History
user144410
4

Kotak hitam, seperti yang Anda ketahui, merujuk ke fungsi di mana Anda mengetahui tanda tangan input dan output, tetapi tidak bisa tahu bagaimana hal itu menentukan output dari input.

Penggunaan istilah ini tidak benar dalam hal ini. Mungkin di luar kemauan atau kapasitas penulis / penulis untuk mengetahui dan memahami model ML, tetapi itu tidak berarti itu di luar kemauan atau kapasitas orang lain. Para insinyur yang membuat setiap model ML tahu persis cara kerjanya dan dapat menarik pohon keputusan sesuka hati dan berjalan. Hanya karena seseorang mungkin terlalu malas atau butuh waktu untuk melakukannya bukan berarti informasi tersebut tidak tersedia untuk dikonsumsi.

Model ML bukan kotak hitam, mereka kotak bening yang benar-benar besar.


sumber
3

Insinyur ML tidak tahu apa yang terjadi di dalam jaring saraf

Maaf bertentangan dengan Anda, tetapi itu benar. Mereka tahu bagaimana jaringan saraf belajar, tetapi mereka tidak tahu apa yang telah dipelajari jaringan saraf mana pun. Logika yang dipelajari oleh jaringan saraf terkenal sulit dipahami.

Inti dari menggunakan pembelajaran mesin biasanya untuk mempelajari aturan-aturan yang tidak akan dipikirkan oleh programmer atau pakar domain. Ini secara inheren sulit untuk dipecahkan.

Ini analog dengan program komputer konvensional yang ditulis dengan satu nama variabel huruf, tidak ada komentar, tidak ada struktur yang jelas, menggunakan matematika yang tidak jelas, dan semua oleh seseorang yang sekarang sudah mati. Anda dapat melangkah melaluinya dalam debugger, tetapi masih jauh dari jelas cara kerjanya.

Jarang, seseorang memang mengambil kesulitan untuk mencari tahu apa yang dilakukan jaringan saraf. Sebagai contoh, algoritma min-konflik ditemukan dengan menganalisis jaringan saraf yang dilatih pada masalah N-queens . Tapi itu banyak pekerjaan.

James Hollis
sumber
Hal yang sama dapat dikatakan pada beberapa metode linier, misalnya PCA, hanya rumus di DL yang lebih rumit.
Miguel
3

Dalam posting blog yang dikutip dalam pertanyaan, diskusi adalah tentang fakta bahwa para ahli yang mengembangkan model pembelajaran mesin di bidang keuangan tidak dapat menjelaskan kepada pelanggan mereka (pemodal tanpa pelatihan dalam pembelajaran mesin) bagaimana model membuat keputusan yang dilakukannya .

Ini memunculkan perbedaan antara model yang kotak hitam karena informasi yang benar-benar rahasia (misalnya koefisien dikodekan dalam tamper proof FPGA) dan model yang terbuka (dalam arti bahwa koefisien diketahui) tetapi tidak dapat dipahami oleh suatu khalayak tertentu .

Jenis "kotak hitam" yang terakhir ini bermasalah karena pelanggan ingin meyakinkan diri sendiri bahwa model yang Anda buat telah "menghadapi validitas." Dengan jenis model lain seperti Regresi Logistik, relatif mudah untuk melihat koefisien dan memeriksa bahwa mereka memiliki tanda-tanda plus atau minus yang diharapkan - bahkan MBA yang buta huruf secara matematis dapat memahaminya.

Brian Borchers
sumber
2

Machine Learning dapat dengan tepat dianggap sebagai Black box, solusi untuk masalah XOR menggunakan jaringan saraf dapat dimodelkan tetapi ketika jumlah input tumbuh, demikian juga kompleksitas dan dimensi. Jika terlalu kompleks untuk dipahami dan dijelaskan, maka itu adalah kotak hitam, apakah kita dapat menghitung hasilnya atau tidak

Kami hanya dapat melihatnya hingga 3 dimensi tetapi ini cukup karena kami dapat memperkirakan ini hingga dimensi yang lebih tinggi menggunakan model 3d sebagai titik referensi. Kita bisa membayangkan minimum lokal, serta bagian dari dataset yang dipelajari sebagian.

Saya telah mempermainkan ide untuk sementara waktu dan karena itu saya menghasilkan animasi jaringan saraf di tempat kerja dan meningkatkan pemahaman saya tentang jaringan saraf. Saya telah menghasilkan animasi dengan 1 dan 2 lapisan tersembunyi (ke-3 sebagian besar dilakukan) dan bagaimana mereka mempelajari data.

Animasi ini lambat dan animasi kanan atas yang menampilkan lapisan atas patut ditonton, Anda dapat mempercepat animasi di Youtube jika Anda suka, perubahan signifikan dapat dilihat pada animasi kanan atas dengan Blue and Red Mesh di 3:20 Oranye dan Red mesh pada 6 menit dan Blue, Orange dan Red mesh pada 8:20. Arah perubahan berat jelas di animasi kiri bawah

https://www.youtube.com/watch?v=UhQJbFDtcoc

Sierra Oscar
sumber
1

Saya pikir konsep kotak hitam yang digunakan dengan cara ini berasal dari pengujian kotak hitam dalam Jaminan Kualitas perangkat lunak dan perangkat keras. Itu adalah ketika Anda memilih untuk tidak / atau bahkan tidak bisa melihat ke dalam dan melihat bagian dalam dari apa yang Anda uji. Mungkin karena suatu alasan

  1. tidak praktis atau tidak mungkin untuk mengintip ke dalamnya (itu berada di lingkungan yang tertutup dan kita tidak bisa melihatnya) - Tapi mungkin juga

  2. karena ada kemungkinan lebih besar untuk menulis tes jelek jika seseorang dapat melihat bagian dalamnya. Risiko lebih besar (dengan atau tanpa niat) "tes menulis yang dirancang untuk lulus".

Menulis tes agar sesuai dengan hal yang sedang diuji, menurunkan kemungkinan benar-benar menemukan sesuatu.

Sangatlah mungkin bagi seorang insinyur sinyal yang terampil untuk mengintip ke bagian dalam jaringan saraf dan memeriksa fitur mana yang dipilih untuk dalam urutan pelatihan tertentu.

pembaca matematika
sumber
-1

Metode kotak hitam sulit untuk dijelaskan kepada "yang belum tahu." Siapa pun di bidang keuangan atau bidang lain dapat memahami dasar-dasar regresi atau bahkan pohon keputusan. Mulai berbicara tentang dukungan hyperplanes mesin vektor dan fungsi sigmoid jaringan saraf dan Anda akan kehilangan sebagian besar pemirsa

Darrin Thomas
sumber