Sudahkah Lovelace Test 2.0 berhasil digunakan dalam lingkungan akademik?

Pada Oktober 2014, Dr. Mark Riedl menerbitkan pendekatan untuk menguji kecerdasan AI, yang disebut "Lovelace Test 2.0" , setelah terinspirasi oleh Lovelace Test yang asli (diterbitkan pada 2001). Mark percaya bahwa Tes Lovelace asli tidak akan mungkin untuk lulus, dan karena itu, menyarankan versi yang lebih lemah, dan lebih praktis.

Lovelace Test 2.0 membuat asumsi bahwa untuk AI menjadi cerdas, ia harus menunjukkan kreativitas. Dari kertas itu sendiri:

Tes Lovelace 2.0 adalah sebagai berikut: agen buatan a ditantang sebagai berikut:

a harus membuat artefak dari tipe t;

o harus mematuhi seperangkat batasan C di mana ci ∈ C adalah kriteria apa pun yang dapat diungkapkan dalam bahasa alami;

seorang evaluator manusia h, setelah memilih t dan C, merasa puas bahwa o adalah turunan yang valid dari t dan memenuhi C; dan

wasit manusia menentukan kombinasi t dan C untuk tidak realistis bagi manusia rata-rata.

Karena mungkin bagi seorang evaluator manusia untuk datang dengan beberapa kendala yang cukup mudah untuk dikalahkan oleh AI, maka evaluator manusia kemudian diharapkan untuk terus menghasilkan kendala-kendala yang semakin rumit untuk AI sampai AI gagal. Maksud dari Lovelace Test 2.0 adalah untuk membandingkan kreativitas AI yang berbeda, bukan untuk memberikan garis pemisah yang pasti antara 'intelijen' dan 'non-kecerdasan' seperti yang akan dilakukan oleh Turing Test.

Namun, saya ingin tahu apakah tes ini benar-benar telah digunakan dalam lingkungan akademik, atau hanya dilihat sebagai eksperimen pikiran saat ini. Tes Lovelace tampaknya mudah diterapkan dalam pengaturan akademis (Anda hanya perlu mengembangkan beberapa kendala terukur yang dapat Anda gunakan untuk menguji agen buatan), tetapi juga mungkin terlalu subjektif (manusia dapat tidak setuju pada manfaat dari kendala tertentu, dan apakah artefak kreatif yang diproduksi oleh AI benar-benar memenuhi hasil akhir).

history intelligence-testing Kiri SE Pada 10_6_19
sumber

Tidak.

TL; DR: The Lovelace Test 2.0 sangat tidak jelas, membuatnya tidak cocok untuk evaluasi kecerdasan. Hal ini juga umumnya diabaikan oleh para peneliti Kreativitas Komputasi, yang sudah memiliki tes sendiri untuk mengevaluasi kreativitas.

Jawaban yang Lebih Panjang: Menurut Google Cendekia, ada 10 referensi ke makalah "Lovelace Test 2.0". Semua referensi itu ada hanya untuk menunjukkan bahwa Lovelace Test 2.0 ada. Faktanya, setidaknya dua artikel yang saya konsultasikan ( Sebuah pendekatan baru untuk mengidentifikasi perilaku sadar-manusia yang mirip manusia dan FraMoTEC: Kerangka Kerja untuk Pembangunan Lingkungan Modular untuk Mengevaluasi Sistem Kontrol Adaptif ) malah mengusulkan pengujian mereka sendiri .

Salah satu penulis yang menulis makalah FraMoTEC juga menulis tesisnya tentang FraMoTEC , dan secara tidak langsung mengkritik Lovelace Test 2.0 dan tes serupa lainnya yang serupa:

Masalah Piaget-MacGyver Room [Bringsjord dan Licato, 2012], Lovelace Test 2.0 [Riedl, 2014] dan masalah Toy Box [Johnston, 2010] semua datang dengan peringatan didefinisikan secara sangat samar - metode evaluasi ini mungkin akan datang dengan evaluasi yang masuk akal untuk intelijen, tetapi sangat sulit untuk membandingkan dua agen yang berbeda (atau pengontrol) yang mengambil bagian dalam evaluasi spesifik domain mereka sendiri, yang sering terjadi ketika agen dirancang untuk lulus evaluasi spesifik.

Masalah besar lainnya dengan Lovelace Test 2.0 adalah bahwa ada proliferasi tes lain untuk "mengukur" kreativitas AI. Mengevaluasi Evaluasi: Menilai Kemajuan dalam Riset Kreativitas Komputasi , diterbitkan oleh Anna Jordanous pada tahun 2011 (3 tahun sebelumnya penemuan Uji Lovelace 2.0) menganalisis makalah penelitian tentang kreativitas AI dan menulis:

Dari 18 makalah yang menerapkan metodologi evaluasi kreativitas untuk mengevaluasi kreativitas sistem mereka, tidak ada metodologi yang muncul sebagai standar di masyarakat. Kerangka tripod kreatif Colton ( Colton 2008 ) paling sering digunakan (6 kegunaan), dengan 4 makalah menggunakan kriteria empiris Ritchie ( Ritchie 2007 ).

Meninggalkan 10 makalah dengan berbagai metode evaluasi kreativitas.

Tujuan dari "Evaluasi Evaluasi" adalah untuk menstandarkan proses evaluasi kreativitas, untuk menghindari kemungkinan stagnasi bidang karena proliferasi dari begitu banyak tes kreativitas. Anna Jordanous masih tetap tertarik untuk mengevaluasi tes kreativitas, menerbitkan artikel seperti "Melangkah Kembali ke Maju ke Depan: Menetapkan Standar untuk Meta-Evaluasi Kreativitas Komputasi" dan Empat perspektif PPPP tentang Kreativitas Komputasi .

"Evaluating Evaluation" memang memberikan beberapa komentar untuk menjelaskan perkembangan sistem untuk mengevaluasi kreativitas:

Standar evaluasi tidak mudah untuk didefinisikan. Sulit untuk mengevaluasi kreativitas dan bahkan lebih sulit untuk menggambarkan bagaimana kita mengevaluasi kreativitas, dalam kreativitas manusia serta dalam kreativitas komputasi. Faktanya, bahkan definisi kreativitas itu pun bermasalah (Plucker, Beghetto, dan Dow 2004). Sulit untuk mengidentifikasi apa yang dimaksud dengan 'menjadi kreatif', sehingga tidak ada tolok ukur atau kebenaran dasar untuk diukur.

Fakta bahwa begitu banyak tes kreativitas sudah ada (sejauh Jordanous dapat membuat karir akademik dalam mempelajarinya) berarti bahwa sangat sulit untuk setiap tes baru (seperti Lovelace Test 2.0) untuk diperhatikan (apalagi dikutip). ). Mengapa Anda ingin menggunakan sesuatu seperti Lovelace Test 2.0 ketika ada begitu banyak tes lain yang bisa Anda gunakan?

Kiri SE Pada 10_6_19
sumber

Sudahkah Lovelace Test 2.0 berhasil digunakan dalam lingkungan akademik?

Jawaban: