Ini adalah fakta yang terkenal bahwa "Korelasi tidak sama dengan sebab akibat", tetapi pembelajaran mesin tampaknya hampir seluruhnya didasarkan pada korelasi. Saya sedang mengerjakan suatu sistem untuk memperkirakan kinerja siswa pada pertanyaan berdasarkan kinerja masa lalu mereka. Tidak seperti tugas-tugas lain, seperti pencarian Google, ini sepertinya bukan jenis sistem yang dapat dengan mudah di-gamed - jadi sebab-akibat tidak benar-benar relevan dalam hal itu.
Jelas, jika kita ingin melakukan percobaan untuk mengoptimalkan sistem, kita harus peduli tentang perbedaan korelasi / sebab-akibat. Tetapi, dari sudut pandang hanya membangun sistem untuk mengambil pertanyaan yang cenderung tingkat kesulitan yang sesuai, apakah perbedaan ini memiliki kepentingan?
sumber
Jawaban:
Tidak semua AI bekerja berdasarkan korelasi, Bayesian Belief Networks dibangun di sekitar probabilitas bahwa A menyebabkan B.
Saya tidak berpikir Anda perlu sebab-akibat untuk ini. Kinerja masa lalu tidak menyebabkan kinerja saat ini. Menjawab pertanyaan awal tidak menyebabkan jawaban pada pertanyaan selanjutnya.
Tidak, bukan untuk contoh Anda. Saya pikir korelasi (atau bahkan ekstrapolasi sederhana) akan menyelesaikan masalah Anda dengan sangat baik. Tetapkan skor kesulitan untuk masing-masing pertanyaan dan kemudian berikan pertanyaan kepada siswa di tingkat yang semakin sulit (yang merupakan cara sebagian besar ujian bekerja) dan kemudian ketika siswa mulai salah, Anda dapat mengatasi kesulitan itu. Itu adalah algoritma umpan balik yang mirip dengan minimisasi kesalahan yang dilakukan pada neuron dalam perceptron berlapis-lapis. Sepotong ruang input non-sepele seperti ini memutuskan apa pertanyaan yang sulit!
Contoh sebab-akibat yang lebih baik dalam AI adalah:
Dalam hal ini, kehabisan bahan bakar telah menyebabkan mobil melambat. Inilah tepatnya jenis masalah yang dipecahkan Bayesian Belief Networks.
sumber
Saya kira tidak, paling tidak secara umum. Sebagai contoh, asumsi utama untuk algoritma ML dalam hal analisis PAC dan analisis dimensi VC , adalah bahwa data pelatihan / pengujian berasal dari distribusi yang sama dengan data masa depan.
Jadi dalam sistem Anda, Anda harus berasumsi, bahwa setiap siswa memaksakan semacam distribusi probabilitas bersyarat yang menghasilkan jawaban untuk jenis pertanyaan tertentu pada topik tertentu. Asumsi lain, dan lebih bermasalah yang harus Anda buat, adalah bahwa distribusi ini tidak berubah (atau tidak berubah cepat).
sumber
Saya setuju dengan jawaban sebelumnya.
Namun, jika Anda tertarik untuk melihat korelasi / penyebab secara umum, dua item yang mungkin ingin Anda lihat adalah:
sumber
Selain jawaban lain, ada topik menarik - jika Anda memilih fitur secara manual, Anda mungkin ingin memikirkan 'korelasi kebetulan' untuk mengurangi overfitting, yaitu, menghindari fitur yang entah bagaimana kebetulan berkorelasi dalam data pelatihan Anda tetapi tidak tidak seharusnya dikorelasikan dalam kasus umum - bahwa tidak ada hubungan sebab akibat apa pun.
Sebagai contoh kasar, anggaplah Anda mengambil tabel data hasil ujian historis dan mencoba memprediksi kriteria gagal / lulus; Anda cukup memasukkan semua bidang data yang tersedia sebagai fitur, dan bahwa tabel tersebut juga membuat siswa berulang tahun. Sekarang, mungkin ada korelasi yang valid dalam data pelatihan bahwa siswa yang lahir pada februari ke-12 hampir selalu lulus dan siswa yang lahir pada februari ke-13 hampir selalu gagal ... tetapi karena tidak ada hubungan sebab-akibat, yang harus dikeluarkan.
Dalam kehidupan nyata itu sedikit lebih halus, tetapi membantu membedakan korelasi yang sesuai dengan data Anda dengan sinyal yang valid yang harus dipelajari; dan korelasi yang hanya pola yang disebabkan oleh derau acak di set pelatihan Anda.
sumber