Apa hubungan antara korelasi dan sebab-akibat dalam pembelajaran mesin?

13

Ini adalah fakta yang terkenal bahwa "Korelasi tidak sama dengan sebab akibat", tetapi pembelajaran mesin tampaknya hampir seluruhnya didasarkan pada korelasi. Saya sedang mengerjakan suatu sistem untuk memperkirakan kinerja siswa pada pertanyaan berdasarkan kinerja masa lalu mereka. Tidak seperti tugas-tugas lain, seperti pencarian Google, ini sepertinya bukan jenis sistem yang dapat dengan mudah di-gamed - jadi sebab-akibat tidak benar-benar relevan dalam hal itu.

Jelas, jika kita ingin melakukan percobaan untuk mengoptimalkan sistem, kita harus peduli tentang perbedaan korelasi / sebab-akibat. Tetapi, dari sudut pandang hanya membangun sistem untuk mengambil pertanyaan yang cenderung tingkat kesulitan yang sesuai, apakah perbedaan ini memiliki kepentingan?

Casebash
sumber
Tolong jelaskan atau setidaknya lihat apa yang Anda maksudkan dengan penyebab korelasi dalam "Korelasi tidak sama dengan sebab akibat"
seteropere

Jawaban:

11

Tidak semua AI bekerja berdasarkan korelasi, Bayesian Belief Networks dibangun di sekitar probabilitas bahwa A menyebabkan B.

Saya sedang mengerjakan suatu sistem untuk memperkirakan kinerja siswa berdasarkan pertanyaan berdasarkan penampilan mereka di masa lalu.

Saya tidak berpikir Anda perlu sebab-akibat untuk ini. Kinerja masa lalu tidak menyebabkan kinerja saat ini. Menjawab pertanyaan awal tidak menyebabkan jawaban pada pertanyaan selanjutnya.

Tetapi dari sudut pandang hanya membangun sistem untuk memilih pertanyaan yang cenderung tingkat kesulitan yang tepat - apakah perbedaan ini memiliki kepentingan?

Tidak, bukan untuk contoh Anda. Saya pikir korelasi (atau bahkan ekstrapolasi sederhana) akan menyelesaikan masalah Anda dengan sangat baik. Tetapkan skor kesulitan untuk masing-masing pertanyaan dan kemudian berikan pertanyaan kepada siswa di tingkat yang semakin sulit (yang merupakan cara sebagian besar ujian bekerja) dan kemudian ketika siswa mulai salah, Anda dapat mengatasi kesulitan itu. Itu adalah algoritma umpan balik yang mirip dengan minimisasi kesalahan yang dilakukan pada neuron dalam perceptron berlapis-lapis. Sepotong ruang input non-sepele seperti ini memutuskan apa pertanyaan yang sulit!

Contoh sebab-akibat yang lebih baik dalam AI adalah:

Mobil saya melambat. Akselerator saya ada di lantai. Tidak banyak kebisingan. Ada lampu di dasbor. Berapa probabilitas saya kehabisan bahan bakar?

Dalam hal ini, kehabisan bahan bakar telah menyebabkan mobil melambat. Inilah tepatnya jenis masalah yang dipecahkan Bayesian Belief Networks.

Dr Rob Lang
sumber
"Aku pikir kamu tidak perlu sebab-akibat untuk ini. Kinerja masa lalu tidak menyebabkan kinerja saat ini. Menjawab pertanyaan awal tidak menyebabkan jawaban pada pertanyaan selanjutnya." - baik fakta bahwa seorang siswa menyelesaikan latihan dapat menyebabkan mereka melakukan lebih baik pada latihan lain (kami memberi mereka, petunjuk, dll).
Casebash
Tapi saya kira Anda benar, ini bukan tentang korelasi vs sebab-akibat, tetapi apakah itu berkorelasi dengan sebab-akibat (mis. Siswa di kelas tertentu berhasil dengan baik dalam topik geometri karena guru membahasnya secara lebih rinci, vs siswa yang menyelesaikan topik tersulit yang cenderung memiliki kinerja tinggi karena merekalah satu-satunya yang bangun untuk itu)
Casebash
Ah! Itu menarik: Menyelesaikan latihan dan mengetahui hasilnya adalah penyebab menjadi lebih baik dalam pertanyaan. Tapi itu tidak terlihat di sini. Satu-satunya hal yang Anda amati adalah pertanyaan ujian, yang berkorelasi. Korelasi tidak kotor, boleh dikatakan dua proses statistik memiliki hubungan.
Dr Rob Lang
Penyebab B adalah salah satu interpretasi dari jaringan kepercayaan.
seteropere
6

pembelajaran mesin tampaknya hampir seluruhnya didasarkan pada korelasi

Saya kira tidak, paling tidak secara umum. Sebagai contoh, asumsi utama untuk algoritma ML dalam hal analisis PAC dan analisis dimensi VC , adalah bahwa data pelatihan / pengujian berasal dari distribusi yang sama dengan data masa depan.

Jadi dalam sistem Anda, Anda harus berasumsi, bahwa setiap siswa memaksakan semacam distribusi probabilitas bersyarat yang menghasilkan jawaban untuk jenis pertanyaan tertentu pada topik tertentu. Asumsi lain, dan lebih bermasalah yang harus Anda buat, adalah bahwa distribusi ini tidak berubah (atau tidak berubah cepat).

BartoszKP
sumber
2

Saya setuju dengan jawaban sebelumnya.

Namun, jika Anda tertarik untuk melihat korelasi / penyebab secara umum, dua item yang mungkin ingin Anda lihat adalah:

  • Pearl (ya, Pearl itu ) telah menghasilkan salah satu dari sedikit buku yang layak di sana.
  • Penguatan Pembelajaran , dan masalah bandit multi-bersenjata semua didasarkan di sekitar aktor yang mencoba menyimpulkan tindakan yang optimal dalam lingkungan yang tidak diketahui - yaitu mereka harus belajar 'tindakan' mana yang akan memberi mereka 'hadiah' terbaik, dan dengan demikian secara implisit menghilangkan sebab-akibat hubungan.

sumber
2

Selain jawaban lain, ada topik menarik - jika Anda memilih fitur secara manual, Anda mungkin ingin memikirkan 'korelasi kebetulan' untuk mengurangi overfitting, yaitu, menghindari fitur yang entah bagaimana kebetulan berkorelasi dalam data pelatihan Anda tetapi tidak tidak seharusnya dikorelasikan dalam kasus umum - bahwa tidak ada hubungan sebab akibat apa pun.

Sebagai contoh kasar, anggaplah Anda mengambil tabel data hasil ujian historis dan mencoba memprediksi kriteria gagal / lulus; Anda cukup memasukkan semua bidang data yang tersedia sebagai fitur, dan bahwa tabel tersebut juga membuat siswa berulang tahun. Sekarang, mungkin ada korelasi yang valid dalam data pelatihan bahwa siswa yang lahir pada februari ke-12 hampir selalu lulus dan siswa yang lahir pada februari ke-13 hampir selalu gagal ... tetapi karena tidak ada hubungan sebab-akibat, yang harus dikeluarkan.

Dalam kehidupan nyata itu sedikit lebih halus, tetapi membantu membedakan korelasi yang sesuai dengan data Anda dengan sinyal yang valid yang harus dipelajari; dan korelasi yang hanya pola yang disebabkan oleh derau acak di set pelatihan Anda.

Peter adalah
sumber