Hari ini saya membaca buku "Teori Informasi: Pengantar tutorial" oleh James Stone dan berpikir sejenak tentang sejauh mana penggunaan teori informasi dalam ilmu data terapan (jika Anda tidak nyaman dengan istilah yang masih agak kabur ini, berpikir analisis data , yang ilmu data IMHO adalah versi dimuliakan). Saya menyadari penggunaan yang signifikan dari teori informasi berbasis pendekatan , metode dan langkah-langkah , terutama entropi , di bawah kap berbagai teknik statistik dan metode analisis data.
Namun, saya ingin tahu tentang tingkat / tingkat pengetahuan yang diperlukan untuk seorang ilmuwan sosial terapan untuk berhasil memilih dan menerapkan konsep-konsep, langkah-langkah dan alat-alat tanpa menyelam terlalu jauh ke dalam asal-usul matematika dari teori. Saya menantikan jawaban Anda, yang dapat menjawab kekhawatiran saya dalam konteks buku yang disebutkan di atas (atau buku serupa lainnya - jangan ragu untuk merekomendasikan) atau secara umum.
Saya juga akan menghargai beberapa rekomendasi untuk cetak atau online sumber yang membahas teori informasi dan konsep-konsep, pendekatan, metode dan langkah-langkah dalam konteks dari (di dibandingkan dengan) lainnya (lebih) pendekatan statistik tradisional ( frequentist dan Bayesian ).
sumber
Jawaban:
Jadi bagian pertama dari pertanyaan: Apakah para ilmuwan data perlu mengetahui teori informasi ? Saya pikir jawabannya tidak sampai baru-baru ini. Alasan saya berubah pikiran adalah salah satu komponen penting: kebisingan.
Banyak model pembelajaran mesin (baik stokastik atau tidak) menggunakan noise sebagai bagian dari proses encoding dan transformasi mereka dan dalam banyak model ini, Anda perlu menyimpulkan probabilitas kebisingan yang terpengaruh setelah mendekode output yang ditransformasikan dari model. Saya pikir ini adalah bagian inti dari teori informasi. Tidak hanya itu, dalam pembelajaran yang mendalam, KL divergence adalah ukuran yang sangat penting digunakan yang juga berasal dari Teori Informasi.
Bagian kedua dari pertanyaan: Saya pikir sumber terbaik adalah Teori Informasi, Inferensi dan Algoritma Pembelajaran David MacKay . Dia mulai dengan Teori Informasi dan mengambil ide-ide itu menjadi inferensi dan bahkan jaringan saraf. Pdf gratis situs web Dave dan ceramahnya online yang bagus
sumber