Saya bekerja di bidang penambangan data dan memiliki sekolah formal yang sangat sedikit dalam statistik. Akhir-akhir ini saya telah membaca banyak pekerjaan yang berfokus pada paradigma Bayes untuk pembelajaran dan penambangan, yang menurut saya sangat menarik.
Pertanyaan saya adalah (di beberapa bagian), diberikan masalah apakah ada kerangka umum yang memungkinkan untuk membangun model statistik? Apa hal pertama yang Anda lakukan ketika diberi dataset yang ingin Anda modelkan proses dasarnya? Apakah ada buku / tutorial bagus di luar sana yang menjelaskan proses ini atau apakah ini masalah pengalaman? Apakah kesimpulan di garis depan pikiran Anda ketika membangun model Anda atau apakah Anda pertama kali bertujuan untuk menggambarkan data sebelum Anda khawatir tentang bagaimana menggunakannya untuk menghitung?
Wawasan apa pun akan sangat dihargai! Terima kasih.
sumber
Jawaban:
Di Statistik, seperti di Penambangan Data, Anda mulai dengan data dan tujuan. Dalam statistik ada banyak fokus pada inferensi, yaitu, menjawab pertanyaan tingkat populasi menggunakan sampel. Dalam penggalian data, fokus biasanya prediksi: Anda membuat model dari sampel Anda (data pelatihan) untuk memprediksi data uji.
Proses dalam statistik adalah:
Jelajahi data menggunakan ringkasan dan grafik - tergantung pada bagaimana data-driven ahli statistik, beberapa akan lebih berpikiran terbuka, melihat data dari semua sudut, sementara yang lain (terutama ilmuwan sosial) akan melihat data melalui lensa dari pertanyaan yang menarik (misalnya, plot terutama variabel yang menarik dan bukan yang lain)
Pilih keluarga model statistik yang sesuai (misalnya, regresi linier untuk Y terus menerus, regresi logistik untuk Y biner, atau Poisson untuk data jumlah), dan lakukan pemilihan model
Perkirakan model terakhir
Asumsi model pengujian untuk memastikan mereka terpenuhi secara wajar (berbeda dari pengujian untuk akurasi prediksi dalam data mining)
Gunakan model untuk inferensi - ini adalah langkah utama yang berbeda dari data mining. Kata "p-value" tiba di sini ...
Lihatlah buku teks statistik dasar dan Anda akan menemukan bab tentang Analisis Data Eksplorasi diikuti oleh beberapa distribusi (yang akan membantu memilih model perkiraan yang masuk akal), kemudian inferensi (interval kepercayaan dan tes hipotesis) dan model regresi.
Saya menjelaskan kepada Anda proses statistik klasik. Namun, saya punya banyak masalah dengannya. Fokus pada kesimpulan telah sepenuhnya mendominasi bidang, sementara prediksi (yang sangat penting dan berguna) hampir diabaikan. Selain itu, jika Anda melihat bagaimana para ilmuwan sosial menggunakan statistik untuk inferensi, Anda akan menemukan bahwa mereka menggunakannya dengan sangat berbeda! Anda dapat melihat lebih lanjut tentang ini di sini
sumber
Sejauh buku, "Elemen Pembelajaran Statistik" oleh Hastie, Tibshirani dan Friedman sangat baik.
Buku lengkap tersedia di situs web penulis ; Anda mungkin ingin melihat apakah itu cocok untuk kebutuhan Anda.
sumber
Adapun referensi (online), saya akan merekomendasikan melihat slide tutorial Andrew Moore tentang Statistik Data Mining .
Ada banyak buku teks tentang penambangan data dan pembelajaran mesin; mungkin titik awal yang baik adalah Prinsip Penambangan Data , oleh Hand et al., dan Pengantar Pembelajaran Mesin , oleh Alpaydin.
sumber
Buku Bayesian pengantar terbaik yang saya temukan adalah Analisis Data - A Bayesian Tutorial . Ini cukup praktis.
sumber