Saya memiliki kursus Pembelajaran Mesin semester ini dan profesor meminta kami untuk menemukan masalah dunia nyata dan menyelesaikannya dengan salah satu metode pembelajaran mesin yang diperkenalkan di kelas, seperti:
- Pohon Keputusan
- Jaringan Saraf Tiruan
- Mendukung Mesin Vektor
- Pembelajaran Berbasis Instans ( kNN , LWL )
- Jaringan Bayesian
- Pembelajaran penguatan
Saya adalah salah satu penggemar stackoverflow dan stackexchange dan tahu dump database dari situs web ini disediakan untuk publik karena mereka mengagumkan! Saya harap saya bisa menemukan tantangan pembelajaran mesin yang bagus tentang database ini dan menyelesaikannya.
Ide saya
Satu ide muncul di benak saya adalah memprediksi tag untuk pertanyaan berdasarkan kata-kata yang dimasukkan dalam tubuh pertanyaan. Saya pikir jaringan Bayesian adalah alat yang tepat untuk mempelajari tanda untuk suatu pertanyaan tetapi perlu penelitian lebih lanjut. Bagaimanapun, setelah fase belajar ketika pengguna selesai memasukkan pertanyaan, beberapa tag harus disarankan kepadanya.
Tolong beri tahu saya :
Saya ingin bertanya kepada komunitas statistik sebagai orang yang berpengalaman tentang ML dua pertanyaan:
Apakah menurut Anda saran tag setidaknya merupakan masalah yang memiliki peluang untuk dipecahkan? Apakah Anda punya saran tentang itu? Saya sedikit khawatir karena stackexchange belum mengimplementasikan fitur tersebut.
Apakah Anda punya ide lain / lebih baik untuk proyek ML yang didasarkan pada database stackexchange? Saya merasa sangat sulit untuk menemukan sesuatu untuk dipelajari dari database stackexchange.
Pertimbangan tentang kesalahan basis data: Saya ingin menunjukkan bahwa meskipun basis datanya sangat besar dan memiliki banyak contoh, mereka tidak sempurna dan cenderung mengalami kesalahan. Yang jelas adalah usia pengguna yang tidak bisa diandalkan. Bahkan tag yang dipilih untuk pertanyaan tidak 100% benar. Bagaimanapun, kita harus mempertimbangkan persentase kebenaran data dalam memilih masalah.
Pertimbangan tentang masalah itu sendiri: Proyek saya seharusnya tidak tentang data-mining
atau sesuatu seperti ini. Itu hanya harus menjadi aplikasi metode ML di dunia nyata.
sumber
Saya juga berpikir tentang prediksi tag, saya suka ide itu. Saya merasa bahwa itu mungkin, tetapi Anda mungkin perlu mengatasi banyak masalah sebelum Anda tiba pada dataset final Anda. Jadi saya berspekulasi bahwa prediksi tag mungkin membutuhkan banyak waktu. Selain tag yang salah, batas maksimal 5 tag dapat berperan. Juga bahwa beberapa tag adalah subkategori dari yang lain (mis. “Perbandingan ganda” dapat dilihat sebagai subkategori “pengujian signifikansi”).
Saya tidak memeriksa apakah waktu pemilihan suara termasuk dalam basis data yang dapat diunduh, tetapi proyek yang lebih sederhana dan masih menarik adalah memprediksi jumlah suara "final" (mungkin setelah 5 bulan) pada sebuah pertanyaan tergantung pada suara awal, dan waktu menerima jawaban.
sumber
Ini pertanyaan yang bagus. Saya juga berpikir bahwa dataset StackExchange yang tersedia untuk umum akan menjadi subjek yang baik untuk dianalisis. Ini cukup tidak biasa bahwa mereka mungkin juga merupakan testbeds yang baik untuk metode statistik baru. Memiliki sejumlah besar data terstruktur dengan baik tidak biasa, bagaimanapun juga.
kardinal menyarankan banyak hal yang sebenarnya berguna untuk StackExchange. Saya tidak akan membatasi diri untuk ini.
Berikut adalah satu kandidat yang jelas untuk analisis, meskipun tidak ada penggunaan jelas yang terlintas dalam pikiran. Ini adalah efek yang nyata bahwa pengguna rep tinggi lebih mungkin untuk mendapatkan upvotes, hal lain dianggap sama. Namun, efek ini mungkin non-sepele terhadap model. Karena kami tidak dapat membandingkan kegunaan di seluruh pengguna dengan sangat mudah, pendekatan yang jelas adalah dengan menganggap jawaban pengguna selalu sama berguna (tidak berlaku secara umum tetapi seseorang harus memulai dari suatu tempat) dan kemudian menambahkan istilah inflasi untuk menjelaskan peningkatan reputasinya. . Seseorang kemudian dapat (saya kira) menambahkan dalam beberapa istilah yang akan menjelaskan jawabannya menjadi lebih baik dengan pengalaman yang meningkat. Mungkin ini bisa ditangani oleh semacam rangkaian waktu. Saya tidak yakin bagaimana interval data akan mempengaruhi ini. Ini mungkin latihan yang menarik.
Saya akan menambahkan lebih banyak contoh jika / ketika saya memikirkannya.
Adakah yang mengetahui makalah penelitian statistik berdasarkan data SE? Juga, Isaac menyebutkan bahwa data memiliki kesalahan. Adakah yang tahu lebih banyak tentang ini?
sumber