Apa itu pencampuran data?

15

Istilah ini sering muncul di utas terkait metode .

Apakah memadukan metode khusus dalam penambangan data dan pembelajaran statistik? Saya tidak bisa mendapatkan hasil yang relevan dari google.

Tampaknya pencampuran adalah mencampur hasil dari banyak model dan menghasilkan hasil yang lebih baik. Apakah ada sumber daya yang membantu saya mengetahui lebih banyak tentang hal itu?

TomHall
sumber

Jawaban:

10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Beberapa makalah untuk membantu Anda lebih memahami apa itu blending. Saya pikir Anda juga dapat google untuk pemilihan / pembelajaran ensemble, dan menumpuk juga.

Pemahaman umum Anda tentang 'menggabungkan hasil dari banyak model dan menghasilkan hasil yang lebih baik' adalah benar.

Raja
sumber
Tautan itu juga diambil dari suatu tempat di forum kaggle. Saya hanya menyimpan tautan pdf tetapi tidak untuk diskusi ...
King
12

Meningkatkan (seperti yang disebutkan dalam diskusi terkait) adalah metode yang menggabungkan satu set algoritma untuk mendapatkan hasil yang lebih baik daripada apa yang bisa Anda dapatkan dari algoritma tunggal apa pun. Misalnya hutan acak adalah metode untuk menggabungkan berbagai pohon klasifikasi untuk algoritma klasifikasi. Pendekatan ini secara resmi disebut ansambel rata-rata (walaupun algoithm biasanya menggunakan aturan mayoritas). Memadukan tampaknya menjadi kata yang digunakan beberapa orang untuk menggambarkan pendekatan peningkatan klasifikasi.

Michael R. Chernick
sumber
Jadi bisakah ini disebut blending, jika saya mengganti pohon klasifikasi dalam model adaboost normal dengan set algoritma lainnya?
TomHall
Hai, Michael. Jawaban Anda sangat membantu tetapi, memalukan bagi saya, saya baru dalam statistik dan belum memiliki reputasi yang cukup untuk memilih jawaban Anda.
TomHall
1
Kalau begitu ingat untuk melakukannya setelah Anda mendapatkan beberapa poin rep.
Michael R. Chernick
0

Dalam pencampuran data industri bukan tentang model tetapi tentang preprocessing : Ini adalah saat data digabungkan yang berasal dari sumber yang berbeda, seperti satu dari database dan data lain dari file CSV.

Make42
sumber