Dalam banyak aplikasi pembelajaran mesin, metode augmentasi data yang disebut telah memungkinkan membangun model yang lebih baik. Misalnya, asumsikan satu set pelatihan gambar kucing dan anjing. Dengan memutar, mirroring, menyesuaikan kontras, dll. Dimungkinkan untuk menghasilkan gambar tambahan dari yang asli.
Dalam hal gambar, augmentasi data relatif mudah. Namun, anggaplah (misalnya) bahwa seseorang memiliki serangkaian pelatihan sampel dan beberapa ratus variabel kontinu yang mewakili hal-hal yang berbeda. Augmentasi data tidak lagi tampak intuitif. Apa yang bisa dilakukan dalam kasus seperti itu?
Jawaban:
Saya memahami pertanyaan ini karena melibatkan konstruksi fitur dan berurusan dengan kekayaan fitur yang sudah Anda miliki akan membangun, relatif terhadap pengamatan Anda (
N << P
).Konstruksi Fitur
Memperluas komentar @ yasin.yazici, beberapa cara yang mungkin untuk menambah data adalah:
Saya yakin masih banyak lagi yang saya lewatkan.
Seleksi Fitur / Pengurangan Dimensi
Anda dapat mengurangi dimensi dengan teknik seperti PCA (meskipun mungkin tidak setelah menambah data Anda dengan variabel PCA). Atau, Anda dapat menggunakan algoritma yang melakukan pemilihan fitur untuk Anda, seperti laso, forest acak, dll.
sumber
Saya menghadapi masalah yang sama di mana saya ingin menambah data numerik yang tidak berlabel. Saya menambah data dengan cara berikut: (Katakanlah saya memiliki kumpulan data ukuran 100 * 10.)
sumber