Saya kenal seseorang yang mengerjakan proyek yang melibatkan menelan file data tanpa memperhatikan kolom atau tipe data. Tugasnya adalah mengambil file dengan sejumlah kolom dan berbagai tipe data serta statistik ringkasan keluaran pada data numerik.
Namun, ia tidak yakin bagaimana cara menetapkan tipe data secara dinamis untuk data berbasis angka tertentu. Sebagai contoh:
CITY
Albuquerque
Boston
Chicago
Ini jelas bukan data numerik dan akan disimpan sebagai teks. Namun,
ZIP
80221
60653
25525
tidak ditandai dengan jelas sebagai kategori. Perangkat lunaknya akan menetapkan kode ZIP sebagai statistik ringkasan numerik dan output untuknya, yang tidak masuk akal untuk data semacam itu.
Beberapa ide yang kami miliki adalah:
- Jika sebuah kolom adalah semua bilangan bulat, beri label sebagai kategori. Ini jelas tidak akan berhasil, tapi itu ide.
- Jika kolom memiliki kurang dari n nilai unik dan numerik, beri label kategori. Ini mungkin lebih dekat, tetapi mungkin masih ada masalah dengan data numerik yang gagal.
- Menyimpan daftar data numerik umum yang seharusnya benar-benar kategorikal dan membandingkan header kolom dengan daftar ini untuk kecocokan. Misalnya, apa pun dengan "ZIP" di dalamnya akan bersifat kategoris.
Naluri saya memberi tahu saya bahwa tidak ada cara untuk secara akurat menetapkan data numerik sebagai kategorikal atau numerik, tetapi mengharapkan saran. Setiap wawasan yang Anda miliki sangat dihargai.
sumber
Jawaban:
Saya tidak mengetahui cara yang sangat mudah untuk melakukan ini. Berikut ini satu ide dari kepala saya:
sumber
Jika Anda memiliki, misalnya, jumlah anak dalam satu keluarga (yang dapat berkisar, misalnya, antara 0 dan 5), apakah itu variabel kategorikal atau numerik? Sebenarnya itu tergantung pada masalah Anda dan bagaimana Anda bermaksud untuk menyelesaikannya. Dalam pengertian ini, Anda dapat melakukan hal berikut:
Dalam hal nilai diskrit, satu tes tambahan bisa berupa: menggunakan model regresi untuk memperkirakan beberapa parameter dan memeriksa apakah nilai estimasi terkandung dalam set nilai asli. Jika ini tidak benar, Anda mungkin berurusan dengan data kategorikal (seperti halnya ZIP).
Itu bekerja relatif baik untuk saya di masa lalu ...
sumber
Karena pertanyaan ini telah diposkan silang, komentar awal oleh @nickcox di Cross Validated sangat relevan dan benar. Pandangan saya sedikit berbeda. Sebagai contoh, saya akan mengulangi pertanyaan itu, menguraikannya menjadi dua bagian: pertama, ada masalah bagaimana seseorang akan mengklasifikasikan aliran informasi yang tidak diketahui menurut tipe data dan, kedua, tingkat kesalahan klasifikasi seperti apa yang dapat diharapkan. Kedua pertanyaan tersebut segera dapat dijawab, jika seseorang ingin meluangkan waktu untuk melakukannya.
Masalah pertama berjumlah mengembangkan sistem pakar berbasis aturan sepanjang apa yang telah diusulkan sebelumnya dalam komentar dan jawaban di utas ini menggunakan sampel data dunia nyata yang tersedia.
Kedua, mengingat bahwa data dunia nyata ini berisi tipe data yang dikenal, pembandingan kesalahan klasifikasi.
Langkah ketiga akan melibatkan pembaruan aturan secara iteratif untuk mencerminkan informasi yang sedang dilalui secara lebih akurat - sejauh memungkinkan.
Dalam pikiran saya, walaupun membosankan, proyek semacam itu tidak akan melibatkan banyak pekerjaan.
---- Komentar tambahan ----
Diskusi yang bagus tentang ekstraksi fitur yang terkait dengan proses pembuatan data muncul di CV di sini:
/stats/191935/what-does-the-process-that-generates-the-data-mean-and-how-does-feature-selec
Ekstraksi fitur, seleksi dan DGP adalah titik awal yang sangat baik untuk mengembangkan sistem pakar.
sumber