Seperti judulnya, apakah ada yang tahu tentang buku yang bagus dan terkini yang mencakup preprocessing data secara umum dan khususnya teknik deteksi outlier?
Buku ini tidak perlu berfokus secara khusus pada hal itu, tetapi harus membahas topik-topik yang disebutkan di atas secara mendalam - saya tidak akan senang dengan sesuatu yang merupakan titik awal dan mengutip daftar makalah, penjelasan berbagai teknik harus muncul dalam buku itu sendiri.
Teknik untuk menangani data yang hilang lebih disukai, tetapi tidak perlu ...
Jawaban:
Meskipun khusus untuk Stata, saya telah menemukan buku Scott Long, Alur Kerja Analisis Data Menggunakan Stata , sangat berharga di bidang manajemen dan persiapan data. Penulis memberikan banyak nasihat bermanfaat mengenai praktik-praktik yang baik dalam manajemen data, seperti membersihkan dan mengarsipkan data, memeriksa outlier dan menangani data yang hilang.
sumber
Untuk SAS, ada Teknik Pembersihan Data Ron Cody menggunakan Perangkat Lunak SAS . Ada pepatah di SAS-L: "Anda tidak akan pernah salah dengan buku karya Ron Cody"
sumber
Jika Anda memiliki dasar-dasar (mengidentifikasi outlier, nilai yang hilang, bobot, pengkodean) tergantung pada topik, ada banyak lagi dalam literatur akademik biasa yang dapat ditemukan. Misalnya dalam penelitian survei (yang merupakan topik di mana banyak hal bisa salah, dan rentan terhadap banyak sumber bias) ada banyak artikel bagus yang bisa ditemukan.
Ketika mempersiapkan regresi crossectional reguler, hal - hal mungkin kurang kompleks. Masalah mungkin ada misalnya bahwa Anda menghapus terlalu banyak 'outlier' dan dengan demikian secara artifisial sesuai dengan model Anda.
Saya juga merekomendasikan Anda selain belajar teknik yang baik, juga menjaga akal sehat. Pastikan Anda menerapkan teknik dengan benar dan tidak secara membabi buta. Adapun diskusi perangkat lunak dalam jawaban lain. Saya pikir SPSS tidak buruk untuk persiapan data (saya juga mendengar hal-hal baik tentang SAS) tergantung pada ukuran dataset Anda. Menu drop-down sangat intuitif.
Tetapi sebagai jawaban langsung untuk pertanyaan Anda, literatur akademik mungkin atau mungkin tidak menjadi sumber yang sangat baik untuk persiapan data Anda tergantung pada topik dan analisis.
sumber