Statistik dan Big Data

27
Apakah memutihkan selalu baik?

Langkah pra-pemrosesan umum untuk algoritma pembelajaran mesin adalah memutihkan data. Sepertinya itu selalu baik untuk melakukan pemutihan karena tidak berkorelasi dengan data, membuatnya lebih mudah untuk dimodelkan. Kapan pemutihan tidak disarankan? Catatan: Saya merujuk pada de-korelasi...

27
Mendeteksi outlier menggunakan standar deviasi

Mengikuti pertanyaan saya di sini , saya bertanya-tanya apakah ada pandangan yang kuat untuk atau menentang penggunaan deviasi standar untuk mendeteksi outlier (misalnya setiap titik data yang lebih dari 2 deviasi standar adalah outlier). Saya tahu ini tergantung pada konteks penelitian, misalnya...

27
Apakah korelasi setara dengan asosiasi?

Profesor statistik saya mengklaim bahwa kata "korelasi" berlaku ketat untuk hubungan linier antarvariate, sedangkan kata "asosiasi" berlaku luas untuk semua jenis hubungan. Dengan kata lain, dia mengklaim istilah "korelasi non-linear" adalah sebuah oxymoron. Dari apa yang saya dapat dari bagian...