Apa perbedaan antara data 'Normalisasi' dan data 'Skala'? Sampai sekarang saya pikir kedua istilah mengacu pada proses yang sama tetapi sekarang saya menyadari ada sesuatu yang lebih yang saya tidak tahu / mengerti. Juga jika ada perbedaan antara Normalisasi dan Penskalaan, kapan kita harus menggunakan Normalisasi tetapi tidak untuk Penskalaan dan sebaliknya?
Tolong jelaskan dengan beberapa contoh.
Jawaban:
Saya tidak mengetahui definisi "resmi" dan bahkan jika ada, Anda tidak boleh mempercayainya karena Anda akan melihatnya digunakan secara tidak konsisten dalam praktik.
Ini dikatakan, penskalaan dalam statistik biasanya berarti transformasi linear dari bentuk .f(x)=ax+b
Normalisasi dapat berarti menerapkan transformasi sehingga Anda mentransformasikan data secara normal terdistribusi, tetapi juga bisa berarti menempatkan variabel yang berbeda pada skala umum. Standarisasi, yang berarti mengurangi rata-rata dan membaginya dengan standar deviasi, adalah contoh penggunaan selanjutnya. Seperti yang Anda lihat, ini juga merupakan contoh penskalaan. Contoh untuk yang pertama akan mengambil log untuk data terdistribusi lognormal.
Tetapi apa yang harus Anda ambil adalah bahwa ketika Anda membacanya Anda harus mencari deskripsi yang lebih tepat tentang apa yang penulis lakukan. Terkadang Anda bisa mendapatkannya dari konteksnya.
sumber
Penskalaan adalah pilihan pribadi untuk membuat angka terasa benar, misalnya antara nol dan satu, atau satu dan seratus. Misalnya mengonversi data yang diberikan dalam milimeter ke meter karena lebih mudah, atau penting untuk metrik.
Sedangkan normalisasi adalah tentang penskalaan ke 'standar' eksternal - norma lokal - seperti menghapus nilai rata-rata dan membaginya dengan standar deviasi sampel, misalnya agar data yang diurutkan dapat dibandingkan dengan normal kumulatif, atau kumulatif Poisson, atau Masa bodo.
Jadi jika dosen atau manajer menginginkan data 'dinormalisasi' itu berarti "skala ulang dengan cara saya " ;-)
sumber
Saya tidak tahu apakah maksud Anda persis seperti ini, tetapi saya melihat banyak orang mengacu pada Normalisasi yang berarti Standardisasi data. Standardisasi mentransformasikan data Anda sehingga memiliki mean 0 dan standar deviasi 1:
Saya juga melihat orang menggunakan istilah Normalisasi untuk Penskalaan Data, seperti dalam mentransformasikan data Anda ke rentang 0-1:
Ini bisa membingungkan!
Kedua teknik memiliki pro dan kontra mereka. Saat menskalakan dataset dengan outlier yang terlalu banyak, data non-outlier Anda mungkin berakhir dalam interval yang sangat kecil. Jadi jika dataset Anda memiliki terlalu banyak outlier, Anda mungkin ingin mempertimbangkan untuk membakukannya. Meskipun demikian, ketika Anda melakukannya, Anda akan berakhir dengan data negatif (kadang-kadang Anda tidak menginginkannya) dan data tidak terikat (Anda mungkin juga tidak mau itu).
sumber
Pemusatan berarti mensubstitusi rata-rata variabel acak dari variabel. Yaitu x -xi
Scalelling berarti membagi variabel dengan deviasi standarnya. Yaitu xi / s
Kombinasi keduanya disebut normalisasi atau standisasi. Yaitu x-xi / s
sumber