Apa perbedaan antara Normalisasi dan Standardisasi?

118

Di tempat kerja kami membahas hal ini karena bos saya belum pernah mendengar tentang normalisasi. Dalam Aljabar Linier, Normalisasi tampaknya merujuk pada pembagian vektor dengan panjangnya. Dan dalam statistik, Standardisasi tampaknya merujuk pada pengurangan mean yang kemudian dibagi dengan SD-nya. Tapi mereka juga bisa dipertukarkan dengan kemungkinan lain.

Saat membuat semacam skor universal, yang membentuk metrik berbeda, yang memiliki cara dan SD berbeda, akankah Anda Normalisasi, Standarisasi, atau yang lainnya? Satu orang mengatakan kepada saya itu hanya masalah mengambil setiap metrik dan membaginya dengan SD mereka, secara individual. Kemudian menjumlahkan keduanya. Dan itu akan menghasilkan skor universal yang dapat digunakan untuk menilai kedua metrik.2

Misalnya, Anda memiliki jumlah orang yang naik kereta bawah tanah ke tempat kerja (di NYC) dan jumlah orang yang menyetir ke tempat kerja (di NYC).

Trainx
Cary

Jika Anda ingin membuat skor universal untuk melaporkan fluktuasi lalu lintas dengan cepat, Anda tidak bisa menambahkan dan karena akan ada BANYAK lebih banyak orang yang naik kereta. Ada 8 juta orang yang tinggal di NYC, ditambah turis. Itu jutaan orang naik kereta setiap hari ayat ratusan ribu orang di mobil. Jadi mereka perlu ditransformasikan ke skala yang sama agar dapat dibandingkan.mean(x)mean(y)

Jikamean(x)=8,000,000

danmean(y)=800,000

Apakah Anda akan menormalisasi & lalu menjumlahkan? Apakah Anda akan menstandarkan & lalu menjumlahkan? Atau apakah Anda akan membagi masing-masing dengan SD masing-masing kemudian menjumlahkan? Untuk mendapatkan nomor yang berfluktuasi, merupakan fluktuasi total lalu lintas.xyxy

Artikel atau bab buku apa pun untuk referensi akan sangat dihargai. TERIMA KASIH!

Juga inilah contoh lain dari apa yang saya coba lakukan.

Bayangkan Anda seorang dekan perguruan tinggi, dan Anda sedang mendiskusikan persyaratan penerimaan. Anda mungkin menginginkan siswa dengan setidaknya IPK tertentu dan skor tes tertentu. Alangkah baiknya jika mereka berdua dalam skala yang sama karena Anda bisa menambahkan keduanya bersama-sama dan berkata, "siapa pun dengan setidaknya 7,0 dapat diterima." Dengan begitu, jika seorang calon siswa memiliki IPK 4,0, mereka bisa mendapatkan skor tes 3,0 dan masih diterima. Sebaliknya, jika seseorang memiliki IPK 3.0, mereka masih bisa diterima dengan skor tes 4.0.

Tapi tidak seperti itu. ACT berada pada skala 36 poin dan sebagian besar IPK berada di 4.0 (ada yang 4.3, ya menyebalkan). Karena saya tidak bisa hanya menambahkan ACT dan IPK untuk mendapatkan semacam skor universal, bagaimana saya bisa mengubahnya sehingga mereka dapat ditambahkan, sehingga menciptakan skor penerimaan universal. Dan sebagai Dekan, saya bisa secara otomatis menerima siapa pun dengan skor di atas ambang tertentu. Atau bahkan secara otomatis menerima semua orang yang nilainya berada di atas 95% .... hal-hal semacam itu.

Apakah itu normalisasi? standardisasi? atau hanya membagi masing-masing dengan SD mereka lalu menjumlahkan?

Chris
sumber
4
Bagian terakhir dari pertanyaan ini terdengar seperti Anda mencoba membuat penilaian dari banyak atribut. Untuk lebih lanjut tentang itu lihat pertanyaan dan balasan di stats.stackexchange.com/q/9137 dan stats.stackexchange.com/q/9358 . Secara khusus, perhatikan bahwa baik normalisasi maupun standardisasi tidak memiliki relevansi langsung dengan masalah Dean.
whuber

Jawaban:

65

Normalisasi mengubah nilai menjadi kisaran [0,1]. Ini mungkin berguna dalam beberapa kasus di mana semua parameter harus memiliki skala positif yang sama. Namun, outlier dari kumpulan data hilang.

Xchanged=XXminXmaxXmin

Standardisasi menskala ulang data untuk memiliki rata-rata ( ) 0 dan standar deviasi ( ) 1 (varian unit).μσ

Xchanged=Xμσ

Untuk sebagian besar aplikasi standardisasi dianjurkan.

Vivek Kumar
sumber
7
Bisakah Anda jelaskan mengapa "pencilan dari kumpulan data hilang" pada normalisasi data?
pelajar
3
pencilan dalam hal penskalaan ulang ini akan mempengaruhi hasilnya dan tidak hilang.
Feras
@learner Bayangkan jika Anda memiliki [1 2 3 4 5 1000 2 4 5 2000 ...]. Nilai normal dari 1000 datapoint akan menjadi lebih kecil karena kita memiliki 2000
COLD ICE
3
@ COLDICE Saya pikir itu tergantung pada algoritma normalisasi yang Anda gunakan. Sebagai contoh, jika Anda membagi setiap angka dalam dataset Anda dengan nilai maks (misalnya 2000), mereka akan berkisar antara 0 dan 1, dan itu tidak akan mempengaruhi pencilan.
Alisson
3
Saya pikir ini tidak mempengaruhi pencilan sama sekali, kalau tidak ini tidak akan dilakukan dalam perangkat lunak deteksi anomali.
Alisson
44

Dalam dunia bisnis, "normalisasi" biasanya berarti kisaran nilai "dinormalisasi mulai dari 0,0 hingga 1,0". "Standarisasi" biasanya berarti bahwa kisaran nilai "terstandarisasi" untuk mengukur berapa standar deviasi yang nilainya dari rata-rata. Namun, tidak semua orang akan setuju dengan itu. Yang terbaik adalah menjelaskan definisi Anda sebelum Anda menggunakannya.

Bagaimanapun, transformasi Anda perlu memberikan sesuatu yang bermanfaat.

Dalam contoh kereta / mobil Anda, apakah Anda memperoleh sesuatu karena mengetahui berapa banyak standar deviasi dari nilai rata-rata mereka, masing-masing nilainya terletak? Jika Anda memplot tindakan "standar" tersebut terhadap satu sama lain sebagai plot xy, Anda mungkin melihat korelasi (lihat grafik pertama di sebelah kanan):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Jika demikian, apakah itu ada artinya bagi Anda?

Sejauh contoh kedua Anda, jika Anda ingin "menyamakan" IPK dari satu skala ke skala lain, apa kesamaan timbangan ini? Dengan kata lain, bagaimana Anda mengubah minimum menjadi setara, dan maksimum menjadi setara?

Berikut ini contoh "normalisasi":

Tautan Normalisasi

Setelah Anda mendapatkan skor IPK dan ACT dalam bentuk yang dapat dipertukarkan, apakah masuk akal untuk menimbang skor ACT dan IPK secara berbeda? Jika demikian, bobot apa yang berarti bagi Anda?

Sunting 1 (05/03/2011) ========================================= =

Pertama, saya akan memeriksa tautan yang disarankan oleh whuber di atas. Intinya adalah, di kedua masalah dua variabel Anda, Anda harus datang dengan "kesetaraan" dari satu variabel versus yang lain. Dan, cara untuk membedakan satu variabel dari yang lain. Dengan kata lain, bahkan jika Anda dapat menyederhanakan ini menjadi hubungan linier sederhana, Anda akan memerlukan "bobot" untuk membedakan satu variabel dari yang lain.

Berikut adalah contoh masalah dua variabel:

Utilitas Multi-Atribut

Dari halaman terakhir, jika Anda dapat mengatakan bahwa lalu lintas kereta standar U1(x)versus lalu lintas mobil terstandarisasi U2(y)adalah "tidak tergantung secara independen", maka Anda mungkin dapat lolos dengan persamaan sederhana seperti:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Di mana k1 = 0,5 berarti Anda tidak mempedulikan lalu lintas mobil / kereta standar. Semakin tinggi k1 berarti lalu lintas kereta U1(x)lebih penting.

Namun, jika kedua variabel ini tidak "independen secara aditif", maka Anda harus menggunakan persamaan yang lebih rumit. Satu kemungkinan ditampilkan di halaman 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

Dalam kedua kasus tersebut, Anda harus membuat utilitas U(x, y)yang masuk akal.

Konsep pembobotan / perbandingan umum yang sama berlaku untuk masalah IPK / ACT Anda. Bahkan jika mereka "dinormalisasi" daripada "standar".

Satu masalah terakhir. Saya tahu Anda tidak akan menyukai ini, tetapi definisi dari istilah "additive independent" ada di halaman 4 dari tautan berikut. Saya mencari definisi yang kurang culun, tetapi saya tidak dapat menemukannya. Anda mungkin mencari-cari sesuatu yang lebih baik.

Independen secara positif

Mengutip tautan:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Seperti yang disarankan di bagian atas respons ini, jika Anda memplot lalu lintas kereta standar versus lalu lintas mobil terstandarisasi pada petak xy, Anda mungkin melihat korelasi. Jika demikian, maka Anda terjebak dengan persamaan utilitas non-linear di atas atau yang serupa.

bill_080
sumber
Baik. Kamu benar. Yang terbaik adalah menjelaskan definisi saya. Dan dalam memikirkannya lagi, itu bukan definisi yang saya butuhkan. Yang saya butuhkan adalah metode yang tepat untuk membuat 1 skor universal. Baik itu skor Penerimaan atau Skor lalu lintas. Bagaimana cara membuat metrik universal yang merupakan fungsi dari variabel lain, yang diubah untuk menempatkan keduanya pada skala yang sama? Dan jangan khawatir tentang bobotnya. Saya mengerti bahwa bahkan hanya penjumlahan langsung adalah menimbang metrik 1/1. Tapi itu kurang menjadi perhatian saya saat ini.
Chris
@ Chris, saya menambahkan jawaban saya sebagai edit di atas.
bill_080
2
(+1) Suntingan yang bagus. @ Chris: Anda mungkin tertarik pada catatan untuk satu set slide PowerPoint di sini : ini adalah presentasi tentang subjek yang saya berikan kepada orang-orang non-teknis. Saya menyebutkannya karena memiliki beberapa ilustrasi dan panduan untuk bagaimana "membuat metrik universal."
whuber
Tautan Multi-Atribut Utilitas sudah mati, artikel dapat ditemukan di sini web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/…
mgilbert
6

Jawabannya sederhana, tetapi Anda tidak akan menyukainya: itu tergantung. Jika Anda menilai 1 standar deviasi dari kedua skor secara sama, maka standarisasi adalah cara yang harus dilakukan (perhatikan: sebenarnya, Anda sedang membuat siswa , karena Anda membaginya dengan perkiraan SD populasi).

Jika tidak, kemungkinan standardisasi akan menjadi langkah pertama yang baik, setelah itu Anda dapat memberi bobot lebih pada salah satu skor dengan mengalikannya dengan faktor yang dipilih dengan baik.

Nick Sabbe
sumber
Jadi, Anda mengatakan setidaknya mulai dengan apa yang saya gambarkan sebagai Standardisasi (pelajar), kemudian sesuaikan bobotnya agar paling sesuai dengan data / skenario? Itu masuk akal. Saya hanya tidak mengerti mengapa saya harus membagi dengan SD. Dan dalam meneliti saya menemukan sesuatu yang disebut Perbedaan Rata-Rata yang Distandarisasi .... dan saya sendiri telah membingungkan diri sendiri. Sepertinya itu harus sederhana. Anda bisa menempatkan keduanya di Skala-A, atau satu di skala yang sama dengan yang lain, lalu menjumlahkan. Tapi tidak. Sebaliknya saya bingung dan semua Wiki keluar untuk saat ini.
Chris
0

Untuk menyelesaikan masalah IPK / ACT atau kereta / mobil, mengapa tidak menggunakan Geometric Mean ?

n√ (a1 × a2 × ... × an)

Di mana a*nilai dari distribusi dan nmerupakan indeks distribusi.

Mean geometrik ini memastikan bahwa setiap nilai mengeluarkan skalanya, memberikan kontribusi yang sama untuk nilai rata-rata. Lihat selengkapnya di Mean Geometris

LingxB
sumber
3
Saya tidak melihat bahwa rata-rata geometrik akan sesuai untuk situasi yang digambarkan OP.
gung
1
Saya setuju dengan gung. Mean geometris bukanlah solusi dari masalah ini.
Ferdi
Mean geometris akan mencegah pengurangan kontribusi angka yang lebih kecil. Oleh karena itu dapat menjadi alternatif untuk standardisasi atau normalisasi ketika skala yang tidak sama harus digabungkan.
rnso
0

Di bidang saya, ilmu data, normalisasi adalah transformasi data yang memungkinkan perbandingan data hilir dengan mudah. Ada banyak jenis normalisasi. Scaling menjadi salah satunya. Anda juga dapat mencatat data, atau melakukan hal lain yang Anda inginkan. Jenis normalisasi yang Anda gunakan akan tergantung pada hasil yang Anda inginkan, karena semua normalisasi mengubah data menjadi sesuatu yang lain.

Berikut beberapa contoh normalisasi yang saya anggap. Penskalaan normalisasi Kuantisasi normal

di sana
sumber