Di tempat kerja kami membahas hal ini karena bos saya belum pernah mendengar tentang normalisasi. Dalam Aljabar Linier, Normalisasi tampaknya merujuk pada pembagian vektor dengan panjangnya. Dan dalam statistik, Standardisasi tampaknya merujuk pada pengurangan mean yang kemudian dibagi dengan SD-nya. Tapi mereka juga bisa dipertukarkan dengan kemungkinan lain.
Saat membuat semacam skor universal, yang membentuk metrik berbeda, yang memiliki cara dan SD berbeda, akankah Anda Normalisasi, Standarisasi, atau yang lainnya? Satu orang mengatakan kepada saya itu hanya masalah mengambil setiap metrik dan membaginya dengan SD mereka, secara individual. Kemudian menjumlahkan keduanya. Dan itu akan menghasilkan skor universal yang dapat digunakan untuk menilai kedua metrik.
Misalnya, Anda memiliki jumlah orang yang naik kereta bawah tanah ke tempat kerja (di NYC) dan jumlah orang yang menyetir ke tempat kerja (di NYC).
Jika Anda ingin membuat skor universal untuk melaporkan fluktuasi lalu lintas dengan cepat, Anda tidak bisa menambahkan dan karena akan ada BANYAK lebih banyak orang yang naik kereta. Ada 8 juta orang yang tinggal di NYC, ditambah turis. Itu jutaan orang naik kereta setiap hari ayat ratusan ribu orang di mobil. Jadi mereka perlu ditransformasikan ke skala yang sama agar dapat dibandingkan.
Jika
dan
Apakah Anda akan menormalisasi & lalu menjumlahkan? Apakah Anda akan menstandarkan & lalu menjumlahkan? Atau apakah Anda akan membagi masing-masing dengan SD masing-masing kemudian menjumlahkan? Untuk mendapatkan nomor yang berfluktuasi, merupakan fluktuasi total lalu lintas.
Artikel atau bab buku apa pun untuk referensi akan sangat dihargai. TERIMA KASIH!
Juga inilah contoh lain dari apa yang saya coba lakukan.
Bayangkan Anda seorang dekan perguruan tinggi, dan Anda sedang mendiskusikan persyaratan penerimaan. Anda mungkin menginginkan siswa dengan setidaknya IPK tertentu dan skor tes tertentu. Alangkah baiknya jika mereka berdua dalam skala yang sama karena Anda bisa menambahkan keduanya bersama-sama dan berkata, "siapa pun dengan setidaknya 7,0 dapat diterima." Dengan begitu, jika seorang calon siswa memiliki IPK 4,0, mereka bisa mendapatkan skor tes 3,0 dan masih diterima. Sebaliknya, jika seseorang memiliki IPK 3.0, mereka masih bisa diterima dengan skor tes 4.0.
Tapi tidak seperti itu. ACT berada pada skala 36 poin dan sebagian besar IPK berada di 4.0 (ada yang 4.3, ya menyebalkan). Karena saya tidak bisa hanya menambahkan ACT dan IPK untuk mendapatkan semacam skor universal, bagaimana saya bisa mengubahnya sehingga mereka dapat ditambahkan, sehingga menciptakan skor penerimaan universal. Dan sebagai Dekan, saya bisa secara otomatis menerima siapa pun dengan skor di atas ambang tertentu. Atau bahkan secara otomatis menerima semua orang yang nilainya berada di atas 95% .... hal-hal semacam itu.
Apakah itu normalisasi? standardisasi? atau hanya membagi masing-masing dengan SD mereka lalu menjumlahkan?
Jawaban:
Normalisasi mengubah nilai menjadi kisaran [0,1]. Ini mungkin berguna dalam beberapa kasus di mana semua parameter harus memiliki skala positif yang sama. Namun, outlier dari kumpulan data hilang.
Standardisasi menskala ulang data untuk memiliki rata-rata ( ) 0 dan standar deviasi ( ) 1 (varian unit).μ σ
Untuk sebagian besar aplikasi standardisasi dianjurkan.
sumber
Dalam dunia bisnis, "normalisasi" biasanya berarti kisaran nilai "dinormalisasi mulai dari 0,0 hingga 1,0". "Standarisasi" biasanya berarti bahwa kisaran nilai "terstandarisasi" untuk mengukur berapa standar deviasi yang nilainya dari rata-rata. Namun, tidak semua orang akan setuju dengan itu. Yang terbaik adalah menjelaskan definisi Anda sebelum Anda menggunakannya.
Bagaimanapun, transformasi Anda perlu memberikan sesuatu yang bermanfaat.
Dalam contoh kereta / mobil Anda, apakah Anda memperoleh sesuatu karena mengetahui berapa banyak standar deviasi dari nilai rata-rata mereka, masing-masing nilainya terletak? Jika Anda memplot tindakan "standar" tersebut terhadap satu sama lain sebagai plot xy, Anda mungkin melihat korelasi (lihat grafik pertama di sebelah kanan):
http://en.wikipedia.org/wiki/Correlation_and_dependence
Jika demikian, apakah itu ada artinya bagi Anda?
Sejauh contoh kedua Anda, jika Anda ingin "menyamakan" IPK dari satu skala ke skala lain, apa kesamaan timbangan ini? Dengan kata lain, bagaimana Anda mengubah minimum menjadi setara, dan maksimum menjadi setara?
Berikut ini contoh "normalisasi":
Tautan Normalisasi
Setelah Anda mendapatkan skor IPK dan ACT dalam bentuk yang dapat dipertukarkan, apakah masuk akal untuk menimbang skor ACT dan IPK secara berbeda? Jika demikian, bobot apa yang berarti bagi Anda?
Sunting 1 (05/03/2011) ========================================= =
Pertama, saya akan memeriksa tautan yang disarankan oleh whuber di atas. Intinya adalah, di kedua masalah dua variabel Anda, Anda harus datang dengan "kesetaraan" dari satu variabel versus yang lain. Dan, cara untuk membedakan satu variabel dari yang lain. Dengan kata lain, bahkan jika Anda dapat menyederhanakan ini menjadi hubungan linier sederhana, Anda akan memerlukan "bobot" untuk membedakan satu variabel dari yang lain.
Berikut adalah contoh masalah dua variabel:
Utilitas Multi-Atribut
Dari halaman terakhir, jika Anda dapat mengatakan bahwa lalu lintas kereta standar
U1(x)
versus lalu lintas mobil terstandarisasiU2(y)
adalah "tidak tergantung secara independen", maka Anda mungkin dapat lolos dengan persamaan sederhana seperti:Di mana k1 = 0,5 berarti Anda tidak mempedulikan lalu lintas mobil / kereta standar. Semakin tinggi k1 berarti lalu lintas kereta
U1(x)
lebih penting.Namun, jika kedua variabel ini tidak "independen secara aditif", maka Anda harus menggunakan persamaan yang lebih rumit. Satu kemungkinan ditampilkan di halaman 1:
Dalam kedua kasus tersebut, Anda harus membuat utilitas
U(x, y)
yang masuk akal.Konsep pembobotan / perbandingan umum yang sama berlaku untuk masalah IPK / ACT Anda. Bahkan jika mereka "dinormalisasi" daripada "standar".
Satu masalah terakhir. Saya tahu Anda tidak akan menyukai ini, tetapi definisi dari istilah "additive independent" ada di halaman 4 dari tautan berikut. Saya mencari definisi yang kurang culun, tetapi saya tidak dapat menemukannya. Anda mungkin mencari-cari sesuatu yang lebih baik.
Independen secara positif
Mengutip tautan:
Seperti yang disarankan di bagian atas respons ini, jika Anda memplot lalu lintas kereta standar versus lalu lintas mobil terstandarisasi pada petak xy, Anda mungkin melihat korelasi. Jika demikian, maka Anda terjebak dengan persamaan utilitas non-linear di atas atau yang serupa.
sumber
Jawabannya sederhana, tetapi Anda tidak akan menyukainya: itu tergantung. Jika Anda menilai 1 standar deviasi dari kedua skor secara sama, maka standarisasi adalah cara yang harus dilakukan (perhatikan: sebenarnya, Anda sedang membuat siswa , karena Anda membaginya dengan perkiraan SD populasi).
Jika tidak, kemungkinan standardisasi akan menjadi langkah pertama yang baik, setelah itu Anda dapat memberi bobot lebih pada salah satu skor dengan mengalikannya dengan faktor yang dipilih dengan baik.
sumber
Untuk menyelesaikan masalah IPK / ACT atau kereta / mobil, mengapa tidak menggunakan Geometric Mean ?
n√ (a1 × a2 × ... × an)
Di mana
a*
nilai dari distribusi dann
merupakan indeks distribusi.Mean geometrik ini memastikan bahwa setiap nilai mengeluarkan skalanya, memberikan kontribusi yang sama untuk nilai rata-rata. Lihat selengkapnya di Mean Geometris
sumber
Di bidang saya, ilmu data, normalisasi adalah transformasi data yang memungkinkan perbandingan data hilir dengan mudah. Ada banyak jenis normalisasi. Scaling menjadi salah satunya. Anda juga dapat mencatat data, atau melakukan hal lain yang Anda inginkan. Jenis normalisasi yang Anda gunakan akan tergantung pada hasil yang Anda inginkan, karena semua normalisasi mengubah data menjadi sesuatu yang lain.
Berikut beberapa contoh normalisasi yang saya anggap. Penskalaan normalisasi Kuantisasi normal
sumber