Saya memiliki empat variabel numerik. Semuanya adalah ukuran kualitas tanah. Semakin tinggi variabel, semakin tinggi kualitasnya. Kisaran untuk semuanya berbeda:
Var1 dari 1 hingga 10
Var2 dari 1000 hingga 2000
Var3 dari 150 hingga 300
Var4 dari 0 hingga 5
Saya perlu menggabungkan empat variabel menjadi skor kualitas tanah tunggal yang akan berhasil menentukan urutan.
Ide saya sangat sederhana. Standarisasi keempat variabel, jumlahkan semuanya dan apa pun yang Anda dapatkan adalah skor yang seharusnya peringkat-urutan. Apakah Anda melihat masalah dengan menerapkan pendekatan ini. Apakah ada pendekatan lain (lebih baik) yang akan Anda rekomendasikan?
Terima kasih
Edit:
Terima kasih kawan Banyak diskusi masuk ke "keahlian domain" ... hal pertanian ... Padahal saya mengharapkan lebih banyak statistik-bicara. Dalam hal teknik yang akan saya gunakan ... Mungkin penjumlahan z-score + regresi logistik sederhana sebagai percobaan. Karena sebagian besar sampel memiliki kualitas buruk 90% saya akan menggabungkan 3 kategori kualitas menjadi satu dan pada dasarnya memiliki masalah biner (kualitas vs tidak ada kualitas). Saya membunuh dua burung dengan satu batu. Saya meningkatkan sampel saya dalam hal tingkat kejadian dan saya menggunakan pakar dengan meminta mereka untuk mengklasifikasikan sampel saya. Sampel yang dikelompokkan oleh para ahli kemudian akan digunakan agar sesuai dengan model log-reg untuk memaksimalkan tingkat kesesuaian / ketidaksesuaian dengan para ahli .... Bagaimana itu terdengar bagi Anda?
Adakah yang melihat ulasan Russell G. Congalton tentang Penilaian Keakuratan Klasifikasi Data yang Dirasakan Secara Jauh '1990? Ini menggambarkan teknik yang dikenal sebagai matriks kesalahan untuk matriks matriks, juga istilah yang ia gunakan yang disebut 'Normalisasi data', di mana seseorang mendapatkan semua vektor yang berbeda dan 'menormalkan' atau menetapkannya sama dengan 0 hingga 1. Anda pada dasarnya mengubah semua vektor menjadi rentang yang sama dari 0 hingga 1.
sumber
Satu hal lain yang tidak Anda diskusikan adalah skala pengukuran. V1 dan V5 terlihat seperti urutan peringkat dan yang lainnya sepertinya tidak. Jadi standardisasi mungkin memiringkan skor. Jadi, Anda mungkin lebih baik mengubah semua variabel menjadi peringkat, dan menentukan bobot untuk setiap variabel, karena sangat tidak mungkin mereka memiliki bobot yang sama. Bobot yang sama lebih merupakan standar "tidak ada apa-apa". Anda mungkin ingin melakukan beberapa analisis korelasi atau regresi untuk menghasilkan beberapa bobot apriori.
sumber
Menindaklanjuti jawaban Ralph Winters, Anda dapat menggunakan PCA (analisis komponen utama) pada matriks skor yang sesuai standar. Ini akan memberi Anda vektor bobot "alami" yang dapat Anda gunakan untuk menggabungkan skor masa depan.
Lakukan ini juga setelah semua skor diubah menjadi peringkat. Jika hasilnya sangat mirip, Anda punya alasan bagus untuk melanjutkan dengan metode mana pun. Jika ada perbedaan, ini akan menimbulkan pertanyaan menarik dan pemahaman yang lebih baik.
sumber