Gagasan membuat data memiliki mean nol

12

Saya sering melihat orang membuat dimensi / fitur dataset menjadi nol-rata dengan menghapus rata-rata dari semua elemen. Tetapi saya tidak pernah mengerti mengapa melakukannya? Apa efek dari melakukan itu sebagai langkah preprocessing? Apakah ini meningkatkan kinerja klasifikasi? Apakah ada gunanya menjawab sesuatu tentang dataset? Apakah ada gunanya ketika melakukan visualisasi untuk memahami data?

data-mining dataset Jack Twain
sumber

9

Pendekatan ini disebut pemusatan . Salah satu aplikasinya adalah mengubah intersepsi model regresi menjadi "diprediksi y ketika x rata-rata," membuat intersep sedikit lebih dapat ditafsirkan.

Penguin_Knight

Fitur / dataset terpusat juga bisa dikatakan terkondisi dengan baik . Lihat di sini untuk penjelasan visual. Pengoperasian input normalisasi membuat penurunan gradien jauh lebih mudah.

disetel

12

Beberapa kasus di mana "memusatkan data pada rata-rata" (selanjutnya hanya "de-arti") berguna:

1) Deteksi visual apakah suatu distribusi "sama" dengan distribusi lainnya, hanya saja, sudah bergeser pada garis yang sebenarnya. Membuat kedua distribusi memiliki mean nol, menjadikan inspeksi visual ini jauh lebih mudah. Kadang-kadang, jika nilai rata-rata berbeda banyak, melihatnya pada bagan yang sama tidak praktis. Pikirkan dua rv normal, katakan dan . The bentuk dari grafik kepadatan identik, hanya posisi mereka pada berbeda garis nyata. Sekarang bayangkan Anda memiliki grafik fungsi kerapatan, tetapi Anda tidak tahu variansnya. De-arti mereka akan menempatkan lebih dari satu grafik di atas yang lain. $N(10,4)$ $N(100,4)$

2) Sederhanakan kalkulasi momen-momen yang lebih tinggi: walaupun menambahkan konstanta ke variabel acak tidak mengubah variansnya, atau kovariansnya dengan variabel acak lain, tetap, jika Anda memiliki mean nol, dan Anda harus menuliskan perhitungan terperinci, Anda harus menulis semua persyaratan dan menunjukkan bahwa mereka membatalkan. Jika variabel didefinisiasikan, Anda menyimpan banyak perhitungan tidak berguna.

3) Variabel acak yang berpusat pada rata-rata adalah subjek dari Teorema Batas Pusat

4) Penyimpangan dari "nilai rata-rata" dalam banyak kasus adalah masalah yang menarik, dan apakah mereka cenderung "di atas atau di bawah rata-rata", daripada nilai aktual dari variabel acak. "Menerjemahkan" (secara visual dan / atau komputasi) penyimpangan di bawah rata-rata sebagai nilai negatif dan penyimpangan di atas rata-rata sebagai nilai positif, membuat pesan lebih jelas dan lebih kuat.

Untuk diskusi lebih mendalam, lihat juga

Saat melakukan regresi berganda, kapan Anda harus memusatkan variabel prediktor Anda & kapan Anda harus membakukannya?

Memusatkan data dalam regresi berganda

Jika Anda mencari "data terpusat" di CV, Anda juga akan menemukan posting menarik lainnya.

Alecos Papadopoulos
sumber

@OP: Saya pikir jawaban ini harus diterima.

rottweiler

4

Juga, untuk alasan praktis, menguntungkan untuk memusatkan data, misalnya, ketika melatih jaringan saraf.

Idenya adalah bahwa untuk melatih jaringan saraf seseorang harus menyelesaikan masalah optimasi non-cembung menggunakan beberapa pendekatan berbasis gradien. Gradien dihitung dengan cara backpropagation. Sekarang, gradien ini bergantung pada input, dan memusatkan data menghilangkan kemungkinan bias dalam gradien.

Secara konkret, rata-rata non-nol tercermin dalam nilai eigen besar yang berarti bahwa gradien cenderung lebih besar dalam satu arah daripada yang lain (bias) sehingga memperlambat proses konvergensi, akhirnya mengarah ke solusi yang lebih buruk.

jpmuc
sumber

1

Untuk menambah apa yang dikatakan Alecos, yang sangat bagus, memusatkan data Anda pada nol sangat penting ketika menggunakan statistik Bayesian atau regularisasi, karena jika tidak data dapat dikorelasikan dengan intersep, yang membuat regularisasi tidak melakukan apa yang biasanya Anda inginkan.

Membuat data nol rata-rata dapat mengurangi banyak istilah off-diagonal dari matriks kovarians, sehingga membuat data lebih mudah diinterpretasikan, dan koefisien lebih bermakna secara langsung, karena masing-masing koefisien lebih banyak menerapkan faktor tersebut, dan bertindak lebih sedikit melalui korelasi dengan faktor lain.

Joe
sumber

Gagasan membuat data memiliki mean nol

Jawaban: