Saya memiliki kumpulan data dan ingin mencari parameter sedemikian sehingga meminimalkan jumlah
itu adalah
optimization
convex-optimization
mayenew
sumber
sumber
Jawaban:
Mungkin Anda meminta bukti bahwa median memecahkan masalah? Nah, ini bisa dilakukan seperti ini:
Tujuannya adalah linear sedikit demi sedikit dan karenanya dapat dibedakan kecuali untuk poin . Apa kemiringan tujuan adalah beberapa titik m ≠ x i ? Nah, kemiringan adalah jumlah dari lereng pemetaan m ↦ | m - x j | dan ini adalah baik + 1 (untuk m > x j ) atau - 1 (untuk m < x j ). Oleh karena itu, kemiringan menunjukkan berapa x i lebih kecil dari mm=xi m≠xi m↦|m−xj| +1 m>xj −1 m<xj xi m . Anda melihat bahwa kemiringan adalah nol jika ada banyak lebih kecil dan lebih besar dari m (untuk dan bahkan jumlah x i ). Jika ada ganjil x i 's maka lereng adalah - 1 kiri 'middlest' satu dan + 1 kanan itu, maka middlest satu adalah minimum.xi m xi xi −1 +1
sumber
Generalisasi masalah ini ke beberapa dimensi disebut masalah median geometris . Seperti yang ditunjukkan David, median adalah solusi untuk kasus 1-D; di sana, Anda bisa menggunakan algoritme seleksi penemuan-median , yang lebih efisien daripada penyortiran. Mengurutkan adalah sedangkan algoritma seleksi adalah O ( n ) ; pengurutan hanya lebih efisien jika beberapa pilihan diperlukan, dalam hal ini Anda dapat mengurutkan (mahal) satu kali, dan kemudian berulang kali memilih dari daftar yang diurutkan.O(nlogn) O(n)
Tautan ke masalah median geometris menyebutkan solusi untuk kasus multidimensi.
sumber
Solusi eksplisit dalam hal median benar, tetapi dalam menanggapi komentar oleh mayenew, berikut adalah pendekatan lain.
Telah diketahui bahwa masalah minimalisasi secara umum, dan masalah yang diposting khususnya, dapat diselesaikan dengan pemrograman linier.ℓ1
Formulasi LP berikut akan dilakukan untuk latihan yang diberikan dengan tidak diketahui :zi,m
sedemikian rupa sehingga: z i ≥ m - x i z i ≥ x i - m
Jelas harus sama | x i - m | minimal, jadi ini meminta jumlah nilai absolut kesalahan untuk diminimalkan.zi |xi−m|
sumber
Cara analisis cembung bertenaga lebih untuk menunjukkan ini hanya mengambil subgradien. Sebenarnya ini setara dengan alasan yang digunakan dalam beberapa jawaban lain yang melibatkan lereng.
sumber
Orang harus memperhatikan bahwa
median
kelompok diskrit tidak didefinisikan secara unik.Selain itu, tidak harus item dalam grup.
sumber