Bisakah seseorang menjelaskan saya menghapus logika matematika yang akan menghubungkan dua pernyataan (a) dan (b) bersama? Mari kita punya satu set nilai (beberapa distribusi). Sekarang,
a) Median tidak tergantung pada setiap nilai [itu hanya tergantung pada satu atau dua nilai tengah]; b. Median adalah lokus penyimpangan minimum absolut darinya.
Dan juga, dan sebaliknya,
a) (Aritmatika) rata-rata tergantung pada setiap nilai; b) Mean adalah lokus jumlah minimum penyimpangan kuadrat darinya.
Peganganku tentang hal itu sejauh ini intuitif.
mean
median
robust
sensitivity-analysis
ttnphns
sumber
sumber
Jawaban:
Ini adalah dua pertanyaan: satu tentang bagaimana mean dan median meminimalkan fungsi kerugian dan satu lagi tentang sensitivitas estimasi ini terhadap data. Kedua pertanyaan itu saling terhubung, seperti yang akan kita lihat.
Meminimalkan Kerugian
Ringkasan (atau penaksir) pusat kumpulan angka dapat dibuat dengan membiarkan nilai ringkasan berubah dan membayangkan bahwa setiap angka dalam kumpulan mengerahkan kekuatan pemulihan pada nilai itu. Ketika gaya tidak pernah mendorong nilai menjauh dari angka, maka bisa dibilang setiap titik di mana keseimbangan gaya adalah "pusat" dari bets.
Kehilangan kuadratik ( )L.2
Misalnya, jika kita melampirkan pegas klasik (mengikuti Hukum Hooke ) antara ringkasan dan masing-masing angka, gaya akan sebanding dengan jarak ke setiap pegas. Mata air akan menarik ringkasan dengan cara ini dan itu, akhirnya menetap di lokasi stabil energi minimum yang unik.
Saya ingin menarik perhatian ke sulap kecil yang baru saja terjadi: energi sebanding dengan jumlah jarak kuadrat . Mekanika Newton mengajarkan kepada kita bahwa gaya adalah laju perubahan energi. Mencapai keseimbangan - meminimalkan energi - menghasilkan keseimbangan kekuatan. Tingkat perubahan bersih dalam energi adalah nol.
Sebut saja ini " ringkasan ," atau "ringkasan kerugian kuadrat."L.2
Kehilangan Mutlak ( )L.1
Ringkasan lain dapat dibuat dengan mengandaikan ukuran kekuatan pemulih adalah konstan , terlepas dari jarak antara nilai dan data. Namun, gaya itu sendiri tidak konstan, karena mereka harus selalu menarik nilai ke setiap titik data. Jadi, ketika nilainya kurang dari titik data gaya diarahkan positif, tetapi ketika nilainya lebih besar dari titik data gaya diarahkan negatif. Sekarang energi sebanding dengan jarak antara nilai dan data. Biasanya akan ada seluruh wilayah di mana energi konstan dan gaya totalnya nol. Nilai apa pun di wilayah ini yang kami sebut " ringkasan " atau "ringkasan kehilangan absolut."L.1
Analogi fisik ini memberikan intuisi yang berguna tentang dua ringkasan. Misalnya, apa yang terjadi pada ringkasan jika kita memindahkan salah satu titik data? Dalam kasus dengan pegas yang terpasang, memindahkan satu titik data akan meregangkan atau mengendurkan pegasnya. Hasilnya adalah perubahan yang berlaku pada ringkasan, sehingga harus berubah sebagai respons. Tetapi dalam kasus , sebagian besar waktu perubahan dalam titik data tidak melakukan apa pun pada ringkasan, karena gaya bersifat konstan secara lokal. Satu-satunya cara kekuatan dapat berubah adalah agar titik data bergerak melintasi ringkasan.L 1L.2 L.1
(Faktanya, harus jelas bahwa gaya total pada suatu nilai diberikan oleh jumlah poin yang lebih besar dari itu - yang menariknya ke atas - minus jumlah poin lebih sedikit dari itu - yang menariknya ke bawah. Dengan demikian, yang Ringkasan harus terjadi pada setiap lokasi di mana jumlah nilai data melebihi itu persis sama dengan jumlah nilai data kurang dari itu.)L.1
Menggambarkan Kerugian
Karena kedua kekuatan dan energi bertambah, dalam kedua kasus ini kita dapat menguraikan energi bersih menjadi kontribusi individu dari titik data. Dengan grafik energi atau gaya sebagai fungsi dari nilai ringkasan, ini memberikan gambaran rinci tentang apa yang terjadi. Ringkasan akan menjadi lokasi di mana energi (atau "kerugian" dalam bahasa statistik) adalah yang terkecil. Secara ekuivalen, itu akan menjadi lokasi di mana kekuatan menyeimbangkan: pusat data terjadi di mana perubahan bersih dalam kerugian adalah nol.
Gambar ini menunjukkan energi dan kekuatan untuk dataset kecil dengan enam nilai (ditandai dengan garis vertikal samar di setiap plot). Kurva hitam putus-putus adalah total dari kurva berwarna yang menunjukkan kontribusi dari nilai-nilai individual. Sumbu x menunjukkan kemungkinan nilai ringkasan.
Rata- rata aritmatika adalah titik di mana kerugian kuadrat diminimalkan: itu akan terletak di puncak (bawah) parabola hitam di plot kiri atas. Itu selalu unik. The median adalah titik di mana kerugian mutlak diminimalkan. Seperti disebutkan di atas, itu harus terjadi di tengah data. Itu belum tentu unik. Ini akan terletak di bagian bawah kurva hitam yang rusak di kanan atas. (Bottom sebenarnya terdiri dari bagian datar pendek antara dan ; setiap nilai dalam interval ini adalah median.)- 0,17- 0,23 - 0,17
Menganalisis Sensitivitas
Sebelumnya saya menjelaskan apa yang bisa terjadi pada ringkasan ketika suatu titik data bervariasi. Penting untuk merencanakan bagaimana ringkasan berubah sebagai respons terhadap perubahan setiap titik data tunggal. (Plot-plot ini pada dasarnya adalah fungsi pengaruh empiris . Mereka berbeda dari definisi yang biasa dalam hal mereka menunjukkan nilai aktual dari perkiraan daripada berapa banyak nilai-nilai itu diubah.) Nilai ringkasan dilabeli oleh "Perkirakan" pada y -saya untuk mengingatkan kita bahwa ringkasan ini memperkirakan di mana letak tengah dataset. Nilai (yang diubah) baru dari setiap titik data ditunjukkan pada sumbu x.
Gambar ini menyajikan hasil memvariasikan masing-masing nilai data dalam batch (yang sama dianalisis pada gambar pertama). Ada satu plot untuk setiap nilai data, yang disorot pada plotnya dengan centang hitam panjang di sepanjang sumbu bawah. (Nilai data yang tersisa ditunjukkan dengan kutu abu-abu pendek.) Kurva biru menelusuri ringkasan - rata-rata aritmatika - dan kurva merah menelusuri ringkasan - median. (Karena sering median adalah rentang nilai, konvensi merencanakan tengah rentang tersebut diikuti di sini.)L 2 L 1- 1,02 , - 0,82 , - 0,23 , - 0,17 , - 0,08 , 0,77 L.2 L.1
Memperhatikan:
Sensitivitas rata-rata tidak terbatas: garis-garis biru itu memanjang jauh ke atas dan ke bawah. Sensitivitas median dibatasi: ada batas atas dan bawah pada kurva merah.
Meskipun median berubah, ia berubah jauh lebih cepat daripada rata-rata. Kemiringan setiap garis biru adalah (umumnya untuk dataset dengan nilai ), sedangkan kemiringan bagian miring dari garis merah semuanya .1 / n n 1 / 21 / 6 1 / n n 1 / 2
Rerata sensitif terhadap setiap titik data dan sensitivitas ini tidak memiliki batas (seperti kemiringan nol dari semua garis berwarna di plot kiri bawah gambar pertama menunjukkan). Meskipun median sensitif terhadap setiap titik data, sensitivitasnya dibatasi (itulah sebabnya kurva berwarna di plot kanan bawah gambar pertama terletak dalam kisaran vertikal sempit di sekitar nol). Ini, tentu saja, hanyalah pengulangan visual dari kekuatan dasar (kehilangan) hukum: kuadrat untuk mean, linier untuk median.
Interval di mana median dapat dibuat untuk berubah dapat bervariasi di antara titik data. Itu selalu dibatasi oleh dua nilai dekat-menengah di antara data yang tidak bervariasi . (Batas-batas ini ditandai oleh garis putus-putus vertikal samar.)
Karena laju perubahan median selalu , jumlah yang dapat bervariasi karenanya ditentukan oleh panjangnya kesenjangan antara nilai-nilai dekat-menengah dari dataset.1 / 2
Meskipun hanya poin pertama yang umum dicatat, keempat poin itu penting. Khususnya,
Jelas salah bahwa "median tidak bergantung pada setiap nilai." Angka ini memberikan contoh tandingan.
Namun demikian, median tidak bergantung "secara material" pada setiap nilai dalam arti bahwa meskipun mengubah nilai individu dapat mengubah median, jumlah perubahan dibatasi oleh kesenjangan antara nilai-nilai hampir menengah dalam dataset. Secara khusus, jumlah perubahan dibatasi . Kami mengatakan bahwa median adalah ringkasan "tahan".
Meskipun rata-rata tidak tahan , dan akan mengubah setiap kali setiap nilai data berubah, tingkat perubahan relatif kecil. Semakin besar dataset, semakin kecil tingkat perubahannya. Secara setara, untuk menghasilkan perubahan material dalam rata-rata dataset yang besar, setidaknya satu nilai harus menjalani variasi yang relatif besar. Ini menunjukkan bahwa non-resistance dari mean hanya menjadi perhatian untuk (a) dataset kecil atau (b) dataset di mana satu atau lebih data mungkin memiliki nilai yang sangat jauh dari tengah batch.
Pernyataan ini - yang saya harap angka-angkanya menjadi jelas - mengungkapkan hubungan yang mendalam antara fungsi kerugian dan sensitivitas (atau resistensi) dari estimator. Untuk lebih lanjut tentang ini, mulailah dengan salah satu artikel Wikipedia tentang penduga-M dan kemudian kejar ide-ide itu sejauh yang Anda suka.
Kode
R
Kode ini menghasilkan angka-angka dan dapat dengan mudah dimodifikasi untuk mempelajari dataset lain dengan cara yang sama: cukup ganti vektor yang dibuat secara acaky
dengan vektor angka apa pun.sumber
Untuk perhitungan median, misalkan menjadi datanya. Asumsikan, untuk kesederhanaan, bahwa adalah genap, dan poinnya berbeda! Mari ada beberapa nomor. Biarkan menjadi 'jumlah penyimpangan mutlak' dari ke poin . Ini berarti bahwa. Tujuan Anda adalah untuk menemukan yang meminimalkan . Biarkan menjadi jumlah yang kurang dari atau sama persis dengan pada titik waktu tertentu, dan mari menjadi angka yang benar-benar lebih besar darix1, x2, ... , xn n y f( y) y xsaya f( y) = | x1- y| + | x2- y| +...+ | xn- y| y f( y) l xsaya y r = n - l y . Berpura-puralah Anda 'bergerak ke kanan', yaitu, tambah sedikit . Apa yang terjadi pada ?y y f( y)
Misalkan Anda menambahkan jumlah ke . Untuk yang kurang dari atau sama dengan , kita memilikimeningkat . Dan untuk yang lebih besar dari , kita memilikiberkurang . (Ini mengasumsikan sangat kecil sehingga tidak menyeberangi salah satu poin). Jadi perubahan adalah . Perhatikan bahwa perubahan dalam ini tidak bergantung pada nilaiΔ y y xsaya y | xsaya- y| Δ y y | xsaya- y| Δ y Δ y y f( y) l Δ y- r Δ y= ( l - r ) Δ y f( y) xsaya tetapi hanya pada angka di sebelah kiri dan kanan . Menurut definisi, adalah nilai median ketika memindahkannya ke kiri atau kanan tidak menambah atau mengurangi . Ini berarti bahwa , dan dengan demikian jumlah di sebelah kiri sama dengan jumlah di sebelah kanan . Dan dengan demikian median tidak tergantung pada nilai-nilai , hanya lokasi mereka.y y f( y) l - r = 0 xsaya y y xsaya
sunting Untuk mean: fungsi menjadi . Jelas perubahan dalam untuk perubahan kecil dalam sekarang tergantung pada besarnya , bukan hanya angka di kiri dan kanan .f( y) f( y) = ( x1- y)2+ ... + ( xn- y)2 f( y) y xsaya y
Perhatikan bahwa bisnis ini tentang 'perubahan kecil' hanyalah pembicaraan rahasia untuk turunan dari ...f( y)
sumber
dan
sumber
Hai di sini adalah kontribusi, setelah saya membacanya sedikit. Mungkin agak terlambat untuk orang yang bertanya, tetapi mungkin layak untuk orang lain.
Untuk kasus rata-rata:
Karena fungsinya cembung, ini adalah minimum
Untuk kasus median
Karena fungsinya juga cembung, ini adalah minimum lagi.
sumber
#
?