Bagaimana cara menghitung penaksir skala Qn Rousseeuw's dan Croux '(1993) untuk sampel besar?

Biarkan $Q_n = C_n.\{|X_i-X_j|;i < j\}_{(k)}$ jadi untuk sampel yang sangat singkat seperti $\{1,3,6,2,7,5\}$ dapat dihitung dari menemukan urutan $k$ statis dari perbedaan berpasangan:

    7 6 5 3 2 1
1   6 5 4 2 1
2   5 4 3 1
3   4 3 2
5   2 1
6   1
7

h = [n / 2] + 1 = 4

k = h (h-1) / 2 = 8

Jadi $Q_n=C_n. 2$

Jelas untuk sampel besar mengatakan terdiri dari 80.000 catatan, kami membutuhkan memori yang sangat besar.

Apakah ada pula untuk menghitung dalam ruang 1D bukan 2D? $Q_n$

Tautan ke jawaban ftp://ftp.win.ua.ac.be/pub/preprints/92/Timeff92.pdf meskipun saya tidak dapat memahaminya sepenuhnya.

data-transformation scales robust optimal-scaling K-1
sumber

OK, jawaban untuk orang-orang yang akan membaca ini nanti: jika Anda hanya ingin menghitung penaksir skala yang kuat untuk sepotong data 1-instal versi terbaru R 2-instal paket robustbase 3-siap untuk pergi! tetapi jika Anda mengembangkan kode di luar lingkungan ini, Anda perlu menggunakan median tinggi tertimbang untuk meminimalkan perhitungan yang diperlukan untuk Sn atau Qn.

K-1

Tautan ke kertas tidak berfungsi. Referensi yang tepat (bahkan lebih baik, dengan kutipan informasi yang paling relevan) akan membantu kami menemukan informasi tersebut; karena tidak ada gunanya ketika link mati (seperti yang sering terjadi).

Glen_b -Reinstate Monica

bukankah seharusnya k = h pilih 2 = h (h-1) / 2 = 6 ? Itu tidak mengubah hasil akhirnya.

seekor harimau

mengapa Qn = Cn * 2, mengapa 2? bagaimana cara menghitungnya?

lidox

Jawaban:

Pembaruan: Inti masalahnya adalah bahwa untuk mencapai kompleksitas waktu $O(n\log(n))$ , seseorang perlu dalam urutan penyimpanan $O(n)$ .

Tidak, $O(n\log(n))$ adalah teori batas bawah untuk kompleksitas waktu (lihat (1)) memilih $k^{th}$ elemen antara semua $\frac{n(n-1)}{2}$ mungkin $|x_i - x_j|: 1 \leq i \lt j \leq n$ .

Anda bisa mendapatkan ruang $O(1)$ , tetapi hanya dengan secara naif memeriksa semua kombinasi $x_i-x_j$ dalam waktu $O(n^2)$ .

Berita baiknya adalah Anda dapat menggunakan penaksir skala $\tau$ (lihat (2) dan (3) untuk versi yang ditingkatkan dan beberapa perbandingan waktu), yang diimplementasikan dalam fungsi scaleTau2()dalam Rpaket robustbase. Estimator $\tau$ univariat adalah penduga skala dua langkah (yaitu re-weighted). Ini memiliki efisiensi Gaussian 95 persen, titik rincian 50 persen, dan kompleksitas $O(n)$ waktu dan $O(1)$ ruang (ditambah dapat dengan mudah dibuat 'online', mengurangi setengah dari biaya komputasi dalam penggunaan berulang - meskipun Anda harus menggali ke dalam Rkode untuk mengimplementasikan opsi ini, ini agak mudah dilakukan).

Kompleksitas seleksi dan peringkat dalam X + Y dan matriks dengan kolom diurutkan GN Frederickson dan DB Johnson, Jurnal Ilmu Komputer dan Sistem Volume 24, Edisi 2, April 1982, Halaman 197-208.
Yohai, V. dan Zamar, R. (1988). Perkiraan titik breakdown yang tinggi dari regresi dengan meminimalkan skala yang efisien. Jurnal Asosiasi Statistik Amerika 83 406-413.
Maronna, R. dan Zamar, R. (2002). Perkiraan lokasi dan dispersi yang kuat untuk set data dimensi tinggi. Technometrics 44 307-317

Edit Untuk menggunakan ini

Nyalakan R(gratis dan dapat diunduh dari sini )
Instal paket dengan mengetik:

install.packages("robustbase")

Muat paket dengan mengetik:

library("robustbase")

Muat file data Anda dan jalankan fungsinya:

mydatavector <- read.table("address to my file in text format", header=T)
scaleTau2(mydatavector)

pengguna603
sumber

@ user603: tau yang Anda maksud. Btw mengapa tidak tersebar luas jika memiliki efisiensi statistik dan komputasi yang baik dan titik kerusakan?

Kuarsa

a) Anda dapat menghitung online gila dan median . Dari sana sepele untuk menghitung Tau. b) gangguan bukan ketahanan dan Tau memiliki bias yang mengerikan di hadapan outlier. Anda dapat menemukan lebih banyak argumen yang menentangnya di bagian 5 dari makalah Qn

user603

@ user603 maksud Anda makalah ini? wis.kuleuven.be/stat/robust/papers/publications-1994/…

German Demidov

@ user603 menurut makalah, kurva bias memberitahu kita berapa banyak penaksir dapat berubah karena fraksi kontaminasi yang diberikan.

dan

bias untuk contoh simulasi saya (distribusi normal + 20% dari nilai yang sangat tinggi / rendah), dan tingkat bias sebanding. Mungkin saya mendapatkan sesuatu yang salah, tetapi baik

dan

tampaknya menderita masalah yang sama.

Q_{n}

$Q_n$

S_{n}

$S_n$

S_{n}

$S_n$

Q_{n}

$Q_n$

Demidov Jerman

τ

$\tau$

(Jawaban sangat singkat) Teks untuk berkomentar mengatakan

hindari menjawab pertanyaan dalam komentar.

$Q_n$

EDIT

$Q_n$

Given a large sample $\{x_i\}_{i=1}^N$ divided into time windows of width $n<N$ , $\{x_i\}_{i=t-n+1}^t$ we can apply the $Q_n$ to each time window yielding $N-n+1$ values of the $Q_n$ . Denote these values $\{Q_n^i\}_{i=1}^{N-n+1}$

The algorithm cited here allows to obtain $Q_n^i|Q_n^{i-1}$ at an average cost less than the worst case $O(n\log(n))$ needed to compute $Q_n^i$ from scratch.

This algorithm can however not be used to compute the $Q_n$ of the full original sample $\{x_i\}_{i=1}^N$ . It also needs to maintain an buffer whose size can be as large as $O(n^2)$ (though it is often much smaller).

serv-inc
sumber

While you should not answer in comments, you should also not post comments as answers, and if your answer is only a link, it's not an answer (but might be a comment). If you want it to be an answer rather than a comment, your answer should contain the relevant information in some manner, such as a quote from a properly referenced link, or your own explanation of the important details. If you can, please provide the necessary details; alternatively I can convert this to a comment for you.

Glen_b -Reinstate Monica

@Glen_b: go ahead and convert. Thank you for the clarification.

serv-inc

@user603 The perhaps you could (as in the links in my comment) edit the essential information into the above answer -- as it stands at present it's not within the SE networks guidelines for answers.

Glen_b -Reinstate Monica

No problem, I will! (but it is really late here,)

user603

@user603 Thanks; I'll leave it here for now then

Glen_b -Reinstate Monica

this is my implement of Qn...

I was programming this in C and the result is this:

void bubbleSort(double *datos, int N)
{
 for (int j=0; j<N-1 ;j++)     
  for (int i=j+1; i<N; i++)    
   if (datos[i]<datos[j])      
   {
    double tmp=datos[i];
    datos[i]=datos[j];
    datos[j]=tmp;
   }
}

double  fFactorial(long N)    
{
 double factorial=1.0;

 for (long i=1; i<=N; ++i)
  factorial*=(double)i;

 return factorial;  
}

double fQ_n(double *datos, int N)  // Rousseeuw's and Croux (1993) Qn scale estimator
{
 bubbleSort(datos, N);

 int m=(int)((fFactorial((long)N))/(fFactorial(2)*fFactorial((long)N-2)));

 double D[m];
 //double Cn=2.2219;      //not used now :) constant value https://www.itl.nist.gov/div898/software/dataplot/refman2/auxillar/qn_scale.htm

 int k=(int)((fFactorial((long)N/2+1))/(fFactorial(2)*fFactorial((long)N/2+1-2)));

 int y=0;

 for (int i=0; i<N; i++)
  for (int j=N-1; j>=0; j--)
   if (i<j)
   {
    D[y]=abs(datos[i]-datos[j]);
    y++;
   }

 bubbleSort(D, m);

 return D[k-1];
}

int main(int argc, char **argv)    
{
 double datos[6]={1,2,3,5,6,7};
 int N=6;

 // Priting in terminal the final solution
 printf("\n==[Results] ========================================\n\n");

 printf(" Q_n=%0.3f\n",fQ_n(datos,N));

 return 0;
}

victor
sumber

Although implementation is often mixed with substantive content in questions, we are supposed to be a site for providing information about statistics, machine learning, etc., not code. It can be good to provide code as well, but please elaborate your substantive answer in text for people who don't read this language well enough to recognize & extract the answer from the code.

gung - Reinstate Monica

This is the naive O(n**2) algorithm~

user603