Dapatkah CDF dari data bersilangan dengan CDF lain

8

Diberikan dua set data bilangan real positif X dan Y, keduanya dengan ukuran yang sama, dan 0 <= Y <= X untuk setiap baris; dapatkah CDF empiris X pernah melewati CDF empiris Y?

distributions cdf sheppa28
sumber

4

PDF empiris, $\hat{F}(t)$ adalah proporsi sampel pada atau di bawah $t$ .

Pertimbangkan memesan baris Anda dengan meningkatkan $y$ (dan pada nilai tetap $y$ , memesan dengan meningkatkan $x$ ).

Kemudian untuk setiap baris tersebut (baris $i$ , katakanlah), ketinggian setiap cdf adalah $i/n$ *, dan absis yang sesuai untuk sampel-x selalu di sebelah kanan absis untuk sampel-y. Langkah-fungsi dapat bertepatan, tetapi x-sample ecdf tidak akan pernah berada di atas / kiri dari y-sample ecdf.

masukkan deskripsi gambar di sini

Memang, bayangkan kita "menggambar di plot" semua lompatan vertikal di ecdf. Kemudian garis horizontal ditarik melintasi plot pada beberapa nilai $F$ akan menyerang langkah-langkah ecdf pada nilai tertentu $y$ dan $x$ yang muncul di tabel kami mencantumkan nilai sampel dalam urutan (memang, untuk nilai yang diberikan dari $F$ , mudah untuk menentukan baris mana yang akan digunakan $^\dagger$ ), yang selalu memiliki $y_i\leq x_i$ .

* (ini sedikit lebih rumit ketika ada nilai duplikat, tetapi tidak dengan cara yang mengubah argumen secara substantif)

$\dagger$ Untuk garis horizontal abu-abu di plot ( $F\approx 0.481$ ), ia menyerang lompatan vertikal ecdf di $t_y=194.4503$ dan $t_x=200.0431$ yang terjadi di baris ke-73 tabel data ketika diurutkan seperti ditunjukkan sebelumnya.

Glen_b -Reinstate Monica
sumber

2

Jawaban Glen_b benar, tapi saya pikir ada cara yang lebih sederhana untuk menunjukkan ini.

ECDF adalah sebidang ( $x$ , proporsi nilai pada atau di bawah $x$ ). Kita mulai dengan mengurutkan nilai-nilai dalam urutan menaik: panggil mereka $x_1, x_2, \ldots, x_n$ dan $y_1, y_2, \ldots, y_n$ . Selanjutnya, dari pertanyaan Anda, kami tahu bahwa kedua vektor itu sama panjang dan $y_i \ge x_i$ untuk setiap indeks $i$ .

Sejak $y_1$ lebih besar atau sama dengan $x_1$ , $y_1$ harus berada di atau di sebelah kanan $x_1$ dan, karena mereka adalah poin terkecil dalam daftar, mereka berdua memiliki tinggi / koordinat y $\frac{1}{n}$ . Kedua kurva bergerak ke atas pada laju yang sama ( $\frac{1}{n}$ per langkah) dan ke kanan. Namun sejak itu $y_i > x_i$ , itu $Y$ kurva bergerak setidaknya sejauh ke kanan seperti $X$ kurva pada setiap langkah.

Sejak $Y$ kurva dimulai pada atau keluar di sebelah kanan $X$ kurva dan setiap pembaruan yang dilakukan mendesak $Y$ setidaknya sejauh ke kanan $X$ , kurva tidak pernah silang.

Matt Krause
sumber

0

Hanya formalisasikan apa yang ditulis di atas:

Jika CDF emperikal ditulis sebagai $F_X$ dan $F_Y$ masing-masing, lalu

$F_X(x) = \frac{1}{n} \sum_{x_i} I(x_i \leq x)$ dan juga $F_Y(x) = \frac{1}{n} \sum_{y_i} I(y_i \leq x)$ .

Sekarang, untuk apa saja $x$ , kita bisa tunjukkan itu $I(x_i \leq x) \leq I(y_i \leq x)$ . Buktikan ini dengan kontradiksi - Misalkan ada $x$ di mana ini tidak berlaku dan menunjukkan bahwa harus ada pasangan $(x_i, y_i)$ untuk itu $y_i > x_i$ .

Jadi, $F_X(x) \leq F_Y(x)$ untuk semua $x$ .

Catatan: Ada beberapa asumsi implisit dalam demonstrasi ini bahwa jumlah titik data terbatas. Saya kira dimungkinkan untuk memiliki set data tak terbatas dengan ukuran yang sama (yaitu kardinalitas). Saya cukup yakin hasilnya berlaku, tetapi jauh lebih tidak yakin tentang bukti hasil seperti itu.

Jonathan
sumber

Dengan banyak titik data yang tak terhingga, bagaimana tepatnya Anda mendefinisikan CDF empiris?

whuber

Dapatkah CDF dari data bersilangan dengan CDF lain

Jawaban: