Ukuran non-parametrik dari kekuatan hubungan antara variabel acak ordinal dan kontinu

12

Saya melempar masalah ini ke sini saat saya menerimanya.

Saya punya dua variabel acak. Salah satunya adalah kontinu (Y) dan yang lainnya diskrit dan akan didekati sebagai ordinal (X). Saya meletakkan di bawah plot yang saya terima bersama dengan kueri.

masukkan deskripsi gambar di sini

Orang yang mengirimi saya data ingin mengukur kekuatan hubungan antara X dan Y. Saya mencari ide-ide yang tidak akan dimuat dengan asumsi tentang proses apa yang menghasilkan data. Perhatikan bahwa ini bukan tentang menemukan cara non parametrik untuk menguji kekuatan hubungan (seperti pada bootstrap) tetapi tentang menemukan cara non parametrik untuk mengukurnya .

Di sisi lain, efisiensi bukanlah masalah karena ada banyak titik data.

pengguna603
sumber
1
Apakah X (variabel diskrit) ordinal atau tidak?
Peter Flom - Reinstate Monica
@PeterFlom: Terima kasih. Iya. Saya menambahkan ini ke pertanyaan.
user603
Apakah dengan "nonparametrik" yang Anda maksudkan di sini bahwa tidak ada perhitungan mean atau varians yang diperbolehkan?
ttnphns

Jawaban:

7

Menurut definisi, skala ordinal adalah ukuran di mana jarak sebenarnya antara takikan 1 2 3 4tidak diketahui. Ini seperti Anda mencari penguasa di bawah narkoba / alkohol. Jarak sebenarnya bisa berupa apa saja. Bisa jadi 1 2 3 4atau 1 2 3 4atau apa pun. Kami tidak dapat menghitung statistik - seperti korelasi - kecuali memutuskan jarak, perbaiki.

Salah satu alasannya bisa sebagai berikut. Karena skala pengukuran kami, ukurannya, terdistorsi dengan cara monoton yang tidak diketahui, kami tidak dapat mempercayai nilai data. Hanya urutan besarnya yang dapat dipercaya. Tanpa memanfaatkan otak lebih jauh, nyatakan keteraturan sebagai nilai. Jadi, kami mengganti distribusi yang diamati dengan distribusi seragam, jajaran . Setelah itu, dapat menghitung koefisien asosiasi, katakanlah, Pearson . Itu akan menjadi Spearman , seperti yang kita tahu. Pearson mengukur kekuatan hubungan linier. Pemeringkatan variabel adalah trik untuk melegariskan bagian hubungan monotonik yang dikaitkan dengan distribusi yang pada awalnya tidak seragam. Demikianlah, Spearmanr h o r r h o rrrhorrhoadalah ukuran monotonisitas dalam hubungan yang dapat dikonversi menjadi linearitas di bawah tindakan penyeragaman distribusi marginal. Dalam pertanyaan OP, hanya satu dari dua variabel yang ordinal (dan yang kedua adalah kontinu). Jadi, secara umum, tidak perlu untuk menentukan peringkat kedua variabel. Mungkin hanya peringkat yang ordinal dan kemudian menghitung .r

Pendekatan lain , alternatif untuk pemeringkatan (penyeragaman), mungkin skala optimal dari variabel ordinal. Penskalaan optimal adalah prosedur berulang dengan tujuan untuk menemukan jarak tersebut pada skala ordinal - yaitu menemukan transformasi monoton seperti itu - sehingga linear antara variabel dimaksimalkan mungkin. Sementara pendekatan peringkat didasarkan pada premis "berkorespondensi skala sebenarnya data memiliki distribusi seragam", pendekatan skala yang optimal didasarkan pada premis "berkorespondensi skala sebenarnya data memiliki maksimal linearrrr". Penskalaan optimal dapat dilakukan dalam regresi kategoris (CATREG). Namun, regresi kategorikal mensyaratkan bahwa variabel input lainnya harus diskrit (tidak harus ordinal) dan jadi jika kontinu memiliki banyak nilai unik, maka harus secara biner dipaksakan oleh Anda .

Ada beberapa pendekatan lain juga. Tetapi dengan cara apa pun, kami mengubah skala ordinal secara monoton "untuk ..." (beberapa asumsi atau tujuan), karena skala ordinal terdistorsi kepada kami dengan cara yang tidak diketahui. Secara radikal, keputusan lain adalah "sadar" terlebih dahulu dan memutuskan bahwa itu tidak terdistorsi (yaitu interval), atau terdistorsi dengan cara yang diketahui (tidak adainterval), atau nominal.

Beberapa pendekatan asimetris dapat mencakup regresi ordinal dari variabel ordinal oleh yang lain (interval / kontinu). Atau regresi linear yang terakhir dengan yang ordinal, dengan model di mana prediktor diambil sebagai kontras polinomial (yaitu, dimasukkan sebagai b1X + b2X^2 + b3X^3,...). Kelemahan dari pendekatan ini adalah bahwa mereka asimetris: satu variabel dependen, yang lain independen.

ttnphns
sumber
Terima kasih; ide yang sangat bagus, untuk menghitung peringkat hanya pada satu variabel.
user603
6

Adakah alasan mengapa koefisien korelasi peringkat-urutan Spearman (ukuran hubungan monotonik nonparametrik ) tidak cukup? Apakah monotonicity terlalu "depan dimuat?" Ini didasarkan pada perbedaan ( ) di peringkat yang dibuat secara independen ( dan ) untuk variabel Anda: x i y sayadi=xiyixiyi

rS=16i=1ndi2n(n21)

Jika monotonicity adalah terlalu ketat asumsi, saya ingin tahu apakah pendekatan berdasarkan informasi maksimal, seperti yang diusulkan oleh Reshef (2011, 2013), yang bahkan tidak menganggap fungsional hubungan antara dan mungkin lebih sepanjang garis dari apa yang Anda mencari?YXY


Referensi

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M., dan Sabeti, P. (2011). Mendeteksi asosiasi baru dalam kumpulan data besar. Sains , 334 (6062): 1518–1524.

Reshef, D., Reshef, Y., Mitzenmacher, M., dan Sabeti, P. (2013). Analisis kesetaraan dari koefisien informasi maksimal, dengan perbandingan . arXiv , 14 Agustus.

Alexis
sumber
Keduanya terlihat seperti ide yang sangat bagus. Bahkan, dua pendekatan yang Anda ajukan bahkan saling melengkapi . Saya akan membiarkan pertanyaan terbuka sedikit.
user603