Saya melempar masalah ini ke sini saat saya menerimanya.
Saya punya dua variabel acak. Salah satunya adalah kontinu (Y) dan yang lainnya diskrit dan akan didekati sebagai ordinal (X). Saya meletakkan di bawah plot yang saya terima bersama dengan kueri.
Orang yang mengirimi saya data ingin mengukur kekuatan hubungan antara X dan Y. Saya mencari ide-ide yang tidak akan dimuat dengan asumsi tentang proses apa yang menghasilkan data. Perhatikan bahwa ini bukan tentang menemukan cara non parametrik untuk menguji kekuatan hubungan (seperti pada bootstrap) tetapi tentang menemukan cara non parametrik untuk mengukurnya .
Di sisi lain, efisiensi bukanlah masalah karena ada banyak titik data.
correlation
nonparametric
ordinal-data
association-measure
pengguna603
sumber
sumber
Jawaban:
Menurut definisi, skala ordinal adalah ukuran di mana jarak sebenarnya antara takikan
1 2 3 4
tidak diketahui. Ini seperti Anda mencari penguasa di bawah narkoba / alkohol. Jarak sebenarnya bisa berupa apa saja. Bisa jadi1 2 3 4
atau1 2 3 4
atau apa pun. Kami tidak dapat menghitung statistik - seperti korelasi - kecuali memutuskan jarak, perbaiki.Salah satu alasannya bisa sebagai berikut. Karena skala pengukuran kami, ukurannya, terdistorsi dengan cara monoton yang tidak diketahui, kami tidak dapat mempercayai nilai data. Hanya urutan besarnya yang dapat dipercaya. Tanpa memanfaatkan otak lebih jauh, nyatakan keteraturan sebagai nilai. Jadi, kami mengganti distribusi yang diamati dengan distribusi seragam, jajaran . Setelah itu, dapat menghitung koefisien asosiasi, katakanlah, Pearson . Itu akan menjadi Spearman , seperti yang kita tahu. Pearson mengukur kekuatan hubungan linier. Pemeringkatan variabel adalah trik untuk melegariskan bagian hubungan monotonik yang dikaitkan dengan distribusi yang pada awalnya tidak seragam. Demikianlah, Spearmanr h o r r h o rr rho r rho adalah ukuran monotonisitas dalam hubungan yang dapat dikonversi menjadi linearitas di bawah tindakan penyeragaman distribusi marginal. Dalam pertanyaan OP, hanya satu dari dua variabel yang ordinal (dan yang kedua adalah kontinu). Jadi, secara umum, tidak perlu untuk menentukan peringkat kedua variabel. Mungkin hanya peringkat yang ordinal dan kemudian menghitung .r
Pendekatan lain , alternatif untuk pemeringkatan (penyeragaman), mungkin skala optimal dari variabel ordinal. Penskalaan optimal adalah prosedur berulang dengan tujuan untuk menemukan jarak tersebut pada skala ordinal - yaitu menemukan transformasi monoton seperti itu - sehingga linear antara variabel dimaksimalkan mungkin. Sementara pendekatan peringkat didasarkan pada premis "berkorespondensi skala sebenarnya data memiliki distribusi seragam", pendekatan skala yang optimal didasarkan pada premis "berkorespondensi skala sebenarnya data memiliki maksimal linearrr r ". Penskalaan optimal dapat dilakukan dalam regresi kategoris (CATREG). Namun, regresi kategorikal mensyaratkan bahwa variabel input lainnya harus diskrit (tidak harus ordinal) dan jadi jika kontinu memiliki banyak nilai unik, maka harus secara biner dipaksakan oleh Anda .
Ada beberapa pendekatan lain juga. Tetapi dengan cara apa pun, kami mengubah skala ordinal secara monoton "untuk ..." (beberapa asumsi atau tujuan), karena skala ordinal terdistorsi kepada kami dengan cara yang tidak diketahui. Secara radikal, keputusan lain adalah "sadar" terlebih dahulu dan memutuskan bahwa itu tidak terdistorsi (yaitu interval), atau terdistorsi dengan cara yang diketahui (tidak adainterval), atau nominal.
Beberapa pendekatan asimetris dapat mencakup regresi ordinal dari variabel ordinal oleh yang lain (interval / kontinu). Atau regresi linear yang terakhir dengan yang ordinal, dengan model di mana prediktor diambil sebagai kontras polinomial (yaitu, dimasukkan sebagai
b1X + b2X^2 + b3X^3,...
). Kelemahan dari pendekatan ini adalah bahwa mereka asimetris: satu variabel dependen, yang lain independen.sumber
Adakah alasan mengapa koefisien korelasi peringkat-urutan Spearman (ukuran hubungan monotonik nonparametrik ) tidak cukup? Apakah monotonicity terlalu "depan dimuat?" Ini didasarkan pada perbedaan ( ) di peringkat yang dibuat secara independen ( dan ) untuk variabel Anda: x i y sayadi=xi−yi xi yi
Jika monotonicity adalah terlalu ketat asumsi, saya ingin tahu apakah pendekatan berdasarkan informasi maksimal, seperti yang diusulkan oleh Reshef (2011, 2013), yang bahkan tidak menganggap fungsional hubungan antara dan mungkin lebih sepanjang garis dari apa yang Anda mencari?YX Y
Referensi
Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M., dan Sabeti, P. (2011). Mendeteksi asosiasi baru dalam kumpulan data besar. Sains , 334 (6062): 1518–1524.
Reshef, D., Reshef, Y., Mitzenmacher, M., dan Sabeti, P. (2013). Analisis kesetaraan dari koefisien informasi maksimal, dengan perbandingan . arXiv , 14 Agustus.
sumber