Dalam pekerjaan saya, kami membandingkan peringkat yang diprediksi dengan peringkat yang benar untuk beberapa set data. Hingga saat ini, kami telah menggunakan Kendall-Tau sendirian. Sekelompok yang mengerjakan proyek serupa menyarankan agar kami mencoba menggunakan Goodman-Kruskal Gamma sebagai gantinya, dan mereka lebih menyukainya. Saya bertanya-tanya apa perbedaan antara algoritma korelasi peringkat yang berbeda.
Jawaban terbaik yang saya temukan adalah jawaban ini , yang mengklaim Spearman digunakan sebagai pengganti korelasi linear biasa, dan bahwa Kendall-Tau kurang langsung dan lebih mirip dengan Goodman-Kruskal Gamma. Data yang saya kerjakan tampaknya tidak memiliki korelasi linier yang jelas, dan data tersebut sangat miring dan tidak normal.
Juga, Spearman umumnya melaporkan korelasi yang lebih tinggi daripada Kendall-Tau untuk data kami, dan saya bertanya-tanya apa yang dikatakan tentang data itu secara spesifik. Saya bukan ahli statistik, jadi beberapa makalah yang saya baca tentang hal-hal ini sepertinya seperti jargon bagi saya, maaf.
Jawaban:
Spearman rho vs Kendall tau . Keduanya sangat berbeda secara komputasi sehingga Anda tidak dapat secara langsung membandingkan besaran mereka. Spearman biasanya lebih tinggi dengan 1/4 hingga 1/3 dan ini membuat orang salah menyimpulkan bahwa Spearman "lebih baik" untuk dataset tertentu. Perbedaan antara rho dan tau adalah dalam ideologi mereka, proporsi varian untuk rho dan probabilitas untuk tau. Rho adalah Pearson r yang biasa diterapkan untuk data peringkat, dan seperti r, lebih sensitif terhadap poin dengan momen besar (yaitu, penyimpangan dari pusat cloud) daripada poin dengan momen kecil. Karena itu rho cukup peka terhadap bentuk awan setelah pemeringkatanselesai: koefisien untuk awan belah ketupat akan lebih tinggi dari koefisien untuk awan berkepala lonjong (karena tepi tajam dari yang pertama adalah momen besar). Tau adalah ekstensi Gamma dan sama-sama sensitif terhadap semua titik data , sehingga kurang sensitif terhadap kekhasan bentuk awan peringkat. Tau lebih "umum" daripada rho, karena rho dijamin hanya ketika Anda percaya hubungan yang mendasar (model, atau fungsional dalam populasi) antara variabel-variabelnya sangat monoton. Sementara Tau memungkinkan untuk kurva yang mendasari nonmonotonik dan ukuran yang "tren" monotonik, positif atau negatif, berlaku di sana secara keseluruhan. Rho sebanding dengan r dalam besarnya; tau tidak.
Kendall tau sebagai Gamma . Tau hanyalah bentuk standar Gamma. Beberapa tindakan terkait semuanya memiliki pembilang tetapi berbeda dalam normalisasi penyebut :P−Q
di mana - jumlah pasangan pengamatan dengan "konkordansi", Q - dengan "inversi"; T x - jumlah ikatan menurut variabel X, T y - oleh variabel Y, T x y - oleh kedua variabel; N - jumlah pengamatan, k - jumlah nilai yang berbeda dalam variabel di mana jumlah ini kurang.P Q Tx Ty Txy N k
Dengan demikian, tau secara langsung dapat dibandingkan secara teori dan besarnya dengan Gamma. Rho secara langsung dapat dibandingkan secara teori dan besarnya dengan Pearson . Jawaban Nick Stauner yang bagus di sini menceritakan bagaimana mungkin membandingkan rho dan tau secara tidak langsung.r
Lihat juga tentang tau dan rho.
sumber
Berikut ini kutipan dari Andrew Gilpin (1993) yang mengadvokasi Maurice Kendall atas Spearman ρ untuk alasan teoretis:τ ρ
Saya tidak bisa menambahkan banyak tentang Goodman-Kruskal , selain itu tampaknya menghasilkan perkiraan yang sedikit lebih besar dari pada Kendallγ dalam sampel data survei yang telah saya kerjakan belakangan ini ... dan tentu saja, terasa perkiraan lebih rendah dari Spearman ρ . Namun, saya juga mencoba menghitung beberapaperkiraan γ parsial(Foraita & Sobotka, 2012), dan yang keluar lebih dekat ke ρ parsialdaripada τ parsial... Butuh waktu pemrosesan yang cukup lama, jadi saya akan pergi tes simulasi atau perbandingan matematis dengan orang lain ... (siapa yang tahu bagaimana melakukannya ...)τ ρ γ ρ τ
Seperti yang disiratkan oleh ttnphns , Anda tidak dapat menyimpulkan bahwa estimasi Anda lebih baik daripada estimasi τ Anda dengan besarnya saja, karena skala mereka berbeda (meskipun batasnya tidak). Gilpin mengutip Kendall (1962) yang menggambarkan rasio ρ ke τ sekitar 1,5 dari sebagian besar kisaran nilai. Mereka semakin dekat secara bertahap ketika besaran mereka meningkat, sehingga ketika keduanya mendekati 1 (atau -1), perbedaannya menjadi sangat kecil. Gilpin memberikan tabel besar yang bagus dari nilai-nilai ekuivalen ρ , r , r 2 , d , dan Z r ke digit ketiga untuk τρ τ ρ τ ρ r r2 Zr τ pada setiap kenaikan 0,01 di kisarannya, sama seperti yang Anda harapkan untuk melihat di dalam sampul buku teks statistik intro. Dia mendasarkan nilai-nilai itu pada formula khusus Kendall, yaitu sebagai berikut:
(Saya menyederhanakan rumus ini untukρdari bentuk di mana Gilpin menulis, yang dalam hal Pearson'sr.)
Mungkin masuk akal untuk mengubah Anda menjadi ρτ ρ dan melihat bagaimana perubahan komputasi memengaruhi estimasi ukuran efek Anda. Tampaknya perbandingan akan memberikan beberapa indikasi sejauh mana masalah Spearman lebih sensitif hadir dalam data Anda, jika sama sekali. Metode yang lebih langsung pasti ada untuk mengidentifikasi setiap masalah spesifik secara individual; saran saya akan menghasilkan lebih banyak ukuran efek omnibus cepat dan kotor untuk masalah tersebut. Jika tidak ada perbedaan (setelah mengoreksi perbedaan dalam skala), maka orang mungkin berpendapat tidak perlu mencari lebih lanjut untuk masalah yang hanya berlaku untuk ρρ ρ . Jika ada perbedaan besar, maka mungkin saatnya untuk mengeluarkan lensa pembesar untuk menentukan apa yang bertanggung jawab.
Saya tidak yakin bagaimana orang biasanya melaporkan ukuran efek ketika menggunakan Kendall'sτ (sayangnya sejauh yang orang khawatir tentang melaporkan ukuran efek secara umum), tetapi karena nampaknya pembaca yang tidak terbiasa akan mencoba menafsirkannya pada skala Pearson's. , mungkin bijaksana untuk melaporkan statistik τ Anda dan ukuran efeknya pada skala r menggunakan rumus konversi di atas ... atau setidaknya tunjukkan perbedaan skala dan berikan teriakan kepada Gilpin untuk tabel konversi yang berguna .r τ r
Referensi
Foraita, R., & Sobotka, F. (2012). Validasi model grafis. Paket gmvalid, v1.23. Jaringan Arsip R Komprehensif. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf
Gilpin, AR (1993). Tabel untuk konversi Kendall's Tau ke Spearman's Rho dalam konteks mengukur besarnya efek untuk meta-analisis. Pengukuran Pendidikan dan Psikologis, 53 (1), 87-92.
Kendall, MG (1962). Metode korelasi peringkat (edisi ke-3). London: Griffin.
sumber
sumber
Spearman's ρ is related to the probability of majority concordance among random triplets of observations
lebih terinci, tidak terlalu sulit secara matematis, jika memungkinkan? Terima kasih.