Apakah "oke" untuk memplot garis regresi untuk data peringkat (korelasi Spearman)?

12

Saya memiliki data yang saya hitung korelasi Spearman dan ingin memvisualisasikannya untuk publikasi. Variabel dependen diberi peringkat, variabel independen tidak. Apa yang ingin saya visualisasikan lebih merupakan tren umum daripada kemiringan aktual, jadi saya memberi peringkat independen dan menerapkan korelasi / regresi Spearman. Tetapi ketika saya merencanakan data saya dan akan memasukkannya ke dalam naskah saya, saya menemukan pernyataan ini (di situs web ini ):

Anda hampir tidak akan pernah menggunakan garis regresi untuk deskripsi atau prediksi ketika Anda melakukan korelasi peringkat Spearman, jadi jangan menghitung setara dengan garis regresi .

dan kemudian

Anda dapat membuat grafik data korelasi peringkat Spearman dengan cara yang sama seperti untuk regresi linier atau korelasi. Namun, jangan letakkan garis regresi pada grafik ; itu akan menyesatkan untuk meletakkan garis regresi linier pada grafik ketika Anda menganalisisnya dengan korelasi peringkat.

Masalahnya, garis regresi tidak jauh berbeda dari ketika saya tidak menentukan peringkat independen dan menghitung korelasi Pearson. Trennya sama, tetapi karena biaya yang sangat tinggi untuk grafik berwarna dalam jurnal saya menggunakan representasi monokrom dan titik data aktual tumpang tindih sehingga tidak dapat dikenali.

Saya bisa mengatasi ini, tentu saja, dengan membuat dua plot yang berbeda: Satu untuk titik data (peringkat) dan satu untuk garis regresi (tidak dirank), tetapi jika ternyata sumber yang saya kutip salah atau masalahnya tidak bermasalah dalam kasus saya, itu akan membuat hidup saya lebih mudah. (Saya juga melihat pertanyaan ini , tetapi itu tidak membantu saya.)

Edit untuk info tambahan:

Variabel independen pada sumbu x mewakili jumlah fitur dan variabel dependen pada sumbu y menunjukkan peringkat jika algoritma klasifikasi bila dibandingkan dalam kinerjanya. Sekarang saya memiliki beberapa algoritma yang sebanding rata-rata, tetapi apa yang ingin saya katakan dengan plot saya adalah sesuatu seperti: "Sementara classifier A menjadi lebih baik semakin banyak fitur yang ada, classifier B lebih baik ketika lebih sedikit fitur yang ada"

Edit 2 untuk memasukkan plot saya:

Jajaran algoritma diplot versus jumlah fitur masukkan deskripsi gambar di sini

Jajaran algoritma diplot versus jumlah peringkat fitur masukkan deskripsi gambar di sini

Jadi, untuk mengulang pertanyaan dari judul:

Apakah saya tetap bisa memplot garis regresi untuk data peringkat korelasi / regresi Spearman?

Penjaga
sumber
Berapa banyak kategori yang ada di peringkat? Apakah Anda menguji asumsi proporsionalitas? Ada banyak peneliti yang baik-baik saja dengan memperlakukan data ordinal (misalnya peringkat) sebagai berkelanjutan. Terkadang jika ada banyak kategori, itu masuk akal.
robin.datadrivers
1
Ada tujuh peringkat, mereka digunakan untuk tes Friedman
Sentry

Jawaban:

9

Korelasi-peringkat dapat digunakan untuk mengambil hubungan monoton antara varian seperti yang Anda catat; karena itu Anda biasanya tidak akan merencanakan garis untuk itu.

Ada situasi di mana masuk akal untuk menggunakan korelasi peringkat untuk benar-benar cocok dengan numerik-y vs numerik-x, apakah Kendall atau Spearman (atau lainnya). Lihat diskusi (dan khususnya, plot terakhir) di sini .

Tapi itu bukan situasimu. Dalam kasus Anda, saya cenderung hanya menyajikan sebar data asli, mungkin dengan hubungan yang lancar (misalnya oleh LOESS).

Anda mengharapkan hubungan menjadi monoton; Anda mungkin dapat mencoba memperkirakan dan merencanakan hubungan monoton. [Ada fungsi-R yang dibahas di sini yang dapat disesuaikan dengan regresi isotonik - sedangkan contohnya ada unimodal bukan isotonik, fungsinya dapat melakukan kecocokan isotonik.]

Berikut ini contoh hal yang saya maksud:

masukkan deskripsi gambar di sini

Plot menunjukkan hubungan monoton antara x dan y; kurva merah adalah smooth loess (dalam hal ini dihasilkan dalam R by scatter.smooth), yang juga kebetulan montonic (ada cara untuk mendapatkan smooth fit yang dijamin monotonik, tetapi dalam kasus ini default loess smooth adalah monotonik, jadi Saya tidak merasa perlu khawatir.

masukkan deskripsi gambar di sini
Plot pangkat (y) vs pangkat (x), menunjukkan hubungan monoton. Garis hijau menunjukkan peringkat kurva yang cocok dengan nilai loess terhadap peringkat (x).

y^

Jika Anda tidak menampilkan apa pun kecuali peringkat (Y) vs X, saya pikir saya akan menghindari menggunakan garis pada plot; sejauh yang saya bisa lihat mereka tidak menyampaikan banyak nilai di atas koefisien korelasi. Dan sudah mengatakan Anda hanya tertarik pada tren.

[Aku tidak tahu bahwa itu salah untuk plot garis regresi pada peringkat-y vs peringkat-x plot, kesulitan akan interpretasinya.]

Glen_b -Reinstate Monica
sumber
Terima kasih, jawaban Anda bagus dan dijelaskan dengan baik. Namun itu membuat saya sadar bahwa saya mungkin telah menghilangkan informasi penting. Apakah masih valid dengan informasi tambahan yang saya berikan? Grafik mengikuti nanti hari ini ketika saya berada di PC pekerjaan saya.
Sentry
Lihatlah pembaruan saya dan lihat apakah menurut Anda semua itu bernilai.
Glen_b -Reinstate Monica
Ya, itu bernilai, tetapi lebih dalam arti umum. Saya juga setuju bahwa "kesalahan" berasal dari kesulitan untuk menafsirkan plot. Saya takut orang akan selalu berasumsi bahwa saya ingin memprediksi peringkat dari fitur, bahkan jika saya menyatakan bahwa saya hanya ingin menunjukkan tren .
Sentry
Melihat plot Anda --- Anda menunjukkan peringkat, tetapi apakah Anda memiliki ukuran kinerja asli di mana peringkat didasarkan?
Glen_b -Reinstate Monica
Ya, memang, tapi tidak bisa digunakan di sini, percayalah. Fokus penelitian saya adalah membandingkan algoritme menggunakan uji Friedman, yang memberi peringkatnya. Ada beberapa set data dengan rentang kinerja yang sangat berbeda, jadi hanya perbandingan di antara mereka yang menarik di sini.
Sentry
3

ρXXXYY

Frank Harrell
sumber