Saya memiliki data yang saya hitung korelasi Spearman dan ingin memvisualisasikannya untuk publikasi. Variabel dependen diberi peringkat, variabel independen tidak. Apa yang ingin saya visualisasikan lebih merupakan tren umum daripada kemiringan aktual, jadi saya memberi peringkat independen dan menerapkan korelasi / regresi Spearman. Tetapi ketika saya merencanakan data saya dan akan memasukkannya ke dalam naskah saya, saya menemukan pernyataan ini (di situs web ini ):
Anda hampir tidak akan pernah menggunakan garis regresi untuk deskripsi atau prediksi ketika Anda melakukan korelasi peringkat Spearman, jadi jangan menghitung setara dengan garis regresi .
dan kemudian
Anda dapat membuat grafik data korelasi peringkat Spearman dengan cara yang sama seperti untuk regresi linier atau korelasi. Namun, jangan letakkan garis regresi pada grafik ; itu akan menyesatkan untuk meletakkan garis regresi linier pada grafik ketika Anda menganalisisnya dengan korelasi peringkat.
Masalahnya, garis regresi tidak jauh berbeda dari ketika saya tidak menentukan peringkat independen dan menghitung korelasi Pearson. Trennya sama, tetapi karena biaya yang sangat tinggi untuk grafik berwarna dalam jurnal saya menggunakan representasi monokrom dan titik data aktual tumpang tindih sehingga tidak dapat dikenali.
Saya bisa mengatasi ini, tentu saja, dengan membuat dua plot yang berbeda: Satu untuk titik data (peringkat) dan satu untuk garis regresi (tidak dirank), tetapi jika ternyata sumber yang saya kutip salah atau masalahnya tidak bermasalah dalam kasus saya, itu akan membuat hidup saya lebih mudah. (Saya juga melihat pertanyaan ini , tetapi itu tidak membantu saya.)
Edit untuk info tambahan:
Variabel independen pada sumbu x mewakili jumlah fitur dan variabel dependen pada sumbu y menunjukkan peringkat jika algoritma klasifikasi bila dibandingkan dalam kinerjanya. Sekarang saya memiliki beberapa algoritma yang sebanding rata-rata, tetapi apa yang ingin saya katakan dengan plot saya adalah sesuatu seperti: "Sementara classifier A menjadi lebih baik semakin banyak fitur yang ada, classifier B lebih baik ketika lebih sedikit fitur yang ada"
Edit 2 untuk memasukkan plot saya:
Jajaran algoritma diplot versus jumlah fitur
Jajaran algoritma diplot versus jumlah peringkat fitur
Jadi, untuk mengulang pertanyaan dari judul:
Apakah saya tetap bisa memplot garis regresi untuk data peringkat korelasi / regresi Spearman?
Jawaban:
Korelasi-peringkat dapat digunakan untuk mengambil hubungan monoton antara varian seperti yang Anda catat; karena itu Anda biasanya tidak akan merencanakan garis untuk itu.
Ada situasi di mana masuk akal untuk menggunakan korelasi peringkat untuk benar-benar cocok dengan numerik-y vs numerik-x, apakah Kendall atau Spearman (atau lainnya). Lihat diskusi (dan khususnya, plot terakhir) di sini .
Tapi itu bukan situasimu. Dalam kasus Anda, saya cenderung hanya menyajikan sebar data asli, mungkin dengan hubungan yang lancar (misalnya oleh LOESS).
Anda mengharapkan hubungan menjadi monoton; Anda mungkin dapat mencoba memperkirakan dan merencanakan hubungan monoton. [Ada fungsi-R yang dibahas di sini yang dapat disesuaikan dengan regresi isotonik - sedangkan contohnya ada unimodal bukan isotonik, fungsinya dapat melakukan kecocokan isotonik.]
Berikut ini contoh hal yang saya maksud:
Plot menunjukkan hubungan monoton antara x dan y; kurva merah adalah smooth loess (dalam hal ini dihasilkan dalam R by
scatter.smooth
), yang juga kebetulan montonic (ada cara untuk mendapatkan smooth fit yang dijamin monotonik, tetapi dalam kasus ini default loess smooth adalah monotonik, jadi Saya tidak merasa perlu khawatir.Plot pangkat (y) vs pangkat (x), menunjukkan hubungan monoton. Garis hijau menunjukkan peringkat kurva yang cocok dengan nilai loess terhadap peringkat (x).
Jika Anda tidak menampilkan apa pun kecuali peringkat (Y) vs X, saya pikir saya akan menghindari menggunakan garis pada plot; sejauh yang saya bisa lihat mereka tidak menyampaikan banyak nilai di atas koefisien korelasi. Dan sudah mengatakan Anda hanya tertarik pada tren.
[Aku tidak tahu bahwa itu salah untuk plot garis regresi pada peringkat-y vs peringkat-x plot, kesulitan akan interpretasinya.]
sumber
sumber