Koefisien korelasi untuk variabel nominal non-dikotomi dan variabel ordinal atau numerik

Saya sudah membaca semua halaman di situs ini mencoba menemukan jawaban untuk masalah saya tetapi tampaknya tidak ada yang tepat dari saya ...

Pertama saya jelaskan jenis data yang saya kerjakan ...

Katakanlah saya memiliki vektor array dengan beberapa nama kota, satu untuk masing-masing 300 pengguna. Saya juga memiliki vektor array lain dengan skor tanggapan terhadap survei setiap pengguna atau nilai kontinu untuk setiap pengguna.

Saya ingin tahu apakah ada koefisien korelasi yang menghitung korelasi antara kedua variabel ini, variabel nominal dan numerik / ordinal

Saya telah mencari di Internet dan di beberapa halaman mereka menyarankan untuk menggunakan koefisien kontingensi atau Cramer's V atau koefisien Lambda atau Eta. Untuk masing-masing ukuran ini, katakan saja bahwa mereka dapat diterapkan untuk data seperti itu di mana kita memiliki variabel nominal dan interval atau variabel numerik. Masalahnya adalah bahwa mencari dan mencari, mencoba memahami masing-masing dari mereka, kadang-kadang ditulis atau menonton contoh-contoh yang masuk akal untuk menggunakannya jika Anda memiliki variabel nominal dikotomi, kecuali untuk Cramer's V, waktu lain tidak ditulis persyaratan untuk tipe data. Banyak halaman lain mengatakan bahwa itu benar untuk menerapkan regresi, itu benar, tapi saya hanya ingin tahu apakah ada koefisien seperti pearson / spearman untuk data seperti ini.

Saya juga berpikir bahwa tidak tepat untuk menggunakan koefisien Korelasi Spearman karena kota-kota tidak dapat disortir.

Saya juga telah membangun fungsi Cramer'sV dan Eta sendiri (saya bekerja dengan Matlab) tetapi untuk Eta mereka tidak berbicara tentang nilai-p untuk melihat apakah koefisiennya signifikan secara statistik ...

Di situs matlabWorks ada juga kotak peralatan yang bagus yang mengatakan untuk menghitung eta ^ 2 tetapi jenis input yang dibutuhkan tidak dapat dimengerti.

Apakah di sini seseorang yang telah melakukan tes seperti saya? Jika Anda perlu lebih detail untuk memahami jenis data yang saya gunakan, tanyakan saja kepada saya dan saya akan mencoba menjelaskan Anda dengan lebih baik.

correlation matlab ordinal-data categorical-data continuous-data kristis
sumber

R^{2}

$R^2$

Tidak ada yang salah dengan regresi, tetapi karena kita sudah mengukurnya, kita ingin memeriksanya dengan cara lain seperti memeriksa ulang dengan koefisien korelasi .... terima kasih atas jawabannya

cristis

Anda belum mengatakan sesuatu yang spesifik tentang variabel "numerik / ordinal" Anda. Apa yang membuat Anda bersikap seperti biasa? numerik?

ttnphns

karena saya memiliki variabel yang berasal dari tes survei sehingga kisarannya adalah -4,4, Anda juga dapat menganggapnya sebagai interval tetapi variabel survei semacam ini sebagian besar dianggap sebagai ordinal dan yang lainnya adalah numerik, dalam kontinu spesifik karena mereka terus menerus fitur diekstraksi.

cristis

LIHAT JUGA terkait stats.stackexchange.com/questions/23938/…

ttnphns

Jawaban:

Nominal vs Interval

Ukuran "korelasi" paling klasik antara variabel nominal dan interval ("numerik") adalah Eta , juga disebut rasio korelasi, dan sama dengan akar R-kuadrat dari ANOVA satu arah (dengan p-value = bahwa dari ANOVA). Eta dapat dilihat sebagai ukuran asosiasi simetris, seperti korelasi, karena Eta dari ANOVA (dengan nominal sebagai independen, numerik sebagai dependen) sama dengan jejak Pillai tentang regresi multivariat (dengan numerik sebagai independen, serangkaian variabel dummy yang sesuai dengan nominal tergantung).

Ukuran yang lebih halus adalah koefisien korelasi intraclass ( ICC ). Sedangkan Eta hanya memahami perbedaan antara kelompok (didefinisikan oleh variabel nominal) sehubungan dengan variabel numerik, ICC secara bersamaan juga mengukur koordinasi atau setuju antara nilai-nilai numerik di dalam grup; dengan kata lain, ICC (khususnya versi ICC "pasangan" asli yang tidak bias) tetap pada tingkat nilai sementara Eta beroperasi pada tingkat statistik (berarti kelompok vs varian kelompok).

Nominal vs Ordinal

Pertanyaan tentang ukuran "korelasi" antara variabel nominal dan ordinal kurang jelas. Alasan kesulitannya adalah bahwa skala ordinal, pada dasarnya, lebih "mistis" atau "bengkok" daripada skala interval atau nominal. Tidak heran bahwa analisis statistik khusus untuk data ordinal relatif dirumuskan dengan buruk sejauh ini.

Salah satu cara mungkin untuk mengubah data ordinal Anda menjadi peringkat dan kemudian menghitung Eta seolah-olah peringkat tersebut adalah data interval. Nilai p dari Eta tersebut = nilai analisis Kruskal-Wallis. Pendekatan ini tampaknya dibenarkan karena alasan yang sama seperti mengapa Spearman rho digunakan untuk menghubungkan dua variabel ordinal. Logika itu adalah "ketika Anda tidak tahu lebar interval pada skala, potong simpul Gordian dengan membuat linierisasi kemungkinan monotonitas apa pun: peringkatkan datanya".

Pendekatan lain (mungkin lebih ketat dan fleksibel) akan menggunakan regresi logistik ordinal dengan variabel ordinal sebagai DV dan yang nominal sebagai IV. Root kuadrat dari pseudo R-square Nagelkerke (dengan nilai p regresi) adalah ukuran korelasi lain untuk Anda. Perhatikan bahwa Anda dapat bereksperimen dengan berbagai fungsi tautan dalam regresi ordinal. Namun asosiasi ini tidak simetris: nominal diasumsikan independen.

Namun pendekatan lain mungkin untuk menemukan transformasi monoton seperti data ordinal ke dalam interval - alih-alih peringkat paragraf kedua dari belakang - yang akan memaksimalkan R (yaitu Eta ) untuk Anda. Ini adalah regresi kategorikal (= regresi linier dengan penskalaan optimal).

Masih pendekatan lain adalah melakukan pohon klasifikasi , seperti CHAID, dengan variabel ordinal sebagai prediktor. Prosedur ini akan bin bersama (oleh karena itu merupakan pendekatan yang berlawanan dengan yang sebelumnya) kategori-kategori berurutan berdekatan yang tidak membedakan antara kategori-kategori prediksi nominal dan. Maka Anda bisa mengandalkan langkah-langkah asosiasi berbasis Chi-square (seperti Cramer's V) seolah-olah Anda mengkorelasikan variabel nominal vs nominal.

Dan @Michael dalam komentarnya menyarankan satu lagi cara - koefisien khusus yang disebut Freeman's Theta .

Jadi, kita telah sampai pada kesempatan ini: (1) Peringkat, lalu hitung Eta; (2) Gunakan regresi ordinal; (3) Gunakan regresi kategoris ("secara optimal" mengubah variabel ordinal ke dalam interval); (4) Gunakan pohon klasifikasi ("secara optimal" mengurangi jumlah kategori yang dipesan); (5) Gunakan Theta Freeman.

ttnphns
sumber

PS Ada ikhtisar singkat yang baik tentang pendekatan variabel ordinal di blog Jeromy

ttnphns

θ

$\theta$

@Michael terima kasih, di sini saya menemukan makalah "Catatan lebih lanjut tentang ukuran asosiasi orang bebas" moreno.ss.uci.edu/22.pdf

ttnphns

Untuk informasi lebih lanjut tentang theta Freeman dan paket R yang mencakup statistik, lihat pertanyaan Validasi Silang ini .

Sal Mangiafico

@ttnphns Maaf, tolong jawab pertanyaan ini: stats.stackexchange.com/questions/363543/… Terima kasih banyak.

ebrahimi

$F$ $p$ $F$ $p$ $SS_{between\, cities}/SS_{total}$ $R^2$ $R$

Ray Koopman
sumber