Mengapa Pearson parametrik dan Spearman non-parametrik

19

Tampaknya koefisien korelasi Pearson adalah parametrik dan Spearman rho adalah non-parametrik.

Saya mengalami kesulitan memahami hal ini. Seperti yang saya pahami, Pearson dihitung sebagai dan Spearman dihitung dengan cara yang sama, kecuali kami mengganti semua nilai dengan peringkat mereka.

rxy=cHaiv(X,Y)σxσy

Wikipedia mengatakan

Perbedaan antara model parametrik dan model non-parametrik adalah bahwa yang pertama memiliki jumlah parameter tetap, sedangkan yang terakhir menumbuhkan jumlah parameter dengan jumlah data pelatihan.

Tapi saya tidak melihat parameter apa pun kecuali sampel itu sendiri. Ada yang mengatakan bahwa tes parametrik mengasumsikan distribusi normal dan selanjutnya mengatakan bahwa Pearson memang mengasumsikan data terdistribusi normal, tetapi saya gagal melihat mengapa Pearson akan membutuhkan itu.

Jadi pertanyaan saya adalah apa arti parametrik dan non-parametrik dalam konteks statistik? Dan bagaimana Pearson dan Spearman cocok di sana?

pengguna2740
sumber
6
Ini pertanyaan yang bagus dan ada banyak informasi yang salah di luar sana. Sebagai contoh, persamaan tes parametrik dan asumsi distribusi normal sayangnya sering membingungkan, di mana banyak penulis buku teks, guru kursus dan poster internet hanya menyalin dari orang lain yang atau lebih bingung.
Nick Cox
5
Mungkin resolusi positif paling sederhana dari pertanyaan ini adalah ini: ya, korelasi Spearman adalah parameter yang akan diestimasi mengukur kekuatan suatu hubungan dan menyerupai Pearson (pada dasarnya, ini ide yang sama, seperti yang Anda tunjukkan); tetapi tidak, korelasi Spearman bukanlah parameter yang ditampilkan dalam distribusi, sedangkan Pearson's adalah parameter dalam distribusi normal bivariat (interpretasi historis tetapi sekarang meremehkan apa yang Anda lakukan ketika Anda melakukan korelasi). Ini perbedaan yang bagus, untuk dipahami dengan melihat bahwa kata "parameter" memiliki banyak indera.
Nick Cox
@NickCox, mengapa Anda tidak memposting itu sebagai jawaban.
Richard Hardy
5
Poin tentang normalitas distribusi hanya benar-benar menggigit ketika Anda ingin melakukan uji signifikansi dengan korelasi. Jika Anda menggunakan korelasi hanya sebagai ukuran deskriptif, non-normalitas tidak perlu menjadi penghalang untuk menggunakan korelasi. Korelasi bahkan dapat sedikit berguna dengan dua variabel biner asalkan keduanya bervariasi. Anda masih harus berhati-hati dengan efek dari pencilan, dll.,
Nick Cox
1
Karena tampaknya belum dikatakan secara jelas, saya ingin menekankan bahwa tidak ada statistik yang "parametrik." Itu seperti mengatakan angka itu enak: kata sifat tidak berlaku untuk kata benda. Model statistik dapat parametrik (seperti yang ditunjukkan oleh kutipan Wikipedia), serta tes dan prosedur yang didasarkan pada mereka. Statistik Spearman dan Pearson dapat digunakan dalam pengaturan parametrik dan non-parametrik. Lebih lanjut tentang ini di stats.stackexchange.com/questions/67204 . Apa yang membuat model parametrik adalah ruang keadaannya .
whuber

Jawaban:

17

Masalahnya adalah bahwa "nonparametrik" benar-benar memiliki dua makna berbeda akhir-akhir ini. Definisi dalam Wikipedia berlaku untuk hal-hal seperti pemasangan kurva nonparametrik, misalnya melalui splines atau regresi lokal. Arti lain, yang lebih tua, lebih sesuai dengan "bebas distribusi" - yaitu, teknik yang dapat diterapkan terlepas dari asumsi distribusi data. Yang terakhir adalah yang berlaku untuk Spearman rho, karena transformasi peringkat menyiratkan itu akan memberikan hasil yang sama tidak peduli apa distribusi asli Anda.

Hong Ooi
sumber
2
Nonparametric memang memiliki dua makna, tetapi komentar dalam wikipedia benar-benar berlaku untuk keduanya. Dalam regresi nonparametrik ini mengacu pada hubungan yang tidak terbatas-parametrik. Dalam sisi 'distribusi bebas' hal-hal itu mengacu pada model distribusi yang tidak terbatas parametrik.
Glen_b -Reinstate Monica
1
Hm, itu kutipan dari Wikipedia bukan saya. Orang lain telah menambahkannya.
Hong Ooi
2
Hasil edit utama - yang saya yakini salah dalam satu detail dan tidak menambahkan sesuatu yang sangat berguna - muncul untuk ditinjau karena dibuat oleh pengguna dengan reputasi rendah, dan ditolak oleh satu orang, tetapi kemudian diterima secara otomatis ketika orang ketiga mencoba mengedit untuk memperbaikinya (mereka mungkin tidak menyadari bahwa ini akan menjadi konsekuensi). Saya akan memutar kembali hasil edit itu ke aslinya. Anda dapat melakukannya kapan saja ada edit yang tidak Anda sukai.
Glen_b -Reinstate Monica
Sekarang memutar kembali ke posting asli Anda, karena saya pikir itu mengubah posting Anda terlalu banyak tanpa mencari persetujuan Anda dan tidak terdengar seperti Anda setuju dengan itu. Jika ada yang Anda sukai, klik tautan "diedit ... lalu" di atas nama saya dan salin bagian mana yang Anda suka dari apa yang ada sebelumnya, lalu edit dan tempel.
Glen_b -Reinstate Monica
Kapan dibenarkan menggunakan Spearman? Bagaimana Pearson dapat membantu ketika Anda menggunakan Spearman?
Léo Léopold Hertz 준영
3

Saya pikir satu-satunya alasan mengapa koefisien korelasi Pearson disebut parametrik adalah karena Anda dapat menggunakannya untuk memperkirakan parameter distribusi normal multivarian. misalnya, distribusi normal bivariat memiliki 5 parameter: dua rata-rata, dua varian dan koefisien korelasi. Yang terakhir dapat diperkirakan dengan koefisien korelasi Pearson.

ρ

Aksakal
sumber
bukankah parameter koefisien korelasi pearson dalam arti bahwa Anda harus mengasumsikan normalitas untuk menguji signifikansinya? artinya, itu tidak menganggap normalitas sebagai statistik, tetapi Anda menganggap bahwa data normal ketika menghitung distribusi koefisien korelasi sampel dan mengujinya? ini pertanyaan jujur, saya bisa 100% salah.
mugen
Bisakah Anda jelaskan jika Anda melakukan asumsi distribusi dalam bahasa sperman dan kendall?
Léo Léopold Hertz 준영
@mugen Anda tidak perlu mengasumsikan normalitas untuk menguji signifikansi korelasi Pearson; uji umum korelasi Pearson melakukannya. Anda dapat membuat asumsi parametrik yang berbeda dan menghasilkan tes yang berbeda ... atau memang, seseorang dapat melakukan uji permutasi dari nol bahwa populasi korelasi Pearson adalah nol, menghasilkan tes nonparametrik.
Glen_b -Reinstate Monica
0

Jawaban paling sederhana yang saya pikir adalah bahwa tes rho Spearmen menggunakan data ordinal (angka yang dapat diperingkat tetapi tidak memberi tahu Anda tentang interval antara angka-angka misalnya 3 rasa es krim berada di peringkat 1, 2 dan 3 tetapi ini hanya memberi tahu Anda rasa lebih disukai bukan seberapa banyak). Data ordinal tidak dapat digunakan dalam uji parametrik.

Uji r Pearson menggunakan data interval atau rasio (angka yang memiliki interval tetap misalnya detik, kg, mm). 1mm tidak hanya lebih kecil dari 5mm tetapi Anda tahu persis berapa banyak. tipe data ini dapat digunakan dalam uji parametrik.

Julian Keenlyside
sumber
1
Tentu saja mungkin untuk menggunakan model parametrik - dan karenanya tes parametrik - dengan data ordinal. Orang hanya perlu mengusulkan distribusi untuk variabel ini dengan sejumlah parameter yang terbatas dan tetap, dan beberapa hipotesis yang sesuai dalam kaitannya dengan parameter dan voila , ada uji parametrik. Korelasi Pearson yang dihitung dalam situasi di mana satu atau kedua variabel memiliki dua kategori (diberi label dengan dua angka yang berbeda, biasanya 0/1) menghasilkan ukuran hubungan yang umum digunakan untuk situasi tersebut.
Glen_b -Reinstate Monica