Mengapa tidak baik untuk melakukan korelasi Pearson pada data proporsi?

10

Modul online yang saya pelajari menyatakan bahwa seseorang tidak boleh menggunakan korelasi Pearson dengan data proporsi. Kenapa tidak?

Atau, jika kadang-kadang OK atau selalu OK, mengapa?

user1205901 - Pasang kembali Monica
sumber
3
Apa yang mengatakan ini, dan dalam konteks apa? "Tidak pernah" tampaknya terlalu kuat kecuali mereka membicarakan situasi yang sangat terbatas. Mungkin siapa pun yang menulisnya salah, tetapi tanpa konteks bagaimana kita bisa menebak?
Glen_b -Reinstate Monica
2
Modul online adalah milik dan saya tidak dapat menautkannya. Namun, saya telah menemukan video yang menyatakan hal yang sama: australianbioinformatics.net/the-pipeline/2013/3/19/… . Baik modul yang saya lihat dan video ini menunjukkan bahwa tidak ada konteks di mana proporsi yang berkorelasi dapat diterima.
user1205901
4
"Tidak pernah" terlalu kuat. Ada alasan untuk berhati-hati dalam menafsirkan koefisien korelasi yang melibatkan proporsi, terutama yang didasarkan pada jumlah kecil. Tetapi analisis yang sama mendukung alasan-alasan itu juga menunjukkan bahwa ketika proporsi didasarkan pada jumlah besar dan proporsi "cukup jauh" dari atau , maka koefisien korelasi tidak bermasalah. Selain itu, kita selalu dapat melaporkan koefisien korelasi untuk setiap set data berpasangan (di mana kedua komponen menunjukkan variasi) sebagai statistik ringkasan (deskriptif). 101
whuber

Jawaban:

6

Ini untuk kasus ketika beberapa variabel dijumlahkan menjadi 1, dalam setiap pengamatan. Jawaban saya adalah level intuisi; ini disengaja (dan juga, saya bukan ahli data komposisi).

Marilah kita memiliki variabel bernilai positif iid (karenanya tidak berkorelasi nol) yang kemudian kami simpulkan dan hitung ulang sebagai proporsi dari jumlah itu. Kemudian,

  • Dalam hal dua variabel V1 V2 , jika V1 dikatakan bervariasi secara bebas maka V2 tidak memiliki ruang untuk kebebasan (karena V1 + V2 = konstan) dan sepenuhnya tetap; semakin besar V1 semakin kecil V2, semakin kecil V1 semakin besar V2. Korelasi mereka adalah dan selalu begitu.1
  • Dalam hal 3 variabel V1 V2 V3 , jika V1 dikatakan bervariasi secara bebas maka V2 + V3 diperbaiki; yang mengatakan bahwa di dalam (V2 + V3) masing-masing dari dua variabel masih sebagian bebas: mereka rata-rata kali tetap masing-masing, total tetap penuh. Jadi, jika salah satu dari tiga variabel diambil sebagai bebas (seperti kami mengambil V1), salah satu dari dua yang tersisa diharapkan diperbaiki. Sehingga korelasi di antara mereka adalah . Ini adalah korelasi yang diharapkan ; mungkin berbeda dari sampel ke sampel.1 / 2 - 0,51/21/20.5
  • Dalam kasus 4 variabel V1 V2 V3 V4 dengan alasan yang sama kita miliki itu, jika kita mengambil salah satu dari empat sebagai bebas maka salah satu dari sisanya diharapkan diperbaiki; jadi, korelasi yang diharapkan antara setiap pasangan dari empat - satu sebagai bebas yang lain sebagai tetap - adalah .1 / 3 - 0,3331/31/30.333
  • Karena jumlah variabel (awalnya iid) tumbuh, korelasi berpasangan yang diharapkan tumbuh dari negatif ke , dan variasi dari sampel ke sampel menjadi lebih besar.0
ttnphns
sumber
OK, tapi saya kira minatnya berpasangan V1, V2, masing-masing V menjumlahkan 1 (100%), tetapi tidak ada kendala pada V individu kecuali masing-masing menjadi fraksi.
Nick Cox
each V summing to 1 ( 100%)Permisi? Saya tidak mengerti kamu. Saya tidak memberikan batasan pada V individu, hanya menjadi sebagian kecil. Namun, kendala awal adalah bahwa contoh saya mengasumsikan korelasi nol sebelum mengubah Vs menjadi pecahan.
ttnphns
Apakah maksud Anda bahwa setiap V memiliki nilai penjumlahan ke 1 ("vertikal")? Tidak, maksud saya "horisontally", lintas variabel. Namun sayangnya OP tidak menjelaskan poin dalam pertanyaan mereka. Jadi saya mengambilnya saat mengambilnya.
ttnphns
Iya; itu menurut saya apa yang biasanya dimaksudkan di sini, tetapi pertanyaannya tidak terlalu jelas.
Nick Cox
1
@ttnphns Saya melihat pernyataan bahwa seseorang seharusnya tidak pernah melakukan korelasi Pearson dua variabel yang diukur sebagai proporsi. Saya sudah mencoba membuatnya lebih jelas dengan mengedit OP untuk menyorot kata 'tidak pernah'. Video tersebut membuat pernyataan yang sama dalam judulnya ("Jangan berkorelasi proporsi!"), Meskipun mereka hanya membahas ini dalam konteks data komposisi. Saya sengaja membiarkan konteksnya tidak ditentukan karena sumber saya menyatakan bahwa korelasi Pearson tidak boleh digunakan pada data proporsi dalam konteks apa pun. Namun, sepertinya jawaban untuk pertanyaan saya adalah: "Proporsi yang berkorelasi baik-baik saja, kecuali dalam beberapa konteks."
user1205901
10

Tautan video komentar Anda menetapkan konteks ke komposisi, yang juga dapat disebut campuran. Dalam kasus ini, jumlah proporsi masing-masing komponen bertambah menjadi 1. Misalnya, Udara adalah 78% nitrogen, 21% oksigen, dan 1% lainnya (total 100%). Mengingat bahwa jumlah satu komponen sepenuhnya ditentukan oleh yang lain, setiap dua komponen akan memiliki hubungan multi-linear yang sempurna. Sebagai contoh udara, kami memiliki:

x1+x2+x3=1

sehingga kemudian:

x1=1x2x3

x2=1x1x3

x3=1x1x2

Jadi jika Anda tahu ada dua komponen, yang ketiga segera diketahui.

Secara umum, kendala pada campuran adalah

i=1qxi=1

Batasan ini membuat tingkat faktor tidak bebas.xi

Anda dapat menghitung korelasi antara dua komponen, tetapi tidak informatif , karena mereka selalu berkorelasi. Anda dapat membaca lebih lanjut tentang analisis komposisi dalam Menganalisis data yang diukur sebagai komposisi proporsional .

Anda dapat menggunakan korelasi ketika data proporsi berasal dari domain yang berbeda. Katakanlah respons Anda adalah sebagian kecil dari piksel mati pada layar LCD. Anda bisa mencoba menghubungkan ini dengan, katakanlah, fraksi helium yang digunakan dalam langkah pemrosesan kimia layar.

menghitamkan
sumber
Saya mengerti - saya secara keliru berpikir bahwa komposisi hanyalah contoh. Apakah adil untuk mengatakan bahwa proporsi yang berkorelasi pada umumnya tidak bermasalah kecuali Anda memiliki situasi di mana komposisi 'memaksa' suatu korelasi untuk eksis?
user1205901
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshiptidak jelas. Bisakah Anda mengembangkannya?
ttnphns
Saya juga tidak mengerti jawaban ini. Dalam contoh 3-variabel Anda, masing-masing "ditentukan" oleh DUA lainnya, tetapi korelasi Pearson hanya menganalisis satu variabel dalam kaitannya dengan SATU lainnya. Jadi, misalnya, jika melihat nitrogen vs oksigen Anda dapat memiliki kumpulan data (nitrogen, oksigen) [(0,78, 0,21), (0,20, 0,41), (0,44, 0,44)], dan Anda dapat melakukan koefisien korelasi yang valid perhitungan pada data itu (dan itu tentu saja bukan co-linear). Koefisien korelasi Pearson tidak tahu atau tidak peduli tentang "orang lain" di sana ...
Jason C
3
Sebagai semacam meta-komentar, saya tidak akan berharap untuk melihat materi yang tidak dapat diakses dikutip sebagai wewenang untuk setiap poin statistik, bukan bahwa Anda mengusulkan untuk melakukan itu. Jadi, itu sederhana pada satu tingkat: ada literatur tentang analisis data komposisi, yang merupakan tempat untuk melihat; Saya bukan ahli, jadi saya tidak bisa mengatakan apa yang paling otoritatif dalam hal korelasi, tetapi naluri saya adalah bahwa peringatan itu dilebih-lebihkan. Penggunaan korelasi secara deskriptif dapat membantu. Hanya saja kesimpulannya dipersulit oleh batasan total.
Nick Cox
Saya pikir "fraksi dead pixel" akan baik-baik saja jika kami mengumpulkan pengukuran dari layar LCD yang memiliki jumlah piksel yang sama dan tekanan gas dalam proses tetap konstan. Tetapi begitu Anda mulai membiarkan penyebut dari proporsi ini berubah, siapa yang bisa mengatakan apa efek helium?
David Lovell
5

Ini adalah pertanyaan yang mendalam, dan satu dengan beberapa kehalusan yang perlu dinyatakan. Saya akan mencoba yang terbaik, tetapi meskipun saya telah menerbitkan tentang topik ini ( Proporsionalitas: Alternatif yang Valid untuk Korelasi untuk Data Relatif ) Saya selalu siap untuk dikejutkan oleh wawasan baru tentang analisis data yang hanya berisi informasi relatif.

Seperti yang ditunjukkan oleh kontributor pada utas ini, korelasi terkenal buruk (di beberapa kalangan) karena menjadi tidak berarti ketika diterapkan pada data komposisi yang muncul ketika satu set komponen dibatasi untuk menambah konstanta (seperti yang kita lihat dengan proporsi, persentase, bagian-per-juta, dll.).

Karl Pearson menciptakan istilah korelasi palsu dengan pemikiran ini. (Catatan: Situs Spurious Correlation Tyler Vigen yang populer tidak banyak membahas tentang korelasi palsu karena kekeliruan " korelasi menyiratkan penyebab ".)

Bagian 1.7 dari Aitchison's (2003) Sebuah Panduan Ringkas untuk Analisis Data Komposisi memberikan ilustrasi klasik mengapa korelasi merupakan ukuran hubungan yang tidak sesuai untuk data komposisi (untuk kenyamanan, dikutip dalam Informasi Tambahan ini .

Data komposisi muncul tidak hanya ketika satu set komponen non-negatif dibuat untuk dijumlahkan menjadi konstan; data dikatakan bersifat komposisi setiap kali mereka hanya membawa informasi relatif.

Saya pikir masalah utama dengan korelasi data yang hanya membawa informasi relatif adalah interpretasi hasil. Ini adalah masalah yang bisa kita ilustrasikan dengan satu variabel; katakanlah "donat yang diproduksi per dolar dari PDB" di seluruh negara di dunia. Jika nilai satu negara lebih tinggi daripada yang lain, apakah itu karena

  • produksi donat mereka lebih tinggi?
  • PDB mereka lebih rendah?

... siapa yang bisa bilang?

Tentu saja, seperti yang dikatakan orang di utas ini, orang dapat menghitung korelasi jenis-jenis variabel ini sebagai variabel deskriptif. Tapi apa artinya korelasi seperti itu?

David Lovell
sumber
3

Saya punya pertanyaan yang sama. Saya menemukan referensi ini di biorxiv berguna:

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proporsionalitas: alternatif yang valid untuk korelasi untuk data relatif"

Dalam informasi pendukung makalah ini (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417), penulis menyebutkan bahwa korelasi antara kelimpahan relatif tidak memberikan informasi dalam beberapa kasus. Mereka memberikan contoh kelimpahan relatif dari dua ekspresi mRNA. Dalam Gambar S2, kelimpahan relatif dari dua mRNA yang berbeda berkorelasi negatif sempurna, meskipun korelasi kedua mRNA ini dalam nilai absolut tidak terkait negatif (titik hijau dan titik ungu).

Mungkin itu bisa membantu Anda.

menuntut
sumber
2
Terima kasih atas saran Anda. Saya tidak menjelaskannya. Dalam mendukung informasi makalah ini (Lovell, David, et al. Doi: dx.doi.org/10.1101/008417 ), penulis menyebutkan bahwa korelasi antara kelimpahan relatif tidak memberikan informasi dalam beberapa kasus. Mereka memberikan contoh kelimpahan relatif dari dua ekspresi mRNA. Dalam Gambar S2, kelimpahan relatif dari dua mRNA yang berbeda berkorelasi negatif sempurna, meskipun korelasi kedua mRNA ini dalam nilai absolut tidak negatif (titik hijau dan titik ungu).
menuntut
@shu mungkin Anda bisa mengatakan mengapa artikel ini membantu Anda dengan masalah serupa dan merangkumnya ..? Menempel tautan bukan jawaban, jadi tolong uraikan sedikit lebih banyak. Alasan untuk itu juga karena tautan mati dan jika Anda ingin jawaban Anda bermanfaat bagi seseorang di masa depan, Anda harus membuatnya konsisten. Tentu saja memberikan referensi tambahan untuk jawaban Anda adalah kebiasaan yang baik.
Tim