Jika

8

Salah satu asumsi untuk analisis regresi adalah X dan Ytidak terjalin. Namun ketika saya memikirkannya, menurut saya masuk akal.

Berikut ini sebuah contoh. Jika kami memiliki tes dengan 3 bagian (AB dan C). Skor tes keseluruhan sama dengan jumlah skor individu untuk 3 bagian. Sekarang masuk akal untuk mengatakan ituX dapat skor di bagian A dan Yskor tes keseluruhan. Kemudian regresi linier dapat menjawab pertanyaan ini: berapakah variabilitas dalam skor tes keseluruhan yang dikaitkan dengan bagian A? Di sini, beberapa skenario dimungkinkan:

  1. Bagian A adalah yang paling sulit dari 3 bagian dan siswa selalu mendapat nilai terendah di sana. Dalam kasus seperti itu, secara intuitifR2akan rendah. Karena sebagian besar skor tes keseluruhan akan ditentukan oleh B dan C.
  2. Bagian A sangat mudah bagi siswa. Dalam hal ini juga korelasinya tidak akan tinggi. Karena siswa selalu mendapat nilai 100% dari bagian ini dan oleh karena itu bagian ini tidak memberi tahu kita apa-apa tentang skor tes keseluruhan.
  3. Bagian A memiliki kesulitan intermmediate. Dalam hal ini korelasinya akan lebih kuat (tetapi ini juga tergantung pada skor lainnya (B dan C).

Contoh lain adalah ini: kami menganalisis konten total elemen jejak dalam urin. Dan kami menganalisis secara terpisah spesies individu (bentuk kimia) dari elemen jejak dalam urin. Mungkin ada banyak bentuk kimia. Dan jika analisis kami benar, jumlah bentuk kimia harus memberi kita sama dengan total konten elemen (dianalisis dengan teknik yang berbeda). Namun, masuk akal untuk bertanya apakah satu bentuk kimia berkorelasi dengan kandungan unsur total dalam urin, karena kandungan total ini merupakan indikator dari total asupan dari makanan unsur tersebut. Lalu, jika kita mengatakan ituX adalah elemen total dalam urin dan Y adalah bentuk kimia A dalam urin kemudian dengan mempelajari korelasinya kita dapat mengeksplorasi apakah bentuk kimia ini adalah yang utama yang berkontribusi terhadap variabilitas keseluruhan atau tidak.

bagi saya itu masuk akal kadang-kadang bahkan ketika X dan Y tidak independen dan bahwa ini dalam beberapa kasus dapat membantu menjawab pertanyaan ilmiah.

Apakah anda akan berpikir R2dapat bermanfaat atau bermakna dalam contoh di atas? Jika kita mempertimbangkan contoh nilai ujian di atas, saya sudah mengatakan akan ada sekitar 33% kontribusi setiap bagian jika kesulitannya persis sama untuk siswa. Namun dalam praktiknya hal ini belum tentu benar. Jadi saya berpikir mungkin menggunakan analisis regresi dapat membantu kita mengetahui variabilitas sebenarnya yang dikaitkan dengan setiap bagian dari ujian. Jadi menurut saya ituR2 akan bermakna walaupun kita sudah tahu hipotesis nol itu tidak benar.

Apakah ada metode regresi alternatif yang dimodifikasi untuk memperhitungkan situasi seperti itu dan memberi kami parameter yang bermakna?

Bassam
sumber
Saya tidak setuju dengan pernyataan ini: "1- bagian A adalah yang paling sulit dari 3 bagian dan siswa selalu mendapat nilai terendah di dalamnya. Dalam kasus seperti itu, secara intuitif R kuadrat akan rendah." Jika bagian A adalah yang paling sulit maka akan ada lebih banyak inkonsistensi jawaban yang mengarah pada peningkatan variabilitas sebagai hasilnya, R-squared, yang mengukur proporsi variabilitas yang dijelaskan oleh bagian A akan lebih besar.
StatsStudent
Terima kasih atas komentar Anda. Pemikiran saya adalah bahwa bagian A sulit sejauh semua siswa mendapat nilai sangat rendah (dan mendekati nol pada skala 0-100) pada bagian ini. Maka variabilitas dalam skor bagian ini tidak berkontribusi secara signifikan terhadap skor tes keseluruhan (misalnya tidak masalah apakah itu 15 atau 20 atau 10%). Skor tes keseluruhan (dan variabilitasnya) akan ditentukan oleh skor tes lebih bervariasi lainnya yang memainkan bagian lebih besar dari skor keseluruhan.
Bassam
Mengapa kamu mengharapkannya? Y dan Xmandiri dalam analisis regresi? Satu adalah nilai rata-rata dari yang lain (setidaknya jika kita menghilangkan prediktor lain). Juga, saya tidak mengerti kalimat pertama Anda, asumsi apa itu? Regresi harus melibatkan semacam jalinan.
swmo

Jawaban:

5

Anda mungkin ingin mempertimbangkan pendekatan di luar pendekatan regresi tradisional. Ini sebanding dengan jenis masalah yang dirancang untuk diselesaikan psikometrik (yah, sebenarnya contoh pertama Anda tepat seperti itu, karena ini adalah tes).

Dalam Teori Tes Klasik , salah satu metrik yang paling umum adalah korelasi skor item-total, yang pada dasarnya adalah korelasi antara skor item dan skor total. Ini memberitahu Anda diskriminasi item - itu kemampuan untuk membedakan antara responden yang skornya tinggi dan rendah. Ini sebanding dengan menjelaskan varians, seperti yang Anda tanyakan di atasR2. Ada dua cara untuk menghitung skor ini, baik dengan menggunakan skor tes total termasuk item yang menarik, atau tidak termasuk itu. Ketika Anda memiliki banyak item, kedua metode ini hampir sama, tetapi ketika Anda memiliki beberapa item, maka mereka dapat membuat perbedaan besar.

Pendekatan lain dari Item Response Theory (IRT) adalah memperkirakan, baik melalui model respons item 2-parameter atau melalui analisis faktor konfirmatori (yang secara statistik sama, tetapi perbedaan interpretasinya berbeda). Model 2-parameter mencakup parameter untuk kesulitan item (kesulitan relatif item) dan satu untuk diskriminasi item, yang ditafsirkan sangat mirip dengan korelasi skor total item. Diskriminasi tinggi = item membedakan antara pencetak skor tinggi dan rendah. Jika Anda menggunakan analisis faktor konfirmatori (CFA), Anda memiliki pemuatan item, yang pada dasarnya adalah parameter diskriminasi Anda. Mereka memberi tahu Anda berapa banyak skor total didorong oleh item tertentu.

Menggunakan IRT atau CFA mengasumsikan Anda memiliki skor laten, bukan skor yang diamati, yang coba Anda perkirakan. Dalam contoh yang Anda berikan di atas, Anda khawatir dengan skor yang diamati, yang tidak laten. Jadi model-model ini tidak akan menjadi apa yang Anda kejar, karena mereka probabilistik dan Anda semacam memiliki hubungan tautologis (total Anda secara definisi terdiri dari bagian-bagian, tanpa kesalahan). Tetapi saya menunjukkannya sebagai contoh cara statistik mendapatkan jawaban yang serupa.

Hal terakhir yang ingin saya tunjukkan, dan ini mungkin adalah sesuatu yang akan diperdebatkan orang lain, tetapi sementara anggapannya adalah bahwa regressor adalah independen, ketika kita memiliki variabel kategori, dan kita memasukkan boneka ke dalam model, variabel-variabel dummy itu, menurut definisi , berkorelasi. Jadi ini tampaknya akan melanggar asumsi independensi dan membawa multikolinieritas. Jika Anda memikirkannya dengan cara ini, akan masuk akal untuk menjalankan regresi Anda mengatakan unsur-unsur dalam urin, dan mengecualikannya, koefisien akan valid seperti halnya itu adalah variabel kategori tunggal. Dalam hal itu, Anda mendapatkan angka yang sebanding dengan korelasi item-total dari Teori Tes Klasik yang saya sebutkan di atas.

robin.datadrivers
sumber
4

Cara matematis yang cepat untuk melihatnya adalah dengan memperluas formula. MembiarkanZ=X+Y+W.

R2=(Cov(X,Z)σXσZ)2=(Var(X)+Cov(X,Y)+Cov(X,W)σXσZ)2

Jadi singkatnya, Anda akan mendapatkan varians Xditambah hubungannya dengan dua variabel Anda yang lain, dibagi dengan faktor penskalaan. Faktor penskalaan itu sendiri dapat diperluas, tetapi pembilang menceritakan kisahnya. Secara umum, hal-hal yang akan mempengaruhi angka itu adalah a) skala relatif X dibandingkan dengan Y dan W, b) varian relatif X, c) "kontribusi" X terhadap varian Y dan W.

Seperti apakah itu berguna atau tidak, hal itu tergantung pada apa yang Anda kejar. Mungkin lebih baik untuk menganggapnya sebagai "persentase variasi total" atau sesuatu seperti itu, meskipun sama untuk Y dan W mungkin tidak semua berjumlah 1 (atau mungkin tidak ... tidak yakin).

Mike Nute
sumber
2

Jika X adalah salah satu dari beberapa variabel yang menjumlahkan untuk mendefinisikan Y, maka jelas asumsi regresi linier rusak. Nilai P tidak akan berguna. Kemiringan dan interval kepercayaannya tidak dapat ditafsirkan dengan cara biasa. Namun demikianR2masih bermanfaat? Saya kira itu sebagai statistik deskriptif. Jika Anda punya tigaR2 nilai mengukur korelasi antara Y dan masing-masing dari tiga komponennya, saya kira Anda akan belajar sesuatu yang menarik dengan melihat nilai relatif dari R2.

Harvey Motulsky
sumber
Terima kasih atas komentarmu. Itulah perasaan saya. Nilai R2 itu dan perbandingan di antara mereka mungkin memberi kami informasi yang berguna.
Bassam
0

Salah satu asumsi untuk analisis regresi adalah X dan Y tidak terjalin.

Ini salah. Salah satu asumsi untuk analisis regresi adalah bahwa KESALAHAN tidak berkorelasi. Lihat entri wikipedia untuk teorema Gauss-Markov.

Jika X adalah salah satu dari beberapa variabel yang dijumlahkan Y, adalah R2 antara X dan Y nilai yang berguna?

Tentang satu-satunya penggunaan yang dapat saya pikirkan untuk R2 antara X dan Yadalah untuk menunjukkan seberapa baik kinerja model Anda ketika Anda memasukkan prediktor lain. Ada nilai-nilai lain yang lebih informatif. Nilai estimasi koefisien dan kesalahan standarnya khususnya.

jimmylovestea
sumber