Perbedaan antara asumsi yang mendasari korelasi dan uji kemiringan regresi signifikansi

21

Pertanyaan saya muncul dari diskusi dengan @whuber di komentar pertanyaan yang berbeda .

Secara khusus, komentar @whuber adalah sebagai berikut:

Salah satu alasan yang mungkin mengejutkan Anda adalah bahwa asumsi yang mendasari uji korelasi dan uji kemiringan regresi berbeda - jadi bahkan ketika kita memahami bahwa korelasi dan kemiringan benar-benar mengukur hal yang sama, mengapa nilai-p mereka harus sama? Itu menunjukkan bagaimana masalah ini lebih dalam dari sekadar apakah dan harus sama secara numerik.βrβ

Ini membuat saya berpikir tentang hal itu dan saya menemukan berbagai jawaban menarik. Sebagai contoh, saya menemukan pertanyaan ini " Asumsi koefisien korelasi " tetapi tidak dapat melihat bagaimana ini akan mengklarifikasi komentar di atas.

Saya menemukan jawaban yang lebih menarik tentang hubungan Pearson dan slope dalam regresi linier sederhana (lihat di sini dan di sini misalnya) tetapi tidak satupun dari mereka yang menjawab apa yang dimaksud @whuber dalam komentarnya (setidaknya tidak jelas untuk saya).βrβ

Pertanyaan 1: Apa asumsi yang mendasari uji korelasi dan uji kemiringan regresi?

Untuk pertanyaan ke-2 saya, pertimbangkan output berikut dalam R:

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Dan output dari cor.test()fungsi:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Seperti yang bisa dilihat oleh lm()dan cov.test()output, Pearson koefisien korelasi dan estimasi slope ( β 1 ) sebagian besar berbeda, 0,96 vs 0,485, masing-masing, tetapi t-nilai dan p-nilai yang sama.rβ1

Kemudian saya juga mencoba melihat apakah saya bisa menghitung nilai-t untuk dan β 1 , yang sama meskipun r dan β 1 berbeda. Dan di situlah saya terjebak, setidaknya untuk r :rβ1rβ1r

Hitung kemiringan ( ) dalam regresi linier sederhana menggunakan total jumlah kuadrat x dan y :β1xy

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Hitung estimasi kuadrat-terkecil dari kemiringan regresi, (ada bukti tentang hal ini dalam Crawley's R Book edisi 1 , halaman 393):β1

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Hitung kesalahan standar untuk :β1

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

Dan nilai-t dan nilai-p untuk :β1

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

Apa yang saya tidak tahu pada titik ini, dan ini adalah Pertanyaan 2 , adalah, bagaimana cara menghitung nilai-t yang sama menggunakan bukannya β 1 (mungkin dalam langkah-langkah bayi)?rβ1

Saya berasumsi bahwa karena cor.test()hipotesis alternatif 's adalah apakah benar korelasi tidak sama dengan 0 (lihat cor.test()output di atas), aku akan mengharapkan sesuatu seperti Pearson koefisien korelasi dibagi dengan 'standard error dari koefisien korelasi Pearson'(mirip dengan atas)?! Tapi apa kesalahan standar itu dan mengapa?rb1/se.b1

Mungkin ini ada hubungannya dengan asumsi yang disebutkan di atas yang mendasari uji korelasi dan uji kemiringan regresi ?!

EDIT (27-Jul-2017): While @whuber memberikan penjelasan yang sangat terperinci untuk Pertanyaan 1 (dan sebagian Pertanyaan 2 , lihat komentar di bawah jawabannya), saya melakukan penggalian lebih lanjut dan menemukan bahwa dua pos ini (di sini dan di sini ) melakukan menunjukkan kesalahan standar khusus untuk , yang berfungsi baik untuk menjawab Pertanyaan 2 , yaitu mereproduksi nilai-t yang diberikan r :rr

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Stefan
sumber
2
Ini adalah tes yang sama atau setidaknya tes yang setara. Jika Anda menolak hipotesis bahwa korelasinya tidak nol, tes juga menolak hipotesis bahwa kemiringannya tidak nol.
Michael R. Chernick
6
@Michael Right - tetapi ada banyak model potensial di sini, dan mereka sangat berbeda. Salah satunya adalah model standar untuk korelasi, di mana yang paling sederhana adalah bahwa data adalah sampel dari beberapa bivariat Normal distribusi. Lain adalah beberapa versi model OLS untuk regresi terhadap X - dalam dua rasa, regresi tetap dan regresi acak. Lain membalikkan peran X dan Y . Jika Anda memiliki perasaan ini harus menghasilkan nilai p yang sama untuk tes hipotesis yang sebanding, itu mungkin hanya melalui keakraban luas, tetapi itu tidak jelas secara intuitif! YXXY
whuber
1
@whuber Melihat bahwa Q ini sangat bagus tetapi tidak memiliki jawaban yang memuaskan, saya memulai karunia yang telah berakhir sebelumnya hari ini; sekarang sedang dalam masa tenggang. Satu jawaban baru telah diposting dan itu menjelaskan perhitungan korelasi-sebagai-kemiringan, tetapi mengklaim bahwa tidak ada perbedaan dalam asumsi, bertentangan dengan pernyataan yang Anda kutip. Karunia saya akan secara otomatis diberikan kepada jawaban baru ini kecuali yang lain muncul. Saya memberi tahu Anda jika Anda juga mempertimbangkan untuk memposting jawaban Anda sendiri.
Amoeba berkata Reinstate Monica
1
@amoeba Terima kasih; Saya tidak memperhatikan karunia itu. Saya telah memposting sebagian akun dari apa yang ada dalam pikiran saya ketika saya menulis komentar yang memicu pertanyaan ini. Saya harap ini mewakili beberapa kemajuan ke arah yang Anda sarankan.
whuber

Jawaban:

5

pengantar

Balasan ini membahas motivasi yang mendasari serangkaian pertanyaan ini:

Apa asumsi yang mendasari uji korelasi dan uji kemiringan regresi?

Mengingat latar belakang yang disediakan dalam pertanyaan, saya ingin menyarankan sedikit memperluas pertanyaan ini: mari kita jelajahi tujuan yang berbeda . dan konsep yang dari korelasi dan regresi.

Korelasi biasanya digunakan dalam situasi di mana

  • Data bersifat bivariat: tepat dua nilai minat yang berbeda dikaitkan dengan setiap "subjek" atau "pengamatan".

  • Data bersifat observasional: tidak satu pun dari nilai-nilai yang ditetapkan oleh eksperimen. Keduanya diamati atau diukur.

  • Minat terletak pada mengidentifikasi, mengukur, dan menguji semacam hubungan antara variabel.

Regresi digunakan dimana

  • Data bersifat bivariat atau multivariat: mungkin ada lebih dari dua nilai minat yang berbeda.

  • Minat berfokus pada memahami apa yang dapat dikatakan tentang subset dari variabel - variabel "dependen" atau "respons" - berdasarkan pada apa yang mungkin diketahui tentang subset lainnya - variabel "independen" atau "regressor."

  • Nilai spesifik dari regressor mungkin telah ditetapkan oleh eksperimen.

Tujuan dan situasi yang berbeda ini mengarah pada pendekatan yang berbeda. Karena utas ini memperhatikan persamaannya, mari fokus pada kasus di mana mereka paling mirip: data bivariat. Dalam kedua kasus tersebut, data tersebut biasanya akan dimodelkan sebagai realisasi dari variabel acak . Secara umum, kedua bentuk analisis mencari penokohan yang relatif sederhana dari variabel ini.(X,Y)

Korelasi

Saya percaya "analisis korelasi" belum pernah secara umum didefinisikan. Haruskah itu terbatas pada penghitungan koefisien korelasi, atau dapatkah itu dianggap lebih luas sebagai terdiri dari PCA, analisis klaster, dan bentuk-bentuk analisis lain yang menghubungkan dua variabel? Apakah sudut pandang Anda terbatas atau luas, mungkin Anda akan setuju bahwa deskripsi berikut ini berlaku:

Korelasi adalah analisis yang membuat asumsi tentang distribusi , tanpa mengistimewakan salah satu variabel, dan menggunakan data untuk menarik kesimpulan yang lebih spesifik tentang distribusi itu.(X,Y)

Misalnya, Anda dapat mulai dengan mengasumsikan memiliki distribusi Normal bivariat dan menggunakan koefisien korelasi Pearson dari data untuk memperkirakan salah satu parameter dari distribusi itu. Ini adalah salah satu konsepsi korelasi yang paling sempit (dan tertua).(X,Y)

Sebagai contoh lain, Anda mungkin dengan mengasumsikan dapat memiliki distribusi apa pun dan menggunakan analisis kluster untuk mengidentifikasi k "pusat". Orang mungkin menafsirkan bahwa sebagai awal dari resolusi distribusi ( X , Y ) menjadi campuran distribusi bivariat unimodal, satu untuk setiap cluster.(X,Y)k(X,Y)

Satu hal yang umum untuk semua pendekatan ini adalah perlakuan simetris dan YXY : tidak ada yang lebih istimewa daripada yang lain. Keduanya memainkan peran yang setara.

Regresi

Regresi menikmati definisi yang jelas dan dipahami secara universal:

Regresi mencirikan distribusi bersyarat (respons) yang diberikan X (regresi).YX

Secara historis, regresi jejak akarnya penemuan Galton (c 1885.) Yang bivariat data yang normal menikmati linear regresi: ekspektasi bersyarat dari Y adalah fungsi linear dari X . Pada satu kutub dari spektrum umum-khusus adalah Regresi Kuadrat Terkecil Biasa (OLS) di mana distribusi bersyarat Y diasumsikan Normal ( β 0 + β 1 X , σ 2 ) untuk parameter tetap β 0 , β 1 , dan σ(X,Y)YXY(β0+β1X,σ2)β0,β1,σ diperkirakan dari data.

Pada ujung yang sangat umum dari spektrum ini adalah model linier umum, model aditif umum, dan lain-lain sejenisnya yang mengendurkan semua aspek OLS: harapan, varian, dan bahkan bentuk distribusi bersyarat dapat dibiarkan bervariasi secara nonlinier. dengan X . Konsep yang bertahan dari semua generalisasi ini adalah bahwa minat tetap terfokus pada pemahaman bagaimana Y bergantung pada XYXYX . Asimetri fundamental itu masih ada.

Korelasi dan Regresi

Satu situasi yang sangat khusus adalah umum untuk kedua pendekatan dan sering dijumpai: model Normal bivariat. Dalam model ini, sebar data akan mengasumsikan bentuk klasik "football," oval, atau cerutu: data tersebar secara elips di sekitar sepasang sumbu ortogonal.

  • Analisis korelasi berfokus pada "kekuatan" hubungan ini, dalam arti bahwa penyebaran yang relatif kecil di sekitar sumbu utama adalah "kuat."

  • Seperti yang dikomentari di atas, regresi pada X (dan, yang sama, regresi X pada Y ) linier : harapan bersyarat dari respons adalah fungsi linier dari regressor.YXXY

(Ada baiknya merenungkan perbedaan geometris yang jelas antara kedua deskripsi: mereka menerangi perbedaan statistik yang mendasarinya.)

Dari lima parameter Normal bivariat (dua rata-rata, dua spread, dan satu lagi yang mengukur ketergantungan antara dua variabel), satu adalah kepentingan umum: parameter kelima, . Ini secara langsung (dan sederhana) terkait denganρ

  1. Koefisien dalam regresi Y pada X .XYX

  2. Koefisien dalam regresi X pada Y .YXY

  3. Varians bersyarat di salah satu regresi dan ( 2 ) .(1)(2)

  4. Penyebaran sekitar sumbu elips (diukur sebagai varian).(X,Y)

Sebuah analisis korelasi berfokus pada , tanpa membedakan peran X dan Y .(4)XY

Analisis regresi berfokus pada versi hingga ( 3 ) yang sesuai dengan pilihan variabel regresi dan respons.(1)(3)

Dalam kedua kasus, hipotesis menikmati peran khusus: ini menunjukkan tidak ada korelasi dan juga tidak ada variasi Y sehubungan dengan XH0:ρ=0YX . Karena (dalam situasi yang paling sederhana ini) kedua model probabilitas dan hipotesis nol yang umum untuk korelasi dan regresi, itu seharusnya tidak mengejutkan bahwa kedua metode berbagi minat dalam statistik yang sama (apakah disebut " " atau " β "); bahwa distribusi sampling nol dari statistik tersebut adalah sama; dan (karenanya) bahwa uji hipotesis dapat menghasilkan nilai-p yang identik.rβ^

Aplikasi umum ini, yang merupakan yang pertama kali dipelajari orang, dapat mempersulit untuk mengenali betapa berbedanya korelasi dan regresi dalam konsep dan tujuan mereka. Hanya ketika kita mengetahui tentang generalisasi mereka, perbedaan yang mendasarinya diekspos. Akan sulit untuk menafsirkan GAM sebagai memberikan banyak informasi tentang "korelasi," seperti halnya sulit untuk membingkai analisis cluster sebagai bentuk "regresi." Keduanya adalah keluarga prosedur yang berbeda dengan tujuan yang berbeda, masing-masing bermanfaat dalam haknya sendiri ketika diterapkan dengan tepat.


Saya berharap bahwa tinjauan yang agak umum dan agak kabur ini telah menerangi beberapa cara di mana "masalah ini masuk lebih dalam daripada sekadar apakah danr harus numerik yang sama." Penghargaan atas perbedaan-perbedaan ini telah membantu saya memahami berbagai teknik yang ingin dicapai, serta memanfaatkannya dengan lebih baik dalam memecahkan masalah statistik.β^

whuber
sumber
Terima kasih whuber atas jawaban yang penuh wawasan ini! Seperti disebutkan dalam komentar untuk jawaban @ matt-barstead, saya menemukan kesalahan standar untuk , mengenai pertanyaan kedua saya. Apa yang saya tidak begitu mengerti adalah bagaimana itu diturunkan dan mengapa (mirip dengan pertanyaan di sini )r
Stefan
1
SE untuk dapat diturunkan hanya dengan membuat asumsi distribusi tertentu, seperti itu ( X , Y ) adalah Normal bivariat. Pada titik itu merupakan latihan dalam Kalkulus integral - yang untuk pertanyaan ini bukan hal yang mencerahkan untuk dikejar. Distribusi r dikutip oleh Wikipedia dan diturunkan (secara geometris) di posting saya di stats.stackexchange.com/a/85977/919 . r(X,Y)r
whuber
Saya akan meninggalkan kaleng cacing ini untuk lain waktu :) Terima kasih atas komentar Anda @whuber!
Stefan
3

Seperti jawaban @ whuber menyarankan ada sejumlah model dan teknik yang mungkin jatuh di bawah payung korelasi yang tidak memiliki analog yang jelas dalam dunia regresi dan sebaliknya. Namun, pada umumnya ketika orang berpikir tentang, membandingkan, dan membandingkan regresi dan korelasi mereka sebenarnya mempertimbangkan dua sisi dari koin matematika yang sama (biasanya regresi linier dan korelasi Pearson). Apakah mereka harus mengambil pandangan yang lebih luas dari kedua keluarga analisis adalah sesuatu dari perdebatan yang terpisah, dan yang harus diperjuangkan oleh para peneliti setidaknya secara minimal.

xy(x,y)

Dalam pandangan sempit tentang regresi dan korelasi ini, penjelasan berikut harus membantu menjelaskan bagaimana dan mengapa estimasi mereka, kesalahan standar, dan nilai p pada dasarnya adalah varian satu sama lain.

Dengan kerangka data dat menjadi longleykumpulan data yang direferensikan di atas kita mendapatkan berikut untuk cor.test. (Tidak ada yang baru di sini kecuali Anda melewatkan pertanyaan di atas dan langsung membaca jawabannya):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Dan berikut ini untuk model linier (juga sama seperti di atas):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Sekarang untuk komponen baru untuk jawaban ini. Pertama, buat dua versi standar baru dariEmployed dan Populationvariabel :

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

Jalankan kembali regresi kedua:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Voila! Kemiringan regresi sama dengan koefisien korelasi dari atas. Jawabannya Pertanyaan 1 kemudian adalah bahwa asumsi untuk kedua tes pada dasarnya sama:

  1. Independensi pengamatan
  2. xy
  3. eN(0,σe2)
  4. Istilah kesalahan didistribusikan dengan cara yang sama pada setiap nilai prediksi garis regresi (yaitu, homogenitas varian kesalahan)

xy variabel di mana kedua variabel berpusat rata-rata dan diberi varian 1 (kadang-kadang disebut skor-z atau standardisasi).

Untuk Pertanyaan 2 , mari kita mulai dengan kesalahan standar rumus kemiringan regresi yang digunakan di atas (tersirat dalam kode R - tetapi dinyatakan langsung di bawah ini):

b=(XiX¯)(YiY¯)(XiX¯)2

bVar(b)Xi=(XiX¯)Yi=(YiY¯)

Var(b)=Var((XiYi)(Xi2))

Dari rumus itu Anda bisa mendapatkan ungkapan berikut ini, yang kental dan lebih bermanfaat ( lihat tautan ini untuk langkah-demi-langkah ):

Var(b)=σe2(XiX¯)2
SE(b)=Var(b)=σe2(XiX¯)2

σe2 mewakili varians dari residual,

Saya pikir Anda akan menemukan jika Anda menyelesaikan persamaan ini untuk model linier yang tidak standar dan terstandarisasi (yaitu, korelasi) Anda akan mendapatkan nilai p dan t yang sama untuk lereng Anda. Kedua tes ini mengandalkan estimasi kuadrat terkecil biasa dan membuat asumsi yang sama. Dalam praktiknya, banyak peneliti melewatkan pemeriksaan asumsi untuk model regresi linier sederhana dan korelasi, meskipun saya pikir itu lebih lazim untuk melakukannya untuk korelasi karena banyak orang tidak mengenalinya sebagai kasus khusus regresi linier sederhana. (Catatan: ini bukan praktik yang baik untuk diadopsi)

Matt Barstead
sumber
2
Jawaban ini tidak membahas kutipan dari @whuber yang direproduksi dalam pertanyaan, di mana ia mengklaim bahwa asumsi berbeda. Apakah Anda bermaksud mengatakan bahwa pernyataan ini salah?
Amoeba berkata Reinstate Monica
Jika Anda mengikuti persamaan ini, korelasi Pearson memiliki asumsi dasar yang sama dari regresi linier sederhana. Saya dapat mengubah respons saya untuk lebih jelas menyatakan ini.
Matt Barstead
1
Terima kasih atas jawaban Anda! Saya menyadari bahwa koefisien korelasi sama dengan kemiringan regresi ketika distandarisasi. Ini ditunjukkan di tautan 3 dan 4 di pertanyaan saya. Saya juga mengetahui asumsi umum yang Anda cantumkan dan itulah mengapa komentar @whuber membuat saya berpikir sehingga mengarah ke pertanyaan ini. Saya seharusnya secara eksplisit menyatakan asumsi yang saya ketahui - permintaan maaf saya.
Stefan
1
rrr <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
0

Mengenai pertanyaan 2

bagaimana menghitung sama t-nilai menggunakan r bukan β1

Saya tidak berpikir itu adalah mungkin untuk menghitung t statistik dari r nilai, namun inferensi statistik yang sama dapat diturunkan dari F statistik, di mana hipotesis alternatif adalah bahwa model tidak menjelaskan data, dan ini dapat dihitung dari r.

F=r2/k(1-r2)/(n-k)

Dengan k=2 parameter dalam model dan n=dSebuahtSebuahhalHaisayants

Dengan batasan itu

... rasio F tidak dapat digunakan ketika model tidak memiliki intersep

Sumber: Pengujian hipotesis dalam model regresi berganda

Harry Salmon
sumber
1
Saya melihat kembali ke pos asli untuk mengidentifikasi pertanyaan apa yang mungkin Anda jawab. Saya menemukan dua, bernomor 1 (tentang asumsi) dan 2 (tentang menghitung nilai-t), tetapi tampaknya tidak ada yang diatasi oleh jawaban ini. Bisakah Anda memberi tahu kami secara lebih eksplisit pertanyaan apa yang Anda jawab?
whuber
1
Terima kasih atas klarifikasi: koneksi ke pertanyaan sekarang jelas. Saya menafsirkan pertanyaan itu secara berbeda. Saya menganggap bertanya bagaimana nilai p untuk analisis korelasi (yaitu, berdasarkan pada koefisien korelasi sampelrdan model yang disiratkannya) dihitung (dan secara implisit menunjukkan secara eksplisit mengapa ia harus menghasilkan nilai yang sama untuk analisis regresi). Jawaban Anda, meskipun benar, juga didasarkan pada regresi, sehingga masih membuat kami bertanya-tanya.
whuber
1
Saya pikir saya mengerti, mungkin saya menjawab pertanyaan dalam kasus khusus daripada umum. Saya pikir akan berguna untuk dapat menyatakan pertanyaan dalam hal null umum dan hipotesis alternatif untuk dapat mempertimbangkan kasus umum ini, seperti yang saya perjuangkan.
Harry Salmon
Saya setuju: menunjukkan model yang jelas dan kriteria keputusan untuk analisis korelasi dan regresi akan sangat membantu dalam membedakan mereka. Kadang-kadang jawaban yang baik terdiri dari sedikit lebih dari membingkai ulang atau mengklarifikasi pertanyaan, dan seringkali jawaban terbaik dimulai dengan pernyataan kembali yang efektif dari pertanyaan, jadi jangan takut untuk pergi ke arah itu.
Whuber