Saya punya beberapa data yang sesuai dengan garis linear:
Ketika saya melakukan regresi linier dari nilai-nilai ini, saya mendapatkan persamaan linear:
Dalam dunia yang ideal, persamaan harus menjadi .
Jelas, nilai linear saya dekat dengan ideal itu, tetapi tidak persis. Pertanyaan saya adalah, bagaimana saya bisa menentukan apakah hasil ini signifikan secara statistik?
Apakah nilai 0,997 berbeda secara signifikan dari 1? Apakah -0,01 berbeda secara signifikan dari 0? Atau apakah secara statistik sama dan saya dapat menyimpulkan bahwa dengan tingkat kepercayaan yang wajar?
Apa tes statistik yang baik yang bisa saya gunakan?
Terima kasih
Jawaban:
Jenis situasi ini dapat ditangani dengan uji-F standar untuk model bersarang . Karena Anda ingin menguji kedua parameter terhadap model nol dengan parameter tetap, hipotesis Anda adalah:
Uji-F melibatkan pemasangan kedua model dan membandingkan jumlah sisa kuadratnya, yaitu:
Statistik pengujian adalah:
Nilai p yang sesuai adalah:
Implementasi dalam R: Misalkan data Anda dalam bingkai data yang disebut
DATA
dengan variabel yang disebuty
danx
. Uji-F dapat dilakukan secara manual dengan kode berikut. Dalam data tiruan simulasi yang saya gunakan, Anda dapat melihat bahwa koefisien yang diestimasi dekat dengan yang ada di hipotesis nol, dan nilai p tes tidak menunjukkan bukti signifikan untuk memalsukan hipotesis nol bahwa fungsi regresi yang sebenarnya adalah fungsi identitas.The
summary
output danplot
untuk ini terlihat data seperti ini:sumber
sd = 2/sqrt(1+abs(x))
Berikut adalah metode grafis keren yang saya tulis dari buku bagus Julian Faraway "Linear Models With R (Second Edition)". Ini interval kepercayaan 95% simultan untuk mencegat dan kemiringan, diplot sebagai elips.
Sebagai ilustrasi, saya membuat 500 pengamatan dengan variabel "x" memiliki distribusi N (rata-rata = 10, sd = 5) dan kemudian variabel "y" yang distribusinya adalah N (rata-rata = x, sd = 2). Itu menghasilkan korelasi sedikit di atas 0,9 yang mungkin tidak seketat data Anda.
Anda dapat memeriksa elips untuk melihat apakah titik (intersep = 0, kemiringan = 1) berada di dalam atau di luar interval kepercayaan simultan.
Dibuat pada 2019-01-21 oleh paket reprex (v0.2.1)
sumber
Anda dapat menghitung koefisien dengan sampel n bootstrap. Ini kemungkinan akan menghasilkan nilai koefisien terdistribusi normal (teorema batas pusat). Dengan itu Anda kemudian dapat membangun interval kepercayaan (misalnya 95%) dengan nilai-t (n-1 derajat kebebasan) di sekitar rata-rata. Jika CI Anda tidak termasuk 1 (0), itu berbeda secara statistik, atau lebih tepat: Anda dapat menolak hipotesis nol dari kemiringan yang sama.
sumber
sumber
Anda harus cocok dengan regresi linier dan periksa interval kepercayaan 95% untuk dua parameter. Jika CI lereng termasuk 1 dan CI offset termasuk 0 uji dua sisi tidak signifikan. pada tingkat (95%) ^ 2 - saat kami menggunakan dua tes terpisah, risiko typ-I meningkat.
Menggunakan R:
atau Anda gunakan
dan hitung interval 2 sigma sendiri.
sumber