Saya akrab dengan menggunakan regresi linier berganda untuk membuat model berbagai variabel. Namun, saya ingin tahu apakah tes regresi pernah digunakan untuk melakukan semacam pengujian hipotesis dasar. Jika demikian, seperti apa skenario / hipotesis itu?
regression
hypothesis-testing
multiple-regression
cryptic_star
sumber
sumber
Jawaban:
Ini adalah contoh sederhana. Saya tidak tahu apakah Anda terbiasa dengan R, tetapi mudah-mudahan kode ini cukup jelas.
Sekarang, mari kita lihat seperti apa ini:
Kita dapat fokus pada bagian "Koefisien" dari output. Setiap parameter yang diestimasi oleh model mendapatkan barisnya sendiri. Estimasi aktual itu sendiri tercantum di kolom pertama. Kolom kedua mencantumkan Kesalahan Standar estimasi, yaitu perkiraan berapa banyak perkiraan akan 'melambung' dari sampel ke sampel, jika kami mengulangi proses ini berulang-ulang. Lebih khusus lagi, ini merupakan estimasi standar deviasi dari distribusi sampling estimasi. Jika kita membagi masing-masing estimasi parameter dengan SE-nya, kita mendapatkan skor-t , yang terdaftar di kolom ketiga; ini digunakan untuk pengujian hipotesis, khususnya untuk menguji apakah estimasi parameter 'berbeda' secara signifikan dari 0. Kolom terakhir adalahp-value yang terkait dengan t-score itu. Ini adalah probabilitas untuk menemukan nilai estimasi yang jauh atau lebih jauh dari 0, jika hipotesis nol itu benar. Perhatikan bahwa jika hipotesis nol tidak benar, tidak jelas bahwa nilai ini memberi tahu kita apa pun yang bermakna sama sekali.
Jika kita melihat bolak-balik antara tabel Koefisien dan proses menghasilkan data sebenarnya di atas, kita dapat melihat beberapa hal menarik. Intersep diperkirakan -1,8 dan SE-nya adalah 27, sedangkan nilai sebenarnya adalah 15. Karena nilai-p terkait adalah 0,95, itu tidak akan dianggap 'berbeda secara signifikan' dari 0 ( kesalahan tipe II ), tetapi meskipun demikian dalam satu SE dari nilai sebenarnya. Oleh karena itu, tidak ada yang sangat ekstrem mengenai perkiraan ini dari perspektif nilai sebenarnya dan jumlah yang harus berfluktuasi; kita hanya memiliki kekuatan yang tidak cukup untuk membedakannya dari 0. Cerita yang sama berlaku, kurang lebih, untuk.21214 ≈ .2
x1
x2
x3
x1
memprediksi variabel respons lebih baik daripada kebetulan saja. Cara lain untuk mengatakan ini, adalah apakah semua estimasi harus dianggap tidak dapat dibedakan dari 0. Hasil tes ini menunjukkan bahwa setidaknya beberapa estimasi parameter tidak sama dengan 0, sebelum keputusan yang tepat. Karena ada 4 tes di atas, kami tidak akan memiliki perlindungan dari masalah beberapa perbandingan tanpa ini. (Ingatlah bahwa karena nilai-p adalah variabel acak - apakah ada sesuatu yang signifikan akan berbeda dari satu eksperimen ke eksperimen lainnya, jika percobaan dijalankan kembali - adalah mungkin untuk ini tidak konsisten satu sama lain. Ini dibahas pada CV di sini: Signifikansi koefisien dalam regresi berganda: uji-t signifikan vs F-statistik tidak signifikan, dan situasi yang berlawanan di sini: Bagaimana regresi menjadi signifikan namun semua prediktor tidak signifikan , & di sini: F dan statistik t dalam regresi .) Mungkin anehnya, tidak ada kesalahan tipe I dalam contoh ini. Bagaimanapun, semua 5 tes yang dibahas dalam paragraf ini adalah tes hipotesis.Dari komentar Anda, saya mengumpulkan Anda mungkin juga bertanya-tanya tentang bagaimana menentukan apakah satu variabel penjelas lebih penting daripada yang lain. Ini adalah pertanyaan yang sangat umum, tetapi cukup rumit. Bayangkan ingin memprediksi potensi keberhasilan dalam olahraga berdasarkan tinggi dan berat atlet, dan bertanya-tanya mana yang lebih penting. Strategi yang umum adalah melihat koefisien estimasi yang lebih besar. Namun, perkiraan ini khusus untuk unit yang digunakan: misalnya, koefisien berat akan berubah tergantung pada apakah pound atau kilogram digunakan. Selain itu, tidak jelas bagaimana menyamakan / membandingkan pound dan inci, atau kilogram dan sentimeter. Salah satu strategi yang digunakan adalah standardisasiR2 r = r2--√
sumber
Tes penting dalam model regresi adalah tes Full-Reduced. Di sinilah Anda membandingkan 2 model regresi, model Lengkap memiliki semua istilah di dalamnya dan tes Reduced memiliki subset dari istilah-istilah tersebut (model Reduced perlu disarangkan dalam model Full). Tes kemudian menguji hipotesis nol bahwa model yang direduksi cocok dengan model lengkap dan ada perbedaan karena kebetulan.
Cetakan umum dari perangkat lunak statistik mencakup uji F keseluruhan, ini hanya tes Full-Reduced di mana tes yang dikurangi adalah model intersep saja. Mereka juga sering mencetak nilai p untuk setiap prediktor individu, ini hanya serangkaian tes model Berkurang Penuh, di masing-masing model yang direduksi tidak termasuk istilah tertentu. Ada banyak cara untuk menggunakan tes ini untuk menjawab pertanyaan yang menarik. Bahkan hampir setiap tes yang diajarkan dalam kursus statistik pengantar dapat dihitung menggunakan model regresi dan tes Full-Reduced dan hasilnya akan identik dalam banyak kasus dan perkiraan yang sangat dekat dalam beberapa tes lainnya.
sumber