Saya perlu sedikit bantuan untuk bergerak ke arah yang benar. Sudah lama sejak saya mempelajari statistik dan jargon tampaknya telah berubah.
Bayangkan bahwa saya memiliki satu set data terkait mobil seperti
- Waktu perjalanan dari kota A ke kota B
- Jarak dari kota A ke kota B
- Ukuran mesin
- Ukuran sepatu pengemudi
- Membuat dan membuat model mobil
- Hari dalam seminggu
Saya ingin memprediksi waktu perjalanan.
Saya membayangkan ada korelasi kuat antara waktu dan jarak dan mungkin yang lebih lemah untuk ukuran mesin (dan tidak ada untuk ukuran sepatu). Agaknya analisis regresi berganda / ANOVA adalah alat untuk digunakan. Tetapi bagaimana saya memasukkan hari dalam seminggu, karena hanya mengkodekannya sebagai hari Minggu = 1, Senin = 2 dll terasa sangat salah?
Setelah menggunakan alat regresi Excel, misalnya, bagaimana cara menginterpretasikan hasil? Agaknya jika R mendekati 1, ini bagus (walaupun jika ada banyak item data tampaknya itu bisa kecil namun masih signifikan). Tetapi beberapa sumber merujuk ke r-kuadrat yang tampaknya menjadi SD, sehingga nilai mendekati nol adalah baik. Ini juga menunjukkan t Stat, P-value, F dan Signifikansi F, apa pun itu. Adakah yang bisa merekomendasikan sumber referensi yang bagus?
sumber
Jawaban:
Yang Anda butuhkan adalah tinjauan yang solid tentang metodologi regresi. Namun, pertanyaan-pertanyaan ini cukup mendasar (jangan anggap itu salah) sehingga bahkan gambaran umum statistik dasar yang baik mungkin akan menguntungkan Anda. Howell telah menulis buku teks yang sangat populer yang memberikan landasan konseptual yang luas tanpa memerlukan matematika yang padat. Mungkin sepadan dengan waktu Anda untuk membacanya. Semua materi itu tidak mungkin dibahas di sini. Namun, saya dapat mencoba untuk memulai beberapa pertanyaan spesifik Anda.
Pertama, hari dalam seminggu dimasukkan melalui skema pengkodean. Yang paling populer adalah pengkodean 'kategori referensi' (biasanya disebut pengkodean dummy). Mari kita bayangkan bahwa data Anda direpresentasikan dalam sebuah matriks, dengan kasing Anda di baris dan variabel Anda di kolom. Dalam skema ini, jika Anda memiliki 7 variabel kategori (mis., Untuk hari dalam seminggu) Anda akan menambahkan 6 kolom baru. Anda akan memilih satu hari sebagai kategori referensi, umumnya yang dianggap sebagai default. Seringkali ini diinformasikan oleh teori, konteks, atau pertanyaan penelitian. Saya tidak tahu mana yang terbaik untuk hari dalam seminggu, tetapi juga tidak terlalu penting, Anda bisa memilih yang lama. Setelah Anda memiliki kategori referensi, Anda bisa menetapkan yang lain ke 6 variabel baru Anda, lalu Anda cukup menunjukkan apakah variabel itu diperoleh untuk setiap kasus. Misalnya, Anda memilih hari Minggu sebagai kategori referensi, kolom / variabel baru Anda adalah Senin-Sabtu. Setiap pengamatan yang terjadi pada hari Senin akan ditandai dengan a0 1 01 di kolom Senin, dan tempat lain. Hal yang sama akan terjadi dengan pengamatan pada hari Selasa dan seterusnya. Perhatikan bahwa tidak ada case yang bisa mendapatkan dalam 2 kolom atau lebih, dan bahwa pengamatan yang terjadi pada hari Minggu (kategori referensi) akan memiliki dalam semua variabel baru Anda. Ada banyak skema pengkodean lain yang mungkin, dan tautannya berfungsi dengan baik untuk memperkenalkannya. Anda dapat menguji untuk melihat apakah hari dalam seminggu penting dengan menguji model bersarang dengan semua 6 variabel baru turun vs model lengkap dengan semua 6 disertakan. Perhatikan bahwa Anda tidak boleh menggunakan tes yang dilaporkan dengan output standar, karena ini tidak independen dan memiliki masalah perbandingan banyak intrinsik. 0 1 0
Sudah lama sejak saya telah melihat bagaimana Excel melakukan statistik, dan saya tidak mengingatnya dengan sangat jelas, sehingga orang lain mungkin dapat membantu Anda lebih banyak di sana. Halaman ini tampaknya memiliki beberapa informasi tentang spesifikasi regresi di Excel. Saya dapat memberi tahu Anda sedikit lebih banyak tentang statistik yang biasanya dilaporkan dalam hasil regresi:
Satu hal terakhir yang perlu ditekankan adalah bahwa proses ini tidak dapat dipisahkan dari konteksnya. Untuk melakukan pekerjaan menganalisis data dengan baik, Anda harus mengingat latar belakang pengetahuan dan pertanyaan penelitian Anda. Saya menyinggung ini di atas mengenai pilihan kategori referensi. Misalnya, Anda perhatikan bahwa ukuran sepatu tidak boleh relevan, tetapi untuk Flintstones, itu mungkin! Saya hanya ingin memasukkan fakta ini, karena sepertinya sering dilupakan.
sumber
Anda diakhiri dengan banyak pertanyaan yang membutuhkan regresi "pengajaran". Izinkan saya mengatakan bahwa R ^ 2 yang lebih tinggi lebih baik tetapi ada peringatan. R ^ 2 selalu naik saat Anda menambahkan variabel sehingga Anda dapat mengembangnya secara artifisial. Lihatlah tes signifikansi, lihat sisa diagnostik, dll. Sehubungan dengan hari dalam seminggu, Senin = 1, Selasa = 2, dll. Tidak akan menjadi jalan yang harus ditempuh. Yang Anda inginkan adalah variabel indikator musiman: 0/1 jika Senin, 0/1 jika Selasa, dll.
sumber