Saya pikir mencoba memikirkan ini sebagai model linier umum adalah berlebihan. Apa yang Anda miliki adalah model regresi lama yang sederhana. Lebih khusus lagi, karena Anda memiliki beberapa variabel penjelas kategoris, dan EV kontinu, tetapi tidak ada interaksi di antara mereka, ini juga bisa disebut ANCOVA klasik.
Saya akan mengatakan bahwa # 3 tidak benar-benar asumsi di sini bahwa Anda perlu khawatir. Dalam hal ini, Anda juga tidak perlu khawatir tentang # 2. Sebaliknya, saya akan menggantikan ini dengan dua asumsi berbeda:
2 '. Homogenitas varian
3 '. Normalitas residu
Selanjutnya, # 4 adalah hal yang penting untuk diperiksa, tetapi saya tidak benar-benar menganggapnya sebagai asumsi semata. Mari kita pikirkan bagaimana asumsi dapat diperiksa.
Kemandirian sering 'diperiksa' terlebih dahulu dengan memikirkan tentang apa data itu berdiri dan bagaimana mereka dikumpulkan. Selain itu, dapat diperiksa menggunakan hal-hal seperti tes lari , tes Durbin-Watson , atau memeriksa pola autokorelasi - Anda juga dapat melihat autokorelasi parsial . (Perhatikan bahwa, ini hanya dapat dinilai relatif terhadap kovariat berkelanjutan Anda.)
Fm a x. (Perhatikan bahwa tes ini dapat diterapkan pada kovariat kategorikal Anda tidak seperti di atas.) Untuk EV kontinu, saya suka memetakan residu saya terhadap kovariat kontinu dan memeriksanya secara visual untuk melihat apakah mereka menyebar lebih jauh ke satu sisi atau yang lain.
The normalitas dari residual dapat dinilai melalui beberapa tes, seperti Shapiro-Wilk , atau tes Kolmogorov-Smirnov , tetapi sering terbaik dinilai secara visual melalui qq-plot . (Perhatikan bahwa asumsi ini umumnya yang paling tidak penting dari himpunan; jika tidak terpenuhi, perkiraan beta Anda akan tetap tidak bias , tetapi nilai-p Anda akan tidak akurat.)
Ada beberapa cara untuk menilai pengaruh pengamatan pribadi Anda. Dimungkinkan untuk mendapatkan nilai numerik yang mengindeks ini, tetapi cara favorit saya, jika Anda bisa melakukannya, adalah untuk mengetahui data Anda. Artinya, Anda menjatuhkan setiap titik data secara bergantian dan menyesuaikan kembali model Anda. Kemudian Anda dapat memeriksa seberapa banyak beta Anda terpental jika pengamatan itu bukan bagian dari dataset Anda. Ukuran ini disebut dfbeta . Ini memerlukan sedikit pemrograman, tetapi ada cara standar yang sering kali dapat dihitung oleh perangkat lunak untuk Anda. Ini termasuk leverage dan jarak Cook .
Y
Mengenai "skala pengukuran variabel penjelas yang benar", saya mengajak Anda untuk merujuk pada tingkat pengukuran Steven (yaitu, kategorikal, ordinal, interval & rasio). Hal pertama yang harus disadari adalah bahwa metode regresi (termasuk GLiM) tidak membuat asumsi tentang variabel penjelas, sebaliknya, cara Anda menggunakan variabel penjelas Anda dalam model Anda mencerminkan keyakinan Anda tentang mereka. Selain itu, saya cenderung berpikir level Steven dimainkan berlebihan; untuk perawatan yang lebih teoretis dari topik itu, lihat di sini .