Mengapa beberapa orang menguji asumsi model seperti regresi pada data mentah mereka dan orang lain mengujinya pada residu?

12

Saya seorang mahasiswa Phd dalam psikologi eksperimental dan saya berusaha keras untuk meningkatkan keterampilan dan pengetahuan saya tentang bagaimana menganalisis data saya.

Sampai tahun ke 5 saya di Psikologi, saya berpikir bahwa model seperti regresi (misalnya, ANOVA) mengasumsikan hal-hal berikut:

  • normalitas data
  • homogenitas varians untuk data dan sebagainya

Program sarjana saya membuat saya percaya bahwa asumsi itu tentang data. Namun di tahun ke-5 saya, beberapa instruktur saya menggarisbawahi fakta bahwa asumsi adalah tentang kesalahan (diperkirakan oleh residu) dan bukan data mentah.

Baru-baru ini saya berbicara tentang pertanyaan asumsi dengan beberapa rekan saya yang juga mengakui bahwa mereka menemukan pentingnya memeriksa asumsi pada residu hanya di tahun-tahun terakhir mereka di universitas.

Jika saya mengerti dengan baik, model seperti regresi membuat asumsi tentang kesalahan. Jadi masuk akal untuk memeriksa asumsi pada residu. Jika demikian, mengapa sebagian orang memeriksa asumsi pada data mentah? Apakah karena prosedur pemeriksaan seperti itu mendekati apa yang akan kita peroleh dengan memeriksa sisa?

Saya akan sangat menarik dalam diskusi tentang masalah ini dengan beberapa orang yang memiliki pengetahuan yang lebih akurat daripada rekan-rekan saya dan saya. Saya berterima kasih sebelumnya atas jawaban Anda.

Psychokwak
sumber

Jawaban:

13

Pada dasarnya, Anda berada di jalur yang benar. Anda akan menemukan diskusi tentang aspek normalitas dalam Normalitas variabel dependen = normalitas residual?

Beberapa asumsi model linier klasik memang tentang kesalahan (menggunakan residu sebagai realisasi dari mereka):

  • Apakah mereka tidak berkorelasi? (Relevan untuk inferensi dan optimalitas OLS-estimator)
  • Apakah mereka memiliki varian yang sama? (Relevan untuk inferensi dan optimalitas OLS-estimator)
  • Apakah mereka berpusat di sekitar 0? (Asumsi kunci untuk mendapatkan penaksir dan prediksi yang tidak bias)
  • Jika sampel sangat kecil: apakah sampel normal atau paling tidak terdistribusi secara simetris? (Relevan untuk inferensi)

Ketentuan lainnya adalah tentang "data mentah":

  • Apakah tidak ada outlier kotor dalam regressor? (Pengamatan leverage tinggi dapat menghancurkan seluruh model)
  • Tidak ada multikolinieritas sempurna? (Akan menyebabkan masalah komputasi, setidaknya dalam beberapa paket perangkat lunak)

Sekarang, guru sarjana Anda mungkin benar juga:

  • Mungkin Anda berfokus pada tes univariat seperti uji satu sampel. Di sana, asumsi tentang data mentah.
  • Jika cukup rendah dan variabel respons terlihat semuanya normal, maka kemungkinan besar hal yang sama juga berlaku untuk residu.R2
  • Bagaimana Anda memeriksa homoseksualitas dll berdasarkan data mentah? Mungkin Anda salah paham.
Michael M.
sumber
Ok terima kasih banyak atas jawaban Anda dan untuk tautan yang sangat berguna. Beberapa kolega saya dan saya percaya sampai baru-baru ini bahwa data mentah harus memiliki varian yang sama. Seperti yang Anda katakan, kami mungkin melewatkan sesuatu dalam kursus kami. Dalam beberapa buku kita dapat membaca yang berikut ini:
Psychokwak
"Prosedur statistik yang paling umum membuat dua asumsi yang relevan dengan topik ini: (a) asumsi bahwa variabel (atau istilah kesalahannya, lebih teknis) terdistribusi secara normal, dan (b) asumsi kesetaraan varians (homoscedasticity atau homogenitas) of variance), yang berarti bahwa varians dari variabel tetap konstan pada rentang yang diamati dari beberapa variabel lainnya. " Apakah itu berarti bahwa ketika seseorang berbicara tentang "variabel" dia secara sistematis berbicara tentang "istilah kesalahan mereka"? Jika demikian saya setuju dengan itu tetapi tanpa menyebutkan secara eksplisit itu jauh dari jelas (setidaknya untuk saya).
Psychokwak
Akhirnya, saya punya pertanyaan terakhir tentang jawaban Anda. Jika t-test dan ANOVA adalah kasus-kasus tertentu dari regresi, mengapa asumsi tentang data dalam uji-satu sampel? Sekali lagi terima kasih atas jawaban Anda yang bermanfaat.
Psychokwak
1
Untuk menjawab komentar terakhir Anda: Uji satu sampel juga dapat dilihat sebagai kasus regresi khusus. Model ini hanya terdiri dari intersep (= rata-rata) dan istilah kesalahan, yaitu responsnya adalah kesalahan yang bergeser. Karena shift tidak relevan untuk asumsi apa pun, itu sama dengan berbicara tentang data atau residu.
Michael M
4

Saya menemukan perbedaan antara residu dan data mentah tidak membantu karena keduanya lebih merujuk pada sampel aktual Anda dan bukan distribusi populasi yang mendasarinya. Lebih baik untuk memikirkan beberapa persyaratan sebagai "persyaratan dalam kelompok" dan yang lain "antara asumsi kelompok".

Sebagai contoh, homogenity varians adalah "asumsi antar-kelompok" karena ia mengatakan bahwa varians dalam kelompok adalah sama untuk semua kelompok.

Normalitas adalah asumsi "dalam kelompok" yang mensyaratkan bahwa dalam setiap kelompok y didistribusikan secara normal.

Perhatikan bahwa memiliki normalitas atas seluruh bahan baku Anda biasanya berarti Anda tidak berpengaruh - lihat distribusi gender tanpa membedakan antara wanita dan pria. Ini tidak akan didistribusikan secara normal, karena efek gender yang kuat. Tetapi di dalam setiap gender itu bertahan cukup baik.

Erik
sumber
1
Terima kasih atas jawaban Anda juga. Ini adalah cara yang menarik untuk melihat pertanyaannya. Saya tidak pernah berpikir tentang kenormalan sedemikian rupa (yaitu, "bahwa memiliki kenormalan di atas seluruh mentah biasanya berarti [kita] tidak memiliki efek").
Psychokwak