Saya selalu kesulitan menjelaskan teknik statistik kepada audiens tanpa latar belakang statistik. Jika saya ingin menjelaskan apa itu GLM untuk audiens seperti itu (tanpa membuang jargon statistik), apa yang akan menjadi cara terbaik atau paling efektif?
Saya biasanya menjelaskan GLM dengan tiga bagian - (1) komponen acak yang merupakan variabel respons, (2) komponen sistematis yang merupakan prediktor linier, dan (3) fungsi tautan yang merupakan "kunci" untuk menghubungkan (1) dan (2) Kemudian saya akan memberikan contoh regresi linier atau logistik dan menjelaskan bagaimana fungsi tautan dipilih berdasarkan variabel respons. Karenanya ia bertindak sebagai kunci yang menghubungkan dua komponen.
Jawaban:
Jika audiens benar-benar tidak memiliki latar belakang statistik, saya pikir saya akan mencoba menyederhanakan penjelasannya sedikit lebih banyak. Pertama, saya akan menggambar sebuah pesawat koordinat di papan dengan garis di atasnya, seperti:
Semua orang di pembicaraan Anda akan terbiasa dengan persamaan untuk garis sederhana, y = m x + b , karena itu adalah sesuatu yang dipelajari di sekolah dasar. Jadi saya akan menampilkannya di samping gambar. Namun, saya akan menulisnya mundur, seperti: y= M x + b
Saya akan mengatakan bahwa persamaan ini adalah contoh dari regresi linier sederhana. Saya kemudian akan menjelaskan bagaimana Anda (atau komputer) dapat cocok dengan persamaan seperti itu ke sebidang sebaran titik data, seperti yang ditunjukkan pada gambar ini:
Saya akan mengatakan bahwa di sini, kita menggunakan usia organisme yang sedang kita pelajari untuk memprediksi seberapa besar itu, dan bahwa persamaan regresi linier yang dihasilkan yang kita dapatkan (ditunjukkan pada gambar) dapat digunakan untuk memprediksi seberapa besar suatu organisme adalah jika kita tahu umurnya.
Kemudian saya akan menjelaskan lagi bahwa ini adalah contoh persamaan regresi linier sederhana, dan sebenarnya ada varietas yang lebih rumit. Misalnya, dalam variasi yang disebut regresi logistik , y hanya boleh 1 atau 0. Seseorang mungkin ingin menggunakan model jenis ini jika Anda mencoba memprediksi jawaban "ya" atau "tidak", seperti apakah seseorang memiliki penyakit atau tidak. Variasi khusus lainnya adalah sesuatu yang disebut regresi Poisson , yang digunakan untuk menganalisis data "hitung" atau "peristiwa" (saya tidak akan membahas lebih jauh tentang hal ini kecuali benar-benar diperlukan).
Saya kemudian akan menjelaskan bahwa regresi linier, regresi logistik, dan regresi Poisson benar-benar semua contoh khusus dari metode yang lebih umum, sesuatu yang disebut "model linear umum". Hal yang hebat tentang "model linear umum" adalah bahwa mereka memungkinkan kami untuk menggunakan data "respons" yang dapat mengambil nilai apa pun (seperti seberapa besar suatu organisme dalam regresi linier), ambil hanya 1 atau 0 (seperti apakah seseorang memiliki atau tidak memiliki penyakit dalam regresi logistik), atau mengambil jumlah diskrit (seperti jumlah kejadian dalam regresi Poisson).
Saya kemudian akan mengatakan bahwa dalam jenis persamaan ini, x (prediktor) terhubung ke y (tanggapan) melalui sesuatu yang oleh ahli statistik disebut sebagai "fungsi tautan". Kami menggunakan "fungsi tautan" ini dalam kasus di mana x's tidak terkait dengan y secara linier.
Bagaimanapun, itu adalah dua sen saya tentang masalah ini! Mungkin penjelasan yang saya usulkan terdengar agak tipu dan bodoh, tetapi jika tujuan latihan ini hanya untuk menyampaikan "inti" kepada audiens, mungkin penjelasan seperti ini tidak terlalu buruk. Saya pikir sangat penting bahwa konsep tersebut dijelaskan dengan cara yang intuitif dan Anda menghindari melemparkan kata-kata seperti "komponen acak", "komponen sistematis", "fungsi tautan", "deterministik", "fungsi logit", dll. Jika Anda sedang berbicara kepada orang-orang yang benar-benar tidak memiliki latar belakang statistik, seperti ahli biologi atau dokter biasa, mata mereka hanya akan berkaca-kaca saat mendengar kata-kata itu. Mereka tidak tahu apa itu distribusi probabilitas, mereka belum pernah mendengar tentang fungsi tautan, dan mereka tidak tahu apa itu "logit"
Dalam penjelasan Anda kepada audiens non-statistik, saya juga akan fokus pada kapan harus menggunakan model apa. Saya mungkin berbicara tentang berapa banyak prediktor yang diizinkan untuk Anda sertakan di sebelah kiri persamaan (Saya pernah mendengar aturan praktis seperti tidak lebih dari ukuran sampel Anda dibagi sepuluh). Akan lebih baik jika menyertakan lembar contoh dengan data dan menjelaskan kepada audiens bagaimana menggunakan paket perangkat lunak statistik untuk menghasilkan model. Saya kemudian akan pergi melalui keluaran dari model itu langkah demi langkah dan mencoba menjelaskan apa arti semua huruf dan angka yang berbeda. Ahli biologi tidak mengerti tentang hal ini dan lebih tertarik untuk mempelajari tes apa yang harus digunakan ketika daripada benar-benar mendapatkan pemahaman tentang matematika di balik GUI SPSS!
Saya akan sangat menghargai komentar atau saran mengenai usulan penjelasan saya, terutama jika ada yang mencatat kesalahan atau memikirkan cara yang lebih baik untuk menjelaskannya!
sumber
Saya tidak akan menyebut respons sebagai komponen acak. Ini adalah kombinasi dari komponen deterministik dan acak.
sumber
Saya akan menjelaskannya dengan mengatakan bahwa kadang-kadang saya perlu sesuatu diprediksi. Misalnya, harga sebuah rumah memberikan beberapa informasi tentangnya. Katakanlah, ukurannya, lokasinya, berapa umur konstruksinya, dll. Saya ingin memasukkan faktor itu ke dalam model yang memperhitungkan pengaruh faktor-faktor ini untuk memprediksi harga.
Sekarang mengambil sub-contoh, katakanlah, saya hanya mempertimbangkan ukuran rumah. Itu menyiratkan bahwa tidak ada hal lain yang mempengaruhi harga. Ini bisa menjadi kasus di mana saya membandingkan rumah-rumah yang berada di lokasi yang sama, dibangun sekitar waktu yang sama dll. Atau mungkin saya tidak ingin memperumit masalah bagi diri saya sendiri dan karenanya ingin kehidupan nyata menyesuaikan dengan bagaimana Sejauh ini saya bisa berpikir. Selanjutnya, saya membuat model di mana saya memiliki daftar ukuran dan harga terkait properti yang sama (katakanlah, dari penjualan yang telah terjadi baru-baru ini ... tapi itu akan memiliki bias serius dari rumah yang tidak untuk dijual dan karenanya mempengaruhi harga rumah yang ada (tapi abaikan saja).
Sekarang saya melihat bahwa rumah seluas 100 kaki persegi berharga $ 1 juta (lupakan saja, ini adalah contoh yang disederhanakan). Jadi, tentu saja Anda akan mengharapkan rumah seluas 200 meter persegi untuk biaya ganda. Dan itulah yang kita sebut "pola linear". Tentu saja ketika kami mengumpulkan data dan ukuran plot vs harga, kami melihat bahwa itu tidak sepenuhnya berlipat ganda. Tapi pasti ada tren yang meningkat.
Jadi saya mencoba mengukur tren. Berapa banyak peningkatan untuk setiap peningkatan kaki persegi? Itu adalah regresi linier.
Masukkan peta terminologi dan lanjutkan dengan konsep statistik. Salah satu cara untuk menjelaskan komponen acak dan sistematis dapat berupa apa pun yang Anda lupa modelkan, atau tidak bisa ukur, adalah acak. Apa pun yang Anda bisa adalah sistematis. (Misalnya, katakan ini 2008 dan Anda ingin menjual rumah.)
Asumsi yang mendasari model ini adalah bahwa sebar harus terlihat seperti batang. Yaitu bahwa X dan Y keduanya "Normal". dan semuanya memiliki varian yang serupa.
Jika bukan itu masalahnya, masukkan GLM. dan sekarang jelaskan fungsi tautan n semua itu.
Ini disederhanakan, tetapi harus berfungsi sebagai pengantar.
Anda dapat memasukkan sejarah GLM dan model faktorial. Di mana Fisher memerlukan hal-hal untuk mulai bervariasi bersama-sama dan kerangka kerja ini cocok untuk kompleksitas semacam itu.
Semoga ini membantu...
sumber