Bagaimana Anda menjelaskan model linear umum kepada orang-orang yang tidak memiliki latar belakang statistik?

16

Saya selalu kesulitan menjelaskan teknik statistik kepada audiens tanpa latar belakang statistik. Jika saya ingin menjelaskan apa itu GLM untuk audiens seperti itu (tanpa membuang jargon statistik), apa yang akan menjadi cara terbaik atau paling efektif?

Saya biasanya menjelaskan GLM dengan tiga bagian - (1) komponen acak yang merupakan variabel respons, (2) komponen sistematis yang merupakan prediktor linier, dan (3) fungsi tautan yang merupakan "kunci" untuk menghubungkan (1) dan (2) Kemudian saya akan memberikan contoh regresi linier atau logistik dan menjelaskan bagaimana fungsi tautan dipilih berdasarkan variabel respons. Karenanya ia bertindak sebagai kunci yang menghubungkan dua komponen.

Ken
sumber
Apa jenis latar belakang yang dimiliki penonton? Menjelaskan GLM kepada ahli matematika atau ahli biologi sangat berbeda.
1
Akan ada beberapa ahli matematika tanpa latar belakang statistik, @Procrastinator. Tetapi poin Anda bagus: memiliki gagasan yang lebih jelas tentang audiens yang dituju akan membantu menjaga balasan tetap konsisten dan fokus. Maukah Anda mengedit pertanyaan untuk memperluas ini, Ken?
whuber
1
Saya mengerti maksud Anda, @Prastrastator, tetapi saya berharap mendapatkan jawaban yang mudah dipahami untuk semua orang (ahli matematika dan / atau ahli biologi), secara umum karena jika saya tidak memiliki latar belakang matematika atau biologi (yang demikian), Saya tidak akan tahu bagaimana menjelaskan GLM kepada mereka sehubungan dengan latar belakang mereka.
Ken
4
Saya pikir penting untuk diingat bahwa Anda bisa mendapatkan gelar sarjana, master, atau bahkan doktor di bidang biologi tanpa pernah mengambil kelas statistik, bahkan di banyak universitas tingkat satu. Gelar saya dalam biokimia membutuhkan dua semester kalkulus pengantar dan satu semester persamaan diferensial. Substansi kelas ini dengan cepat dilupakan karena banyak siswa tidak akan pernah menggunakan keterampilan ini lagi! Jadi saya benar-benar berpikir itu perlu untuk membodohi penjelasan untuk non-ahli statistik.
Alexander
Sebuah komentar untuk ditambahkan ke jawaban di bawah ini; jika Anda dapat menemukan pemasangan garis (yaitu fungsi tautan dan prediktor linier) maka koneksi ke pembobotan invers-varians yang efisien tidak terlalu sulit untuk dikomunikasikan; kami hanya ingin menambah kontribusi yang tepat dan menurunkan berat badan sisanya. Ini memungkinkan Anda menghindari mengatakan sesuatu yang terlalu teknis tentang keacakan hasil. NB GLM dirancang sebagai (hanya) model di mana IWLS dapat digunakan untuk memberikan MLE, sehingga cara berpikir tentang mereka yang dijelaskan di atas menangkap sebagian besar mengapa mereka sebenarnya berguna.
tamu

Jawaban:

25

Jika audiens benar-benar tidak memiliki latar belakang statistik, saya pikir saya akan mencoba menyederhanakan penjelasannya sedikit lebih banyak. Pertama, saya akan menggambar sebuah pesawat koordinat di papan dengan garis di atasnya, seperti:

y = mx + b

Semua orang di pembicaraan Anda akan terbiasa dengan persamaan untuk garis sederhana, y = m x + b , karena itu adalah sesuatu yang dipelajari di sekolah dasar. Jadi saya akan menampilkannya di samping gambar. Namun, saya akan menulisnya mundur, seperti: y=mx+b

 mx+b=y

Saya akan mengatakan bahwa persamaan ini adalah contoh dari regresi linier sederhana. Saya kemudian akan menjelaskan bagaimana Anda (atau komputer) dapat cocok dengan persamaan seperti itu ke sebidang sebaran titik data, seperti yang ditunjukkan pada gambar ini:

Plot pencar

Saya akan mengatakan bahwa di sini, kita menggunakan usia organisme yang sedang kita pelajari untuk memprediksi seberapa besar itu, dan bahwa persamaan regresi linier yang dihasilkan yang kita dapatkan (ditunjukkan pada gambar) dapat digunakan untuk memprediksi seberapa besar suatu organisme adalah jika kita tahu umurnya.

 mx+b=y .

Kemudian saya akan menjelaskan lagi bahwa ini adalah contoh persamaan regresi linier sederhana, dan sebenarnya ada varietas yang lebih rumit. Misalnya, dalam variasi yang disebut regresi logistik , y hanya boleh 1 atau 0. Seseorang mungkin ingin menggunakan model jenis ini jika Anda mencoba memprediksi jawaban "ya" atau "tidak", seperti apakah seseorang memiliki penyakit atau tidak. Variasi khusus lainnya adalah sesuatu yang disebut regresi Poisson , yang digunakan untuk menganalisis data "hitung" atau "peristiwa" (saya tidak akan membahas lebih jauh tentang hal ini kecuali benar-benar diperlukan).

Saya kemudian akan menjelaskan bahwa regresi linier, regresi logistik, dan regresi Poisson benar-benar semua contoh khusus dari metode yang lebih umum, sesuatu yang disebut "model linear umum". Hal yang hebat tentang "model linear umum" adalah bahwa mereka memungkinkan kami untuk menggunakan data "respons" yang dapat mengambil nilai apa pun (seperti seberapa besar suatu organisme dalam regresi linier), ambil hanya 1 atau 0 (seperti apakah seseorang memiliki atau tidak memiliki penyakit dalam regresi logistik), atau mengambil jumlah diskrit (seperti jumlah kejadian dalam regresi Poisson).

Saya kemudian akan mengatakan bahwa dalam jenis persamaan ini, x (prediktor) terhubung ke y (tanggapan) melalui sesuatu yang oleh ahli statistik disebut sebagai "fungsi tautan". Kami menggunakan "fungsi tautan" ini dalam kasus di mana x's tidak terkait dengan y secara linier.

Bagaimanapun, itu adalah dua sen saya tentang masalah ini! Mungkin penjelasan yang saya usulkan terdengar agak tipu dan bodoh, tetapi jika tujuan latihan ini hanya untuk menyampaikan "inti" kepada audiens, mungkin penjelasan seperti ini tidak terlalu buruk. Saya pikir sangat penting bahwa konsep tersebut dijelaskan dengan cara yang intuitif dan Anda menghindari melemparkan kata-kata seperti "komponen acak", "komponen sistematis", "fungsi tautan", "deterministik", "fungsi logit", dll. Jika Anda sedang berbicara kepada orang-orang yang benar-benar tidak memiliki latar belakang statistik, seperti ahli biologi atau dokter biasa, mata mereka hanya akan berkaca-kaca saat mendengar kata-kata itu. Mereka tidak tahu apa itu distribusi probabilitas, mereka belum pernah mendengar tentang fungsi tautan, dan mereka tidak tahu apa itu "logit"

Dalam penjelasan Anda kepada audiens non-statistik, saya juga akan fokus pada kapan harus menggunakan model apa. Saya mungkin berbicara tentang berapa banyak prediktor yang diizinkan untuk Anda sertakan di sebelah kiri persamaan (Saya pernah mendengar aturan praktis seperti tidak lebih dari ukuran sampel Anda dibagi sepuluh). Akan lebih baik jika menyertakan lembar contoh dengan data dan menjelaskan kepada audiens bagaimana menggunakan paket perangkat lunak statistik untuk menghasilkan model. Saya kemudian akan pergi melalui keluaran dari model itu langkah demi langkah dan mencoba menjelaskan apa arti semua huruf dan angka yang berbeda. Ahli biologi tidak mengerti tentang hal ini dan lebih tertarik untuk mempelajari tes apa yang harus digunakan ketika daripada benar-benar mendapatkan pemahaman tentang matematika di balik GUI SPSS!

Saya akan sangat menghargai komentar atau saran mengenai usulan penjelasan saya, terutama jika ada yang mencatat kesalahan atau memikirkan cara yang lebih baik untuk menjelaskannya!

Alexander
sumber
4
Tidak semua orang terbiasa dengan persamaan untuk sebuah garis; bahkan tidak semua mahasiswa pascasarjana, juga tidak semua orang dengan gelar PhD.
Peter Flom - Reinstate Monica
6
Maksud saya, saya yakin seorang mahasiswa pascasarjana ada di luar sana di dunia yang tidak tahu persamaan untuk sebuah garis, tetapi mungkin audiens yang ingin Anda jelaskan dengan model linier umum setidaknya akan memiliki setengah petunjuk tentang tinggi aljabar tingkat sekolah! : -o
Alexander
Saya setuju dengan Anda Alexander dan pendekatan Anda tampaknya sangat alami bagi saya. Saya tidak akan fokus pada "g" GLM terlalu banyak (atau terlalu dini) dan juga tidak akan pergi ke perbedaan secara acak vs tetap. Tentu saja itu tergantung pada jumlah waktu Anda harus menjelaskan semua ini.
Dominic Comtois
Y=αX+βα
10

Saya tidak akan menyebut respons sebagai komponen acak. Ini adalah kombinasi dari komponen deterministik dan acak.

catatan(hal/(1-hal))[0,1]

Michael R. Chernick
sumber
3
Saya ingin tahu tentang penggunaan "respons" ini. Audiens yang kami tuju kemungkinan akan memahami bahwa yang dimaksud adalah respons yang diamati : ya atau tidak, 0 atau 1, dll. Dalam regresi logistik, kami memodelkan sesuatu yang tidak teramati (dan tidak pernah dapat diamati secara langsung); yaitu, peluang respons hipotetis. "Tautan" semata-mata adalah masalah mengungkapkan peluang tersebut sebagai peluang log dan bukan sebagai probabilitas. Regresi logistik mengasumsikan peluang log bervariasi secara linier dengan IV. (Penggunaan "model", "asumsi," dan "hipotetis" saya, alih-alih "adalah" dan "memprediksi," juga menunjukkan sudut pandang kognitif dan ontologis yang berbeda.)
whuber
1
Poin bagus.
Michael R. Chernick
-2

Saya akan menjelaskannya dengan mengatakan bahwa kadang-kadang saya perlu sesuatu diprediksi. Misalnya, harga sebuah rumah memberikan beberapa informasi tentangnya. Katakanlah, ukurannya, lokasinya, berapa umur konstruksinya, dll. Saya ingin memasukkan faktor itu ke dalam model yang memperhitungkan pengaruh faktor-faktor ini untuk memprediksi harga.

Sekarang mengambil sub-contoh, katakanlah, saya hanya mempertimbangkan ukuran rumah. Itu menyiratkan bahwa tidak ada hal lain yang mempengaruhi harga. Ini bisa menjadi kasus di mana saya membandingkan rumah-rumah yang berada di lokasi yang sama, dibangun sekitar waktu yang sama dll. Atau mungkin saya tidak ingin memperumit masalah bagi diri saya sendiri dan karenanya ingin kehidupan nyata menyesuaikan dengan bagaimana Sejauh ini saya bisa berpikir. Selanjutnya, saya membuat model di mana saya memiliki daftar ukuran dan harga terkait properti yang sama (katakanlah, dari penjualan yang telah terjadi baru-baru ini ... tapi itu akan memiliki bias serius dari rumah yang tidak untuk dijual dan karenanya mempengaruhi harga rumah yang ada (tapi abaikan saja).

Sekarang saya melihat bahwa rumah seluas 100 kaki persegi berharga $ 1 juta (lupakan saja, ini adalah contoh yang disederhanakan). Jadi, tentu saja Anda akan mengharapkan rumah seluas 200 meter persegi untuk biaya ganda. Dan itulah yang kita sebut "pola linear". Tentu saja ketika kami mengumpulkan data dan ukuran plot vs harga, kami melihat bahwa itu tidak sepenuhnya berlipat ganda. Tapi pasti ada tren yang meningkat.

Jadi saya mencoba mengukur tren. Berapa banyak peningkatan untuk setiap peningkatan kaki persegi? Itu adalah regresi linier.

Masukkan peta terminologi dan lanjutkan dengan konsep statistik. Salah satu cara untuk menjelaskan komponen acak dan sistematis dapat berupa apa pun yang Anda lupa modelkan, atau tidak bisa ukur, adalah acak. Apa pun yang Anda bisa adalah sistematis. (Misalnya, katakan ini 2008 dan Anda ingin menjual rumah.)

Asumsi yang mendasari model ini adalah bahwa sebar harus terlihat seperti batang. Yaitu bahwa X dan Y keduanya "Normal". dan semuanya memiliki varian yang serupa.

Jika bukan itu masalahnya, masukkan GLM. dan sekarang jelaskan fungsi tautan n semua itu.

Ini disederhanakan, tetapi harus berfungsi sebagai pengantar.

Anda dapat memasukkan sejarah GLM dan model faktorial. Di mana Fisher memerlukan hal-hal untuk mulai bervariasi bersama-sama dan kerangka kerja ini cocok untuk kompleksitas semacam itu.

Semoga ini membantu...

Naag
sumber
1
Kami menghargai upaya Anda, tetapi tidak perlu memposting materi Anda sampai Anda benar-benar selesai menulisnya. Dalam bentuknya yang sekarang, cara itu meluruh menjadi catatan samar samar pada akhirnya akan mengecewakan pembaca.
whuber