Klarifikasi tentang membaca nomogram

10

Berikut ini adalah nomogram yang dibuat dari dataset mtcars dengan paket rms untuk rumus:

mpg ~ wt + am + qsec

masukkan deskripsi gambar di sini

Model itu sendiri tampak baik dengan R2 0,85 dan P <0,00001

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002  

Saya tidak jelas apa ini 'Poin', 'Poin Total' dan 'Prediktor Linier'. Yang mana yang mewakili mpg, variabel hasil? Saya akan menghargai penjelasan apa pun.

Sunting: mempertimbangkan saran luar biasa oleh @Glen_b untuk memudahkan pembacaan poin dll, berikut ini bisa menjadi nomogram alternatif:

masukkan deskripsi gambar di sini

Karena variabel hasil atau respons tersedia, variabel ini dapat digunakan alih-alih istilah 'Prediktor Linier'. Ini juga menjadi cukup jelas tentang bagaimana nomogram perlu dibaca.

juga
sumber
diagram yang bagus di edit di sana
Glen_b -Reinstate Monica

Jawaban:

11

Nah, karena model Anda linier, dengan mpg yang diharapkan sama dengan prediktor linier, Anda dapat membaca mpg langsung dari skala prediktor linier.

Untuk setiap variabel, Anda menemukan nilainya pada skala yang relevan. Misalnya, bayangkan kami ingin menemukan mpg yang diprediksi untuk mobil dengan wt=4, am=1, qsec=18:

masukkan deskripsi gambar di sini

yang memberikan prediksi mpg sekitar 18,94. Mengganti ke dalam persamaan memberi 18,95, jadi itu cukup dekat. (Dalam prakteknya Anda mungkin hanya akan bekerja ke seluruh titik terdekat - dan mendapatkan akurasi sekitar 2 angka - "19 mpg" - keluar, bukan 3-4 angka seperti di sini.)

Salah satu manfaat utama dari diagram seperti itu dalam pikiran saya adalah bahwa Anda langsung melihat efek relatif dari perubahan dalam variabel prediktor yang berbeda (IV) pada respons (DV). Bahkan ketika Anda tidak memerlukan diagram untuk perhitungan apa pun, itu dapat memiliki nilai yang besar dalam hal hanya menampilkan efek relatif dari variabel.


Pertanyaan tindak lanjut dari komentar:

Apakah ini bekerja dengan cara yang sama untuk regresi non-linear atau polinomial?

Untuk kasus di mana tidak linier pada beberapa prediktor, beberapa modifikasi minor - dan mungkin jelas - diperlukan. Bayangkan kita memilikiy = b 0 + b x 1 + f ( x 2 )E(Y)y^=b0+bx1+f(x2)

dimana baik:

(a) adalah monoton; atauf

(b) adalah tidak monotonf

Dalam kedua kasus tersebut, skala untuk akan berfungsi persis seperti di atas, tetapi dalam kasus:x1

(a) skala untuk tidak akan linier; misalnya jika adalah penurunan monotonik tetapi (kira-kira) kuadrat, Anda mungkin memiliki sesuatu seperti ini: fx2f

masukkan deskripsi gambar di sini

(B) skala non-monotonik untuk akan "pecah" pada titik balik dan membalikkan. misalnyax2

masukkan deskripsi gambar di sini

- di sini fungsi memiliki minimum sekitarx = 2.23f(x)x=2.23

Mungkin saja fungsi-fungsi tersebut memiliki beberapa titik balik, di mana skala akan pecah dan terbalik berkali-kali - tetapi garis sumbu hanya memiliki dua sisi.

Dengan nomogram bertipe titik, hal ini tidak menimbulkan kesulitan, karena seseorang dapat memindahkan bagian skala tambahan ke atas atau ke bawah (atau lebih umum, secara ortogonal ke arah sumbu) sedikit sampai tidak terjadi tumpang tindih.

(Lebih dari satu titik balik dapat menjadi masalah bagi nomogram tipe alignment; satu solusi yang ditunjukkan dalam buku Harrell adalah untuk mengimbangi semua skala sedikit dari garis referensi, di mana posisi nilai sebenarnya diambil.)


Dalam kasus GLM dengan fungsi tautan nonlinier, skala bekerja seperti di atas, tetapi skala prediktor linier akan ditandai dengan skala nonlinear untuk , sesuatu seperti (a) di atas.Y

Contoh dari semua situasi ini dapat ditemukan dalam Strategi Pemodelan Regresi Harrell .



Hanya beberapa catatan

  1. Saya lebih suka melihat dua titik skala, di bagian atas dan bawah dari bagian yang relevan; kalau tidak, sulit untuk "berbaris" secara akurat karena Anda harus menebak apa 'vertikal' itu. Sesuatu seperti ini:

    masukkan deskripsi gambar di sini

    Namun, seperti yang saya catat dalam komentar, untuk bagian terakhir diagram (total poin dan prediksi linier) mungkin alternatif yang lebih baik untuk skala poin kedua adalah dengan hanya memiliki sepasang skala back-to-back (total poin pada satu sisi, prediktor linier di sisi lain), seperti ini:

    masukkan deskripsi gambar di sini

    karenanya kami menghindari kebutuhan untuk mengetahui apa yang 'vertikal' itu.

  2. Dengan hanya dua prediktor kontinu dan satu faktor biner, kami dapat dengan mudah membuat nomogram penyelarasan yang lebih tradisional :

    masukkan deskripsi gambar di sini

    Dalam hal ini Anda cukup menemukan wtdan qsecnilai pada skala mereka dan bergabung dengan mereka dengan sebuah garis; di mana mereka mpgmemotong sumbu, kita membaca nilainya (sementara amvariabel menentukan sisi mana dari mpgsumbu yang Anda baca). Dalam kasus sederhana seperti ini, nomograms semacam ini lebih cepat dan lebih mudah digunakan, tetapi bisa menjadi kurang mudah untuk digeneralisasikan ke banyak prediktor, di mana mereka menjadi sulit digunakan. Nomogram gaya poin dalam pertanyaan Anda (seperti yang diterapkan dalam Strategi Pemodelan Regresi dan dalam rmspaket di R) dapat menambahkan lebih banyak variabel dengan mulus. Ini bisa sangat menguntungkan ketika berhadapan dengan interaksi.

Glen_b -Reinstate Monica
sumber
Terima kasih atas penjelasan yang jelas dan bergambar. Apakah ini bekerja dengan cara yang sama untuk regresi non-linear atau polinomial?
rnso
1
Saya telah mengedit jawaban saya untuk menjawab pertanyaan tambahan ini.
Glen_b -Reinstate Monica
2
Ini adalah posting yang luar biasa Glen. Saya pikir saya akan memodifikasi metode nomogramfungsi plotuntuk menambahkan Pointsskala ekstra secara default. Saran bagus !!
Frank Harrell
1
@ FrankHarrell Tidak, karena Anda tidak membaca hubungan antara poin dan total poin - mereka bahkan tidak perlu berada di halaman yang sama. Masalahnya adalah menemukan 'vertikal' sehingga Anda dapat membaca dari total poin ke prediktor linier secara akurat. Jika kedua timbangan itu sangat dekat atau menyentuh, alih-alih mengatakan dua inci terpisah, itu bukan masalah. Ketika mereka terpisah beberapa inci, beberapa derajat kesalahan dalam menemukan vertikal dapat berarti sedikit kesalahan dalam hasilnya. Anda masih membutuhkan skala dua poin di bagian pertama, karena Anda dapat memiliki banyak prediktor dan semuanya tidak dapat berdekatan dengan skala poin.
Glen_b -Reinstate Monica
1
@ FrankHarrell Secara pribadi saya pikir kotak mengacaukan tampilan, dan cenderung mengaburkan nilainya; Saya menghindari grid ketika saya bisa. Mereka juga tidak memungkinkan tingkat ketelitian yang sama dalam mendapatkan vertikal kecuali kisi-kisi sama bagusnya dengan skala (yang menurut saya akan mengerikan secara visual), Tanpa opsi untuk satu, saya akan berakhir mengedit dalam skala poin kedua (seperti yang saya lakukan di sini) untuk membuatnya seperti apa yang saya lihat sebagai keadaan yang dapat digunakan untuk dua tujuan yang saya lihat memiliki (i. membuat estimasi yang cukup akurat dari nilai yang diprediksi tanpa mengaburkan ii. kejelasan kontribusi relatif untuk tanggapan) ..
Glen_b -Reinstate Monica