Merupakan data eksperimental

9

Saya memiliki argumen dengan penasihat saya mengenai visualisasi data. Dia mengklaim bahwa ketika mewakili hasil eksperimen, nilai-nilai harus diplot dengan " penanda " saja, seperti yang disajikan dalam gambar di bawah. Sementara kurva hanya mewakili " model "

Markers.png

Saya di sisi lain percaya bahwa kurva dalam banyak kasus tidak perlu untuk memfasilitasi keterbacaan, seperti yang ditunjukkan pada gambar kedua di bawah ini:

Lines.png

Apakah saya salah atau profesor saya? Jika yang kemudian adalah masalahnya, bagaimana saya berkeliling untuk menjelaskan ini kepadanya.

Ivan P.
sumber
5
Poinnya adalah data. Kurva yang Anda cocok dengan titik bukan data. Jadi, jika maksud Anda adalah menunjukkan data ....
3
Seperti kata JeffE. Untuk menjadi lebih eksplisit: kurva yang Anda buat adalah model, karena Anda mengasumsikan bentuk tertentu ketika menggambar mereka, dan Anda memiliki beberapa alasan untuk bentuk ini. Alasan ini didasarkan pada model tertentu.
gerrit
1
Saya telah mengirimkan permintaan migrasi; ini memang termasuk dalam crossvalidated, bukan di sini.
2
Saya pikir itu mungkin pada topik di CrossValidated, tetapi jelas juga tentang topik di sini . Migrasi hanya harus dipertimbangkan jika di luar topik di sini, (ada pertanyaan yang akan on-topik di dua situs, tidak apa-apa). Ini pertanyaan nyata dengan jawaban yang valid, pasti relevan bagi banyak akademisi.
2
Bagan kedua Anda meragukan. Jika Anda telah bergabung dengan poin dengan garis lurus, Anda (mungkin) memiliki argumen untuk kejelasan visual. Tetapi menggunakan kurva Anda mengklaim bahwa puncak garis biru pada 740 °, dan garis ungu minimum pada 840 °, meskipun Anda tidak memiliki data percobaan pada suhu tersebut. Memperkenalkan min / max di luar data yang diukur adalah bendera merah.
Darren Cook

Jawaban:

10

Saya suka aturan praktis ini:

Jika Anda membutuhkan garis untuk memandu mata (yaitu untuk menunjukkan tren bahwa tanpa garis tidak akan terlihat dengan jelas), Anda tidak harus meletakkan garis.

Manusia sangat pandai mengenali pola (kita agak di sisi melihat tren yang tidak ada daripada melewatkan tren yang ada). Jika kita tidak bisa mendapatkan tren tanpa garis, kita bisa yakin bahwa tidak ada tren yang dapat ditampilkan secara meyakinkan dalam kumpulan data.

Berbicara tentang grafik kedua, satu-satunya indikasi ketidakpastian titik pengukuran Anda adalah dua kotak merah C: O 1.2 pada 700 ° C. Penyebaran dua ini berarti bahwa saya tidak akan menerima mis

  • bahwa ada tren sama sekali untuk C: O 1.2
  • bahwa ada perbedaan antara 2.0 dan 3.6
  • dan pasti model melengkung overfitting data.

tanpa alasan yang sangat bagus diberikan. Namun, itu akan kembali menjadi model.


sunting: jawaban atas komentar Ivan:

Saya ahli kimia dan saya akan mengatakan bahwa tidak ada pengukuran tanpa kesalahan - apa yang dapat diterima akan tergantung pada eksperimen dan instrumen.

Jawaban ini bukan menentang menunjukkan kesalahan eksperimental tetapi semua untuk menunjukkan dan memperhitungkannya.

Gagasan di balik alasan saya adalah bahwa grafik menunjukkan tepat satu pengukuran berulang, jadi ketika diskusi adalah seberapa rumit suatu model harus cocok (yaitu garis horizontal, garis lurus, kuadrat, ...) ini dapat memberi kita gambaran tentang pengukuran kesalahan. Dalam kasus Anda, ini berarti bahwa Anda tidak akan dapat menyesuaikan kuadrat (spline) yang bermakna, bahkan jika Anda memiliki model keras (misalnya persamaan termodinamika atau kinetik) yang menunjukkan bahwa itu harus kuadratik - Anda hanya tidak memiliki cukup data .

Untuk menggambarkan ini:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Berikut ini adalah kecocokan linear bersama dengan interval kepercayaan 95% untuk masing-masing rasio C: O:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

model linier

Perhatikan bahwa untuk rasio C: O yang lebih tinggi, interval kepercayaan berkisar jauh di bawah 0. Ini berarti bahwa asumsi implisit dari model linear salah. Namun, Anda dapat menyimpulkan bahwa model linier untuk konten C: O yang lebih tinggi sudah sesuai.

Jadi, mundur dan pas dengan nilai konstan saja (yaitu tidak ada ketergantungan T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

tidak ada ketergantungan T

Komplemen adalah untuk memodelkan tidak ada ketergantungan pada C: O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

tidak C: O ketergantungan

Namun, interval kepercayaan akan mencakup garis horizontal atau bahkan sedikit naik.

Anda dapat melanjutkan dan mencoba mis. Memungkinkan offset yang berbeda untuk tiga rasio C: O, tetapi menggunakan kemiringan yang sama.

Namun, sudah beberapa pengukuran lagi akan secara drastis memperbaiki situasi - perhatikan seberapa sempit interval kepercayaan untuk C: O = 1: 1, di mana Anda memiliki 4 pengukuran, bukan hanya 3.

Kesimpulan: jika Anda membandingkan poin saya di mana kesimpulan yang saya akan skeptis, mereka membaca terlalu banyak ke beberapa poin yang tersedia!

cbeleites tidak senang dengan SX
sumber
Anda membuat poin yang sangat bagus. Namun dalam rekayasa, kesalahan eksperimental (ketidakpastian) sangat umum dan diasumsikan bahwa kesalahan relatif 3 ~ 5% dapat diterima. Namun saya tetap harus menunjukkan hasil MAX, MIN dan AVG. Jadi dalam kasus saya, penanda adalah ekstremitas dan garis adalah rata-rata.
Ivan P.
contoh yang sangat bagus dan sangat membantu (Anda membuat saya tertarik pada R). Jadi, tentu saja hal yang benar untuk dilakukan adalah mendapatkan lebih banyak poin data.
Ivan P.
12

Seperti yang dikatakan JeffE: poinnya adalah data . Secara umum, ada baiknya menghindari menambahkan kurva sebanyak mungkin. Salah satu alasan untuk menambahkan kurva adalah karena membuat grafik lebih bagus untuk mata, dengan membuat titik dan tren di antara titik lebih mudah dibaca. Ini terutama benar jika Anda memiliki beberapa titik data.

Namun, ada cara lain untuk menampilkan data jarang , yang mungkin lebih baik daripada sebar plot. Salah satu kemungkinan adalah diagram batang, di mana berbagai batang jauh lebih terlihat daripada titik tunggal Anda. Kode warna (mirip dengan apa yang sudah Anda miliki dalam gambar Anda) akan membantu melihat tren di setiap seri data (atau seri data dapat dipecah, dan disajikan di samping satu sama lain dalam diagram batang individual yang lebih kecil).

Terakhir, jika Anda benar-benar ingin menambahkan semacam garis di antara simbol-simbol Anda, ada dua kasus:

  1. Jika Anda mengharapkan model tertentu valid untuk data Anda (linier, harmonik, apa pun), Anda harus menyesuaikan data Anda pada model, menjelaskan model dalam teks dan mengomentari perjanjian antara data dan model.

  2. Jika Anda tidak memiliki model data yang masuk akal, Anda tidak boleh memasukkan asumsi tambahan dalam grafik Anda. Secara khusus, ini berarti Anda tidak boleh memasukkan jenis garis apa pun di antara titik Anda kecuali garis selat. Interpolasi "spline fit" yang bagus yang dapat ditarik oleh Excel (dan perangkat lunak lain) adalah bohong . Tidak ada alasan yang valid untuk data Anda untuk mengikuti model matematika tertentu, jadi Anda harus tetap berpegang pada segmen garis lurus.

    Lebih jauh, dalam hal ini bisa menyenangkan untuk menambahkan disclaimer di suatu tempat di keterangan gambar, seperti "garis hanya panduan untuk mata".

F'x
sumber
2
Ini adalah saran yang sangat baik dikurangi komentar tentang bilah yang lebih tepat. Untuk diskusi serupa yang terkait dengan itu lihat Grafis alternatif untuk plot “handle bar” . Bayangkan plot yang terdaftar oleh OP sebagai diagram batang berkerumun, akan sangat sulit untuk memvisualisasikan tren di seluruh rentang tempature. Cara untuk membuat poin lebih mudah terlihat adalah dengan men-jitter mereka di sepanjang sumbu x, dan karya Cleveland akan menyarankan kita tetap lebih suka poin ke bar.
Andy W
@Andy W, apa yang Anda maksud dengan "jitter mereka sepanjang sumbu x"?
Ivan P.
1
@ IvanP., Maksud saya bukannya membuat poin terpaku pada nilai khusus pada absis untuk memindahkan mereka ke kanan atau ke kiri sedikit sehingga poin tidak saling menutupi. Seharusnya jelas dari sisa grafik bahwa mereka benar-benar merujuk ke nilai yang tepat untuk grup pada sumbu x, dan sedikit jitter seharusnya tidak berpengaruh pada visualisasi tren antara nilai.
Andy W
6

1-Profesor Anda membuat poin yang valid.

2-Plot Anda pasti tidak meningkatkan keterbacaan IMHO.

3-Dari pemahaman saya ini bukan forum yang tepat untuk menanyakan pertanyaan semacam ini dan Anda harus menanyakannya di cross-validated.

blackace
sumber
Saya tertarik untuk mengetahui di mana masalah dalam keterbacaan dan saran untuk perbaikan sangat disambut baik
Ivan P.
1

Terkadang bergabung dengan poin masuk akal, terutama jika mereka sangat padat.

Dan kemudian mungkin masuk akal untuk interpolasi (misalnya dengan spline ). Namun, jika itu sesuatu yang lebih maju daripada spline orde satu (yang jelas terlihat bahwa itu hanya titik bergabung), Anda perlu menyebutkannya.

Namun, untuk kasus beberapa poin, atau selusin, poin, bukan itu masalahnya. Biarkan saja poin sebagaimana adanya, dengan spidol. Jika Anda ingin menyesuaikan garis (atau kurva lainnya), itu adalah model. Anda dapat menambahkannya, tetapi secara eksplisit - misalnya "garis mewakili kecocokan regresi linier".

Piotr Migdal
sumber
0

Saya pikir ada beberapa kasus di mana seseorang tidak mengusulkan model eksplisit, namun membutuhkan semacam panduan untuk mata. Aturan saya kemudian adalah untuk menghindari kurva seperti wabah dan menempel pada garis lurus piecewise antara titik-titik berturut-turut dari suatu seri.

Untuk satu, asumsi ini lebih jelas bagi pembaca. Selain itu, runcingnya bagus untuk menjauhkan pembaca dari anggapan tren tidak didukung oleh data. Jika sama sekali, ini hanya menyoroti kebisingan dan pencilan.

Hal-hal yang saya waspadai adalah penggunaan splines, kuadrat, regresi dll . Contoh penyalahgunaan yang baik adalah kurva yang ditarik oleh @Ivan. Dengan 3 datapoints saya tidak berpikir ada maxima atau minima dalam model yang mendasarinya jelas.

curious_cat
sumber