Saya memiliki argumen dengan penasihat saya mengenai visualisasi data. Dia mengklaim bahwa ketika mewakili hasil eksperimen, nilai-nilai harus diplot dengan " penanda " saja, seperti yang disajikan dalam gambar di bawah. Sementara kurva hanya mewakili " model "
Saya di sisi lain percaya bahwa kurva dalam banyak kasus tidak perlu untuk memfasilitasi keterbacaan, seperti yang ditunjukkan pada gambar kedua di bawah ini:
Apakah saya salah atau profesor saya? Jika yang kemudian adalah masalahnya, bagaimana saya berkeliling untuk menjelaskan ini kepadanya.
data-visualization
communication
Ivan P.
sumber
sumber
Jawaban:
Saya suka aturan praktis ini:
Manusia sangat pandai mengenali pola (kita agak di sisi melihat tren yang tidak ada daripada melewatkan tren yang ada). Jika kita tidak bisa mendapatkan tren tanpa garis, kita bisa yakin bahwa tidak ada tren yang dapat ditampilkan secara meyakinkan dalam kumpulan data.
Berbicara tentang grafik kedua, satu-satunya indikasi ketidakpastian titik pengukuran Anda adalah dua kotak merah C: O 1.2 pada 700 ° C. Penyebaran dua ini berarti bahwa saya tidak akan menerima mis
tanpa alasan yang sangat bagus diberikan. Namun, itu akan kembali menjadi model.
sunting: jawaban atas komentar Ivan:
Saya ahli kimia dan saya akan mengatakan bahwa tidak ada pengukuran tanpa kesalahan - apa yang dapat diterima akan tergantung pada eksperimen dan instrumen.
Jawaban ini bukan menentang menunjukkan kesalahan eksperimental tetapi semua untuk menunjukkan dan memperhitungkannya.
Gagasan di balik alasan saya adalah bahwa grafik menunjukkan tepat satu pengukuran berulang, jadi ketika diskusi adalah seberapa rumit suatu model harus cocok (yaitu garis horizontal, garis lurus, kuadrat, ...) ini dapat memberi kita gambaran tentang pengukuran kesalahan. Dalam kasus Anda, ini berarti bahwa Anda tidak akan dapat menyesuaikan kuadrat (spline) yang bermakna, bahkan jika Anda memiliki model keras (misalnya persamaan termodinamika atau kinetik) yang menunjukkan bahwa itu harus kuadratik - Anda hanya tidak memiliki cukup data .
Untuk menggambarkan ini:
Berikut ini adalah kecocokan linear bersama dengan interval kepercayaan 95% untuk masing-masing rasio C: O:
Perhatikan bahwa untuk rasio C: O yang lebih tinggi, interval kepercayaan berkisar jauh di bawah 0. Ini berarti bahwa asumsi implisit dari model linear salah. Namun, Anda dapat menyimpulkan bahwa model linier untuk konten C: O yang lebih tinggi sudah sesuai.
Jadi, mundur dan pas dengan nilai konstan saja (yaitu tidak ada ketergantungan T):
Komplemen adalah untuk memodelkan tidak ada ketergantungan pada C: O:
Namun, interval kepercayaan akan mencakup garis horizontal atau bahkan sedikit naik.
Anda dapat melanjutkan dan mencoba mis. Memungkinkan offset yang berbeda untuk tiga rasio C: O, tetapi menggunakan kemiringan yang sama.
Namun, sudah beberapa pengukuran lagi akan secara drastis memperbaiki situasi - perhatikan seberapa sempit interval kepercayaan untuk C: O = 1: 1, di mana Anda memiliki 4 pengukuran, bukan hanya 3.
Kesimpulan: jika Anda membandingkan poin saya di mana kesimpulan yang saya akan skeptis, mereka membaca terlalu banyak ke beberapa poin yang tersedia!
sumber
Seperti yang dikatakan JeffE: poinnya adalah data . Secara umum, ada baiknya menghindari menambahkan kurva sebanyak mungkin. Salah satu alasan untuk menambahkan kurva adalah karena membuat grafik lebih bagus untuk mata, dengan membuat titik dan tren di antara titik lebih mudah dibaca. Ini terutama benar jika Anda memiliki beberapa titik data.
Namun, ada cara lain untuk menampilkan data jarang , yang mungkin lebih baik daripada sebar plot. Salah satu kemungkinan adalah diagram batang, di mana berbagai batang jauh lebih terlihat daripada titik tunggal Anda. Kode warna (mirip dengan apa yang sudah Anda miliki dalam gambar Anda) akan membantu melihat tren di setiap seri data (atau seri data dapat dipecah, dan disajikan di samping satu sama lain dalam diagram batang individual yang lebih kecil).
Terakhir, jika Anda benar-benar ingin menambahkan semacam garis di antara simbol-simbol Anda, ada dua kasus:
Jika Anda mengharapkan model tertentu valid untuk data Anda (linier, harmonik, apa pun), Anda harus menyesuaikan data Anda pada model, menjelaskan model dalam teks dan mengomentari perjanjian antara data dan model.
Jika Anda tidak memiliki model data yang masuk akal, Anda tidak boleh memasukkan asumsi tambahan dalam grafik Anda. Secara khusus, ini berarti Anda tidak boleh memasukkan jenis garis apa pun di antara titik Anda kecuali garis selat. Interpolasi "spline fit" yang bagus yang dapat ditarik oleh Excel (dan perangkat lunak lain) adalah bohong . Tidak ada alasan yang valid untuk data Anda untuk mengikuti model matematika tertentu, jadi Anda harus tetap berpegang pada segmen garis lurus.
Lebih jauh, dalam hal ini bisa menyenangkan untuk menambahkan disclaimer di suatu tempat di keterangan gambar, seperti "garis hanya panduan untuk mata".
sumber
1-Profesor Anda membuat poin yang valid.
2-Plot Anda pasti tidak meningkatkan keterbacaan IMHO.
3-Dari pemahaman saya ini bukan forum yang tepat untuk menanyakan pertanyaan semacam ini dan Anda harus menanyakannya di cross-validated.
sumber
Terkadang bergabung dengan poin masuk akal, terutama jika mereka sangat padat.
Dan kemudian mungkin masuk akal untuk interpolasi (misalnya dengan spline ). Namun, jika itu sesuatu yang lebih maju daripada spline orde satu (yang jelas terlihat bahwa itu hanya titik bergabung), Anda perlu menyebutkannya.
Namun, untuk kasus beberapa poin, atau selusin, poin, bukan itu masalahnya. Biarkan saja poin sebagaimana adanya, dengan spidol. Jika Anda ingin menyesuaikan garis (atau kurva lainnya), itu adalah model. Anda dapat menambahkannya, tetapi secara eksplisit - misalnya "garis mewakili kecocokan regresi linier".
sumber
Saya pikir ada beberapa kasus di mana seseorang tidak mengusulkan model eksplisit, namun membutuhkan semacam panduan untuk mata. Aturan saya kemudian adalah untuk menghindari kurva seperti wabah dan menempel pada garis lurus piecewise antara titik-titik berturut-turut dari suatu seri.
Untuk satu, asumsi ini lebih jelas bagi pembaca. Selain itu, runcingnya bagus untuk menjauhkan pembaca dari anggapan tren tidak didukung oleh data. Jika sama sekali, ini hanya menyoroti kebisingan dan pencilan.
Hal-hal yang saya waspadai adalah penggunaan splines, kuadrat, regresi dll . Contoh penyalahgunaan yang baik adalah kurva yang ditarik oleh @Ivan. Dengan 3 datapoints saya tidak berpikir ada maxima atau minima dalam model yang mendasarinya jelas.
sumber