Menskalakan data yang berada pada urutan magnitudo yang berbeda untuk diplot

9

Melihat dataset berikut:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

Saya telah diminta untuk memplot ini pada grafik, menggunakan Date memiliki X-Axis dan seluruh data pada Y-Axis. Masalahnya adalah bahwa skala data sangat berbeda. di mana Kunjungan berada dalam ribuan dan Pesanan yang Dibuat berada di puluhan rendah, data tidak tersusun dengan baik pada grafik.

Saya bertanya-tanya apa yang akan dilakukan oleh ahli statistik dalam skenario ini, saya dapat membagi Visits dengan 1000 dan kemudian memasukkan deskripsi (Visits (K)), tetapi kemudian saya mulai memiliki masalah yang sama dengan Carts Created, karena mereka adalah dalam ratusan dan yang lainnya dalam puluhan rendah.

Hal apa yang dilakukan dalam skenario ini?

Mike
sumber

Jawaban:

14

Pada mulanya tidak masuk akal untuk memetakan grafik garis sebagai serangkaian kelipatan kecil, dengan skala yang berbeda untuk sumbu Y tetapi dengan sumbu X (tanggal) yang selaras. masukkan deskripsi gambar di sini

Saya pikir ini adalah awal yang baik, karena memungkinkan seseorang untuk memeriksa data mentah, dan memungkinkan untuk membandingkan tren antara grafik garis yang berbeda. IMO Anda harus melihat data mentah terlebih dahulu, kemudian berpikir tentang konversi atau cara untuk menormalkan grafik agar dapat dibandingkan setelah Anda memeriksa data mentah.

Seperti yang King telah sebutkan, tampaknya variabel Anda memiliki urutan alami berdasarkan nama dan angka, dan dengan anggapan itu tepat, saya membuat tiga variabel baru berdasarkan persentase yang dikonversi di setiap negara. Variabel baru adalah;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

Membuat persentase adalah cara untuk membawa seri lebih dekat ke skala umum, tetapi bahkan kemudian menempatkan semua garis pada satu bagan (seperti di bawah) masih sulit untuk memvisualisasikan seri secara efektif. Tingkat dan variasi pesanan yang dibuat dan gerobak mengonversi kurcaci seri dari deretan lain. Anda tidak dapat melihat variasi dalam rangkaian gerobak yang dibuat pada skala ini (dan saya kira itulah yang paling menarik bagi Anda). masukkan deskripsi gambar di sini

Jadi sekali lagi, IMO cara yang lebih baik untuk memeriksa ini adalah dengan menggunakan skala yang berbeda. Di bawah ini adalah bagan Persentase menggunakan skala yang berbeda.

masukkan deskripsi gambar di sini

Dengan grafik ini, tampaknya tidak ada korelasi nyata yang berarti bagi saya di antara seri, tetapi Anda memiliki banyak variasi menarik dalam setiap seri (terutama proporsi yang dikonversi). Ada apa dengan ini 2011-11-13? Anda memiliki proporsi pesanan yang jauh lebih rendah, tetapi setiap pesanan yang dibuat adalah keranjang yang dikonversi. Apakah Anda memiliki intervensi lain yang mungkin menjelaskan tren dalam kunjungan situs atau proporsi atau persentase kereta yang dibuat?

Ini semua hanya analisis data eksplorasi, dan untuk mengambil langkah lagi saya perlu wawasan lebih dalam data (saya harap ini adalah awal yang baik). Anda dapat menormalkan bagan garis dengan cara lain untuk dapat merencanakannya pada skala yang sebanding, tetapi itu adalah tugas yang sulit, dan saya pikir dapat dilakukan dengan secara efektif memilih skala sewenang-wenang berdasarkan apa yang informatif mengingat data dibandingkan dengan memilih beberapa skema normalisasi standar. Aplikasi lain yang menarik untuk melihat banyak grafik garis secara bersamaan adalah grafik horizon , tetapi itu lebih untuk melihat banyak grafik garis yang berbeda sekaligus.

Andy W
sumber
Terima kasih atas detail dalam jawaban Anda, saya awalnya memang memiliki beberapa grafik. Bos saya telah memutuskan bahwa mereka ingin semua seri pada grafik (saya pikir mungkin seri terlalu banyak tetapi bukan saya yang akan melihatnya :)) Saya pikir saya akan mempertimbangkan untuk menormalisasi data, mungkin menjadi 0 - 1. Mereka hanya ingin menggunakan grafik untuk melihat tren, data tabel biasanya ditampilkan di bawah grafik.
Mike
@ Mike, ini permintaan yang masuk akal. Normalisasi seri tidak boleh mengubah tren (hanya level dan variasi setiap seri). Semoga Anda mendapatkan jawaban yang lebih mendalam tentang cara menormalkan seri ini dengan beberapa cara yang efektif namun tetap bermakna. Hanya kata hati-hati meskipun, biasanya Anda hanya ingin plot 3-5 baris pada satu grafik, jauh lebih sulit untuk membuat semua perbandingan (kelipatan kecil adalah solusi untuk masalah ini).
Andy W
1
@ Mike Ya, dalam hal ini (hanya memvisualisasikan data tanpa angka), Anda cukup mengekspresikan data Anda pada skala min / maks, seperti yang dilakukan dalam tampilan paralel . Menampilkan angka di bawah tabel juga merupakan ide bagus.
chl
1
Hanya catatan lebih lanjut tentang normalisasi ke skala min / max meskipun seperti yang disarankan @chl. Adalah baik untuk melihat data mentah terlebih dahulu, jika Anda memiliki beberapa outlier besar, Anda mungkin ingin mempertimbangkan untuk tidak memasukkan nilai itu dalam proses normalisasi (walaupun harus jelas jika Anda melakukannya dalam grafik yang dinormalisasi, misalnya jika Anda memiliki grafik garis dengan satu nilai tinggi / rendah dan sisanya rata). Saya pikir Michael Friendly akan setuju dengan memasukkan tabel di bawah grafik juga.
Andy W
2

Anda dapat memiliki 2 sumbu y yang terpisah, Kunjungan (k) dan Gerobak yang Dibuat dalam satu, 2 lainnya di yang lain (atau cara apa pun yang sesuai dengan tujuan Anda).

Ini jelas bukan metode yang elegan, tapi saya ingat melakukannya bertahun-tahun yang lalu ketika saya hanya ingin membandingkan tren dari waktu ke waktu.

ATAU

Anda dapat merencanakan perubahan persentase sepanjang waktu jika sesuai dengan tujuan Anda.

Raja
sumber
Saya mempertimbangkan rute yang Anda sebutkan dengan 2 sumbu Y yang berbeda, tetapi yang saya tidak suka tentang hal itu adalah: jika seri baru diperkenalkan yang tidak muat pada salah satu dari dua sumbu Y, saya mungkin akan terjebak. terima kasih atas sarannya, dan mungkin lain kali saya akan mempertimbangkan ini lebih lanjut :)
Mike
Bagaimana dengan saran kedua tentang menggunakan persentase? yaitu mengindeks semuanya pada 100 pada tanggal mulai (atau tanggal mana pun yang membuat grafik Anda cantik). Anda dapat menambahkan sebanyak mungkin seri baru!
King
Itu adalah pilihan, saya saat ini di excel berusaha mencari cara untuk menormalkan data ini dan jika berfungsi. gagal bahwa saya akan memberikan ide persentase :) :)
Mike
2

Pada akhirnya saya memutuskan untuk menormalkan data dengan membagi setiap nilai dengan nilai maksimum dan kemudian mengalikannya dengan 100.

  1. Temukan nilai maksimum:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. Bagilah setiap angka dengan maksimum dan kemudian kalikan dengan 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. Saya kemudian memplot ini pada grafik, jelas ini hanya menunjukkan tren dan pengguna memiliki tabel data di bagian bawah halaman.

Mike
sumber
0

Itu akan menjadi pendekatan saya juga - - untuk menyesuaikan dimensi yang berbeda dengan skala yang sama dengan membaginya dengan X tetapi saya akan menggunakan nilai rata-rata, bukan nilai maks atau min. Alasannya adalah - saat Anda menambahkan data dari waktu ke waktu, maks atau min Anda kemungkinan akan berubah, dan kemudian apa yang 100% di bagan terakhir adalah sesuatu yang lain kali ini - bagan itu tidak mudah didamaikan dengan bagan sebelumnya - - jika Anda menggunakan avg maka perubahannya tidak drastis.

bjf
sumber