Media, Mode, Persentil, dan OLAP

9

Saya pemula mencoba membungkus kepala saya di sekitar OLAP, dan saya punya beberapa pertanyaan.

  • Pertanyaan 1: Dapatkah kubus OLAP menyimpan median, mode, persentil?
  • Pertanyaan 2: Dapatkah kueri MDX yang ditulis pengguna mengembalikan ringkasan data tingkat baris? (mis:% transaksi> $ 100). Atau haruskah desainer kubus menambahkan ini ke kubus?
  • Pertanyaan 3: Apakah produk OLAP sekarang menyediakan mekanisme untuk mengakses data tingkat baris? Yang?

Departemen TI kami sedang mencari umpan balik tentang masalah apa yang kami alami dengan kubus MSAP Layanan Analsis ROLAP tertentu. Kami tidak memiliki akses ke basis data relasional di belakangnya dan perlu melakukan perhitungan yang saat ini tidak tersedia sebagai ukuran dalam kubus.

Biarkan saya melihat apakah saya memiliki hak ini.

  1. Sebuah kubus dapat memberikan statistik untuk jumlah, sarana, proporsi, standar deviasi.
  2. Jika statistik tertentu belum dipenuhi dalam ukuran yang disediakan oleh perancang kubus, dapatkah kami menulis kueri MDX untuk mendapatkannya? Atau apakah mereka perlu mengubah kubus untuk pra-menghitungnya dari data tingkat baris?
  3. Sebuah kubus tidak dapat memberikan statistik seperti median, mode, atau persentil, karena statistik ini tidak bertambah baik.

Saya membaca The Grammar of Graphics karya Leland Wilkinson dan dalam babnya tentang Penambangan Data dan OLAP, katanya

[Operasi kubus] ini berfungsi baik dengan statistik seperti jumlah, rata-rata, proporsi, dan standar deviasi. Agregasi sederhana di atas subclass dapat dihitung dengan beroperasi pada jumlah, jumlah kuadrat, dan istilah lain yang digabungkan dalam fungsi linear untuk menghasilkan statistik ringkasan dasar.

Mereka tidak bekerja dengan baik dengan statistik seperti median, mode dan persentil karena agregat statistik ini bukan statistik agregat mereka. Median median bukan median agregat, misalnya.

Dia kemudian menambahkan:

Model ROLAP yang lebih canggih telah muncul baru-baru ini. Dimungkinkan, melalui beberapa teknologi, untuk memberikan akses algoritma statistik ke data mentah melalui model relasional secara real time. Pendekatan ini lebih menjanjikan daripada agregasi kaku yang ditawarkan oleh struktur seperti kubus data.

Dalam bentuk paling elegan dari arsitektur ini, aplikasi dapat meminta koneksi jarak jauh untuk memberikan informasi tentang metode penanganan data mereka dan mengambil tindakan yang sesuai tergantung pada informasi yang dikembalikan. Dalam bentuk ini, arsitektur komponen dapat mencapai janji nyata dari komputasi terdistribusi: desain dan eksekusi yang tidak tergantung pada situs, sistem operasi, atau bahasa.

Itu ditulis sekitar tahun 2005. Apakah ada yang mengetahui produk menggunakan metodologi ini untuk memungkinkan akses data tingkat baris?

Tommy O'Dell
sumber
1
Tanpa peminat? Adakah saran tentang cara meningkatkan pertanyaan untuk memperoleh jawaban?
Tommy O'Dell

Jawaban:

5

Untuk menjawab pertanyaan Anda secara berurutan:

  1. Kubus tidak menyimpan median, mode (atau bahkan rata-rata), tetapi Anda bisa menulis kueri yang menghitungnya dan menyematkannya sebagai ukuran yang dihitung dalam kubus. Kemampuan untuk menyematkan perhitungan semacam ini adalah salah satu nilai jual unik utama teknologi OLAP.
  2. Jika Anda memiliki dimensi yang dapat mengidentifikasi baris individual (yang bisa berupa dimensi yang merosot atau 'fakta' yang berasal dari pengidentifikasi pada tabel fakta) maka Anda dapat melakukan kueri berdasarkan pada baris individual. Namun, OLAP berfungsi dalam hal dimensi dan agregat, jadi Anda harus memiliki dimensi yang mampu mengidentifikasi setiap baris (dengan agregat yang terdiri dari satu nilai).
  3. Setiap alat OLAP dapat melakukan apa yang dijelaskan dalam (2), ditambah mereka umumnya mendukung mekanisme yang dikenal sebagai 'drill-through' di mana kubus akan mengembalikan batas data transaksional yang mendasari sepotong tertentu yang Anda telusuri.

Jika Anda ingin melakukan perhitungan yang tidak tersedia secara langsung dalam skrip kubus, banyak alat OLAP seperti ProClarity yang terlambat dan disesalkan akan memungkinkan Anda untuk merumuskan pertanyaan yang melibatkan perhitungan berbasis MDX khusus. Kecuali jika kubus tidak memiliki informasi yang Anda butuhkan untuk melakukan perhitungan yang sebenarnya, perhitungan MDX khusus harus dapat mendukung perhitungan yang Anda butuhkan.

Meskipun kueri OLAP secara tradisional dikaitkan dengan kueri statistik dalam agregat, jika Anda memiliki dimensi yang memungkinkan untuk menelusuri detail yang Anda butuhkan, tentu saja mungkin untuk merumuskan kueri yang akan menghitung kueri median, persentil atau histogram dari mana mode dapat disimpulkan atau dikomputasi.

Misalnya, ini memiliki contoh kueri analisis pareto , yang didasarkan pada peringkat.

Banyak produk kubus dapat beroperasi dalam mode OLAP hibrida atau relasional di mana mereka tidak bertahan sendiri data tetapi permintaan itu dari database yang mendasarinya. Selain itu, alat ROLAP murni seperti Obyek Bisnis, Pembuat Laporan atau Penemu dapat meminta dari basis data yang mendasari dan melakukan pekerjaan baris demi baris. Namun, mereka cenderung kurang kecanggihan produk OLAP khusus, dan mereka tidak memiliki banyak kemampuan analisis statistik di luar kotak.

ConcernedOfTunbridgeWells
sumber