Penambangan Data Relasional tanpa ILP

9

Saya memiliki dataset besar dari database relasional yang saya perlukan untuk membuat model klasifikasi. Biasanya untuk situasi ini saya akan menggunakan Pemrograman Logika Induktif (ILP), tetapi karena keadaan khusus saya tidak bisa melakukan itu.

Cara lain untuk mengatasi hal ini adalah dengan mencoba menggabungkan nilai ketika saya memiliki hubungan asing. Namun, saya memiliki ribuan baris penting dan berbeda untuk beberapa atribut nominal (misalnya: Seorang pasien yang memiliki hubungan dengan beberapa resep obat yang berbeda). Jadi, saya tidak bisa melakukan itu tanpa membuat atribut baru untuk setiap baris berbeda dari atribut nominal itu, dan lebih jauh sebagian besar kolom baru akan memiliki nilai NULL jika saya melakukannya.

Apakah ada algoritma non-ILP yang memungkinkan saya untuk menambang basis data relasional tanpa menggunakan teknik seperti pivoting, yang akan menciptakan ribuan kolom baru?

pengguna697110
sumber
2
Bagaimana dengan aturan penambangan? Tidak jelas bagi saya apa tujuan Anda.
adesantos
Sementara pertanyaan yang bagus saya perhatikan bahwa itu muncul di beberapa forum Stack Exchange ... stackoverflow.com/questions/24260299/… ; Bukannya saya ngotot tentang hal-hal seperti itu, tapi saya pikir kita tidak seharusnya melakukannya
Hack-R
Juga, akan sangat membantu jika Anda bisa sedikit lebih spesifik berkenaan dengan apa yang Anda klasifikasikan, penghalang yang Anda temui dan di dunia yang ideal memberi kami beberapa data sampel untuk dilihat
Hack-R

Jawaban:

1

Pertama, beberapa peringatan

Saya tidak yakin mengapa Anda tidak dapat menggunakan paradigma pemrograman pilihan (sub-) *, Pemrograman Logika Induktif (ILP) , atau apa yang ingin Anda klasifikasikan. Memberi lebih banyak detail mungkin akan menghasilkan jawaban yang jauh lebih baik; terutama karena agak tidak biasa untuk mendekati pemilihan algoritma klasifikasi berdasarkan paradigma pemrograman yang terkait dengannya. Jika contoh dunia nyata Anda bersifat rahasia, maka buatlah contoh fiksi tapi analog.

Klasifikasi Big Data tanpa ILP

Karena itu, setelah mengesampingkan ILP kami memiliki 4 paradigma pemrograman logika lainnya dalam pertimbangan kami:

  1. Abduktif
  2. Set Jawaban
  3. Paksaan
  4. Fungsional

selain lusinan paradigma dan sub-paradigma di luar pemrograman logika.

Dalam Pemrograman Logika Fungsional misalnya, terdapat ekstensi ILP yang disebut Pemrograman Logika Fungsional Induktif , yang didasarkan pada penyempitan inversi (yaitu inversi mekanisme penyempitan). Pendekatan ini mengatasi beberapa keterbatasan ILP dan ( menurut beberapa sarjana, setidaknya ) sesuai untuk penerapan dalam hal representasi dan memiliki manfaat memungkinkan masalah diungkapkan dengan cara yang lebih alami.

Tanpa mengetahui lebih lanjut tentang spesifikasi basis data Anda dan hambatan yang Anda hadapi untuk menggunakan ILP, saya tidak bisa tahu apakah ini menyelesaikan masalah Anda atau menderita masalah yang sama. Karena itu, saya akan membuang pendekatan yang sama sekali berbeda.

ILP kontras dengan pendekatan "klasik" atau "proposisional" untuk data mining . Pendekatan tersebut termasuk daging dan tulang Machine Learning seperti pohon keputusan, jaringan saraf, regresi, mengantongi dan metode statistik lainnya. Daripada menyerah pada pendekatan ini karena ukuran data Anda, Anda dapat bergabung dengan jajaran banyak Ilmuwan Data, insinyur Big Data dan ahli statistik yang memanfaatkan High Performance Computing (HPC) untuk menggunakan metode ini dengan kumpulan data besar (ada juga pengambilan sampel dan teknik statistik lainnya yang dapat Anda gunakan untuk mengurangi sumber daya komputasi dan waktu yang diperlukan untuk menganalisis Big Data dalam basis data relasional Anda).

HPC mencakup hal-hal seperti memanfaatkan beberapa inti CPU, meningkatkan analisis Anda dengan penggunaan elastis server dengan memori tinggi dan sejumlah besar inti CPU cepat, menggunakan peralatan gudang data berkinerja tinggi, menggunakan kelompok atau bentuk lain dari komputasi paralel, dll. Saya tidak yakin bahasa apa atau rangkaian statistik yang Anda analisis dengan data Anda, tetapi sebagai contoh, CRAN Task View ini mencantumkan banyak sumber daya HPC untuk bahasa R yang akan memungkinkan Anda untuk meningkatkan algoritme proposisional.

Hack-R
sumber