Hubungan dan perbedaan antara pengambilan informasi dan ekstraksi informasi?

11

Dari Wikipedia

Pengambilan informasi adalah kegiatan memperoleh sumber daya informasi yang relevan dengan kebutuhan informasi dari kumpulan sumber daya informasi. Pencarian dapat didasarkan pada metadata atau pengindeksan teks lengkap.

Dari Wikipedia

Information Extraction (IE) adalah tugas mengekstraksi informasi terstruktur secara otomatis dari dokumen yang dapat dibaca mesin yang tidak terstruktur dan / atau semi-terstruktur. Dalam sebagian besar kasus, kegiatan ini menyangkut pemrosesan teks bahasa manusia melalui pemrosesan bahasa alami (NLP). Kegiatan terbaru dalam pemrosesan dokumen multimedia seperti anotasi otomatis dan ekstraksi konten dari gambar / audio / video dapat dilihat sebagai ekstraksi informasi.

Apa hubungan dan perbedaan antara pengambilan informasi dan ekstraksi informasi?

Terima kasih!

Tim
sumber

Jawaban:

9

Pencarian informasi yang didasarkan pada permintaan - Anda menentukan informasi apa yang Anda butuhkan dan itu dikembalikan dalam bentuk dimengerti manusia.

Ekstraksi informasi adalah tentang penataan informasi yang tidak terstruktur - mengingat beberapa sumber semua informasi (relevan) disusun dalam bentuk yang akan mudah untuk diproses. Ini tidak perlu dalam bentuk yang dapat dimengerti manusia - ini hanya dapat digunakan untuk program komputer.

Beberapa sumber:

Anton
sumber
7

http://gate.ac.uk/ie/ memberikan perbedaan yang sangat bagus dan ringkas:

Ekstraksi Informasi bukan Pengambilan Informasi: Ekstraksi Informasi berbeda dari teknik tradisional dalam hal itu tidak pulih dari kumpulan subset dokumen yang mudah-mudahan relevan dengan permintaan, berdasarkan pencarian kata-kata kunci (mungkin ditambah oleh tesaurus). Sebaliknya, tujuannya adalah untuk mengekstrak dari dokumen (yang mungkin dalam berbagai bahasa) fakta-fakta penting tentang jenis peristiwa, entitas atau hubungan yang telah ditentukan sebelumnya. Fakta-fakta ini kemudian biasanya dimasukkan secara otomatis ke dalam basis data, yang kemudian dapat digunakan untuk menganalisis data untuk tren, untuk memberikan ringkasan bahasa alami, atau hanya untuk melayani untuk akses online.

Singkatnya:

Pengambilan Informasi mendapat set dokumen yang relevan:

masukkan deskripsi gambar di sini

Ekstraksi Informasi mengeluarkan fakta dari dokumen:

masukkan deskripsi gambar di sini

Franck Dernoncourt
sumber
2

Dari sudut pandang pemodelan, pencarian informasi adalah bidang mendalam yang didasarkan pada beberapa disiplin ilmu, termasuk statistik, matematika, linguistik, kecerdasan buatan dan sekarang ilmu data. Dalam praktiknya, model ini diterapkan terhadap teks dalam korpora untuk menemukan pola dalam data. Tidak hanya model IR tumpang tindih dalam penggunaannya, mereka dapat "bermitra" dengan model lain seperti k-means atau k-model tetangga terdekat, kemudian model lain dapat diterapkan dari sudut pandang linguistik komputasi seperti LDA / LDI dan pemodelan topik Kemudian, permainan akhir adalah semacam visualisasi informasi dari penemuan ini - setelah pekerjaan pemeringkatan, pengelompokan dan pengumpulan. Pengambilan Informasi mungkin tampak sebagai disiplin samar, tetapi upaya serius, yang sangat dihargai, akan membuka area untuk pemahaman yang lebih dalam dari masing-masing model, dan interaksi antara model. Saya mengutip seri "Ceramah Sintesis tentang Konsep, Pengambilan Informasi, dan Layanan" sebagai tempat terbaik untuk menggali fondasi bagi IR.

Walaupun saya tidak sepenuhnya memisahkan IR dan Ekstraksi Informasi, mungkin subset dari IE, ekstraksi level konsep, memang menerapkan pola IR bersama dengan aturan-aturan inferencing berbasis AI untuk mengekstrak ontologi terkait. Sifat grafis dari hubungan ini sedang ditingkatkan dengan pemodelan ontologi di OWL dan RDF, dan dengan basis data grafik, yang memungkinkan untuk serangkaian pemodelan hubungan yang kurang ketat atau ketat, dan memungkinkan lebih banyak hubungan muncul ke permukaan, daripada dikendalikan per se. Kemampuan menumbuhkan ekstraksi informasi secara dinamis membuat "disiplin" sangat menarik bagi para peneliti.

Baik IR dan IE bermain dalam "entitas saat ini" yang signifikan - beberapa telah menyebut "ontologi dinamis" - beberapa menjadi Palantir - kita memerlukan pola, model, simulasi, dan visualisasi dari entitas signifikan tersebut untuk melakukan bisnis di wajah morphing sumber informasi baru dan perubahan informasi yang ada. Pemodelan konseptual, relasional, definisi, pola dan ontologis harus fleksibel dan visualisasi mereka sama. Pengangkatan berat mesin AI seperti Watson di bidang ekstraksi informasi dan inferensiasi telah membuat sorotan pada IE dan terus terang bidang IR. Di mana-mana pemrosesan bahasa alami dan pembelajaran mesin menyerukan perhatian pada model dan mesin IR dan IE. Dampak model IR pada pencarian dan SEO, dan pada pemodelan web semantik adalah salah satunya "

Metodody
sumber
1

Pengambilan informasi adalah tentang mengembalikan informasi yang relevan untuk kueri atau bidang minat tertentu. Perhatikan bahwa informasi ini juga bisa dalam bentuk dokumen umum, cukup yakin mesin pencari adalah contoh penting dari tugas tersebut. Saya akan mengatakan bahwa entitas yang paling penting yang dapat dikenali untuk pengambilan informasi adalah kumpulan dokumen / informasi awal dan permintaan yang menentukan "apa yang harus dicari".

Di sisi lain, ekstraksi informasi lebih lanjut tentang mengekstraksi (atau menyimpulkan) pengetahuan umum (atau hubungan) dari sekumpulan dokumen atau informasi. Perhatikan bahwa di sini semua konten dokumen dapat dianggap sebagai keseluruhan kumpulan data yang darinya diambil pengetahuan. Tentu saja juga untuk kasus ini Anda entah bagaimana dapat menentukan apa yang ingin Anda ekstrak, tetapi lebih tentang properti / hubungan daripada subjek / topik tertentu. Properti lebih spesifik domain, sementara umumnya hubungan mencakup skenario yang lebih umum.

Sekali lagi, dengan mesin pencari Anda meminta untuk mendapatkan situs yang paling mungkin berisi informasi tentang subjek tertentu. Ini adalah contoh pengambilan informasi .

Untuk ekstraksi informasi, Anda dapat, misalnya, meminta untuk mengekstrak semua nama kota, atau alamat email, yang muncul dalam kumpulan dokumen. Anda bahkan bisa menjadi jauh lebih generik, meminta hanya untuk mengekstrak pengetahuan. Seperti yang Anda lihat ini benar-benar generik, tetapi bisa dicapai, misalnya, dengan memperoleh kembar tiga dari objek-aksi-objek untuk setiap kalimat yang valid dari sebuah teks (ini paling cocok untuk teks bahasa alami).

Jika Anda tertarik, topik-topik ini (dan lainnya) dijelaskan secara terperinci dalam bab Pemrosesan Bahasa Alami dari buku Arti ficial Intelligence: A Modern Approach .

5agado
sumber