Struktur Data untuk Set persimpangan?

21

Apakah ada struktur data yang memelihara kumpulan himpunan (himpunan terbatas hingga) yang mendukung operasi berikut? Setiap waktu menjalankan sublinear akan dihargai?

Init set kosong.
Tambahkan elemen ke set.
Diberi dua set, laporkan apakah mereka berpotongan.

data-structures sets Dawei Huang
sumber

1

Ini adalah pertanyaan yang sangat umum, karena setiap struktur data dapat mendukung operasi tersebut dengan domain terbatas. Bisakah Anda sedikit lebih spesifik? Misalnya. Kompleksitas apa yang Anda butuhkan, apa yang rela Anda korbankan untuk mendapatkan operasi yang ditetapkan, dll.

Bartosz Przybylski

13

Jika setiap set menyimpan catatan apa yang ada, dan Anda memiliki total set, Anda dapat dengan mudah mengubah struktur data apa pun untuk koleksi ( mis. Pohon pencarian biner, dll. ) Menjadi satu di mana Anda dapat mengambil unsur persimpangan dua set dalam waktu . $s > 0$ $O(\log s)$

Setiap set harus memiliki pengidentifikasi unik dari beberapa set yang dipesan secara total. Jika Anda secara eksplisit memberi nama set Anda maka pengidentifikasi hanya bisa menjadi indeks. $S_1, S_2, \ldots$
Anda harus menerapkan "registri" set; struktur data yang memelihara koleksi semua set yang telah Anda tetapkan. Registri harus diimplementasikan sebagai struktur data pohon pencarian, untuk memungkinkan pengambilan mudah ( misalnya jika Anda ingin menghapus set) dan traversal linear-time dari set.
Setiap set juga mempertahankan "index" dari masing-masing set lain - bukan salinan dari mereka, melainkan struktur data yang diindeks oleh label set lainnya. Indeks ini akan digunakan untuk mempertahankan, untuk setiap set , sebuah pohon pencarian biner dari semua elemen dari . (Dua set dan membagikan satu salinan dari pohon pencarian itu.) $S_j$ $S_k$ $S_j \cap S_k$ $S_j$ $S_k$

Inisialisasi

Inisialisasi set terdiri dari operasi untuk menginisialisasi pohon unsur-unsurnya, operasi seperti yang Anda menginisialisasi (menyalin dari registri) indeks untuk set , dan operasi saat Anda melintasi registri untuk menambahkan ke indeks masing-masing set lainnya . Dalam indeks , kami membuat pohon pencarian yang mewakili $T = \varnothing$ $O(1)$ $O(s)$ $T$ $O(s \log s)$ $T$ $S_j$ $T$ $T \cap S_j = \varnothing$ untuk perangkat lainnya ; kami menyalin pointer yang sama untuk indeks . $S_j$ $S_j$

Menambahkan elemen ke set $T$

Menambahkan beberapa ke himpunan membutuhkan waktu seperti biasa, di mana . Kami juga tes untuk keanggotaan di masing-masing set lain , yang membutuhkan waktu $x \in V$ $T$ $O(\log n_T)$ $n_T = |T|$ $x$ $S_1, S_2, \ldots$ manaadalah ukuran alam semesta (atau himpunan terbesar ) dan adalah jumlah himpunan dalam registri. Untuk setiap set sehingga , juga insert ke dalam indeks untuk set . Untuk setiap seperti set , ini membutuhkan waktu waktu, untuk mencari

O (\log n_{S_{1}} + \log n_{S_{2}} + \dots) \subseteq O (s \log n),

$O(\log n_{S_1} + \log n_{S_2} + \cdots) \subseteq O(s \log n) ,$

n = | V |

$n = |V|$

S_{j}

$S_j$

s

$s$

S_{j}

$S_j$

x \in S_{j}

$x \in S_j$

x

$x$

S_{j} \cap T

$S_j \cap T$

S_{j}

$S_j$

O (\log s + \log n_{T})

$O(\log s + \log n_T)$

S_{j}

$S_j$ dalam indeks

dan untuk memasukkan

dalam

; di semua set

ini membutuhkan waktu

. Jika kita menganggap bahwa jumlah set

jauh lebih kecil dari ukuran alam semesta

(yaitu, jika kita menganggap

), total waktu untuk penyisipan elemen kemudian

T

$T$

x

$x$

S_{j} \cap T

$S_j \cap T$

S_{1}, S_{2}, \dots

$S_1, S_2, \ldots$

O (s \log s + s \log n_{T})

$O(s \log s + s \log n_T)$

S_{j}

$S_j$

V

$V$

s ≪ n

$s \ll n$

O (s \log n)

$O(s \log n)$ .

Jika Anda tidak mengizinkan duplikat di set, kita dapat menghemat waktu dalam kasus yang sudah dengan berpantang tes keanggotaan dan sisipan untuk set lain . "Penyisipan" dalam hal sudah ada maka hanya membutuhkan waktu . $x \in S$ $T$ $x$ $O(\log n_T)$

Pengujian titik-temu

Indeks setiap set dipertahankan dengan tepat untuk memungkinkan evaluasi cepat apakah dua set dan berpotongan. Untuk satu set , hanya dengan memeriksa indeks untuk set , kita tidak bisa hanya menentukan dalam waktu apakah berpotongan , tetapi kita juga bisa mengambil sebuah pohon biner yang berisi seluruh himpunan . $S_j$ $S_k$ $S_j$ $S_k$ $O(\log s)$ $S_j$ $S_k$ $S_j \cap S_k$

Penghapusan Elemen

Untuk menghapus elemen dari himpunan , kami menghapusnya tidak hanya dari pohon pencarian untuk itu sendiri, tetapi dari masing-masing persimpangan untuk himpunan dalam indeksnya. Ini membutuhkan waktu , di mana . $x$ $T$ $T$ $S_j \cap T$ $S_j$ $O(s \log n_T)$ $n_T = |T|$

Tetapkan Penghapusan

Karena overhead mencari registri, jika Anda memiliki banyak set, mungkin diinginkan untuk menghapus set setelah mereka tidak lagi diperlukan. Dengan melintasi seluruh registri, kami dapat menghapus dari indeks semua set lainnya dalam waktu , didominasi oleh biaya menghapus pohon pencarian yang mewakili untuk masing-masing set lainnya , di mana . $S$ $S_j$ $O(sn_T)$ $S_j \cap T$ $S_j$ $n_T = |T|$

Catatan

Jika Anda hanya berharap untuk mengimplementasikan jumlah set yang konstan, maka run-times di atas berkurang menjadi:

inisialisasi: $O(1)$
penyisipan elemen: $O(\log n)$
pengujian persimpangan (dan pengambilan persimpangan): $O(1)$
penghapusan elemen: $O(\log n_T)$
setel penghapusan: $O(n_S)$

di mana adalah ukuran set terbesar dalam registri, dan untuk set yang Anda operasikan. $n$ $n_T = |T|$ $T$

Jika Anda berharap memiliki set , di mana adalah semesta Anda, Anda mungkin memerlukan struktur data yang berbeda jika Anda ingin operasi ini beroperasi dalam waktu sub-linear. Namun, jika Anda memiliki pasangan set yang persimpangannya Anda tahu tidak akan pernah Anda uji, Anda mungkin dapat mengurangi ukuran indeks untuk set tersebut (dengan tidak termasuk set yang persimpangannya akan Anda uji) atau menggunakan lebih dari satu registry ( satu untuk setiap kumpulan set yang persimpangannya mungkin Anda uji). Bahkan, registri hanya berguna jika Anda ingin kontrol terpusat untuk memastikan bahwa setiap pasangan set memiliki catatan satu sama lain dalam indeks: itu mungkin praktis dalam beberapa kasus, pada inisialisasi set , hanya untuk merekam $O(|V|)$ $V$ $S$ ad hoc setiap set baru ke dalam indeks set lainnya yang simpang dengan Anda minati. $T$ $S$

Niel de Beaudrap
sumber

6

Ada struktur data yang memungkinkan Anda melakukan ini dalam waktu kurang dari linear, bahkan untuk input terburuk. Lihat http://research.microsoft.com/pubs/173795/vldb11intersection.pdf (dan referensi makalah di sana).

Jika dua set S dan T Anda memiliki persimpangan besar dan Anda memiliki kamus untuk S, mencari elemen T dalam urutan acak akan dengan cepat memberi Anda elemen umum. Kasus yang paling sulit adalah ketika ukuran persimpangan adalah 0 atau 1.

Rasmus Pagh
sumber

3

Biasanya bahasa pemrograman pilihan Anda akan mendukung struktur data dengan elemen unik. Secara umum ada tiga pendekatan populer: Pohon, Hash dan Bitmask. Elemen pohon harus dapat dibandingkan, elemen hash harus hashable dan elemen Bitmask harus memiliki cara konversi ke integer.

Rangkaian pohon akan mendukung penyisipan dalam O (log n) dan pengujian persimpangan di Worst Case O (n log n).

Hash-set akan mendukung penyisipan dalam Amortized O (1 * h) di mana 'h' adalah waktu berjalan dari algoritma hashing, dan tes persimpangan di Worst Case O (n).

Set bitmask umumnya tidak digunakan seperti set pohon dan hash.

Karl Damgaard Asmussen
sumber

2

Ini akan menjadi jawaban Stack Overflow yang layak , tetapi di sini kami ingin beberapa detail tentang bagaimana dan mengapa ia bekerja.

Raphael

3

Jika kasing Anda memberikan jawaban positif palsu, saya akan menggunakan Bloom Filter dengan fungsi hash tunggal.

Anda dapat menerapkannya sebagai berikut:

Init set kosong

$B$ $n$ $n$

Tambahkan elemen ke set.

$B[hash(element)]=1$

Diberi dua set (B1, B2), laporkan apakah mereka berpotongan.

$B1$ $AND$ $B2$ $=$ $0$

Kompleksitas

$n$ $O(1)$

Grisha Weintraub
sumber

Struktur Data untuk Set persimpangan?

Jawaban: