Apakah ada cara untuk menemukan file yang serupa (bukan duplikat)?

12

Tujuan akhir saya adalah kode refactoring yang ditulis oleh rekan kerja saya. Jadi, adakah alat yang dapat menemukan file berbeda hanya dalam beberapa kata?

(Sunting: ini untuk Mac, tetapi yang lain mungkin juga suka jawaban non-Mac.)

cekcok
sumber
@harry, mengingat riwayat revisi , saya kira Anda memposting jawaban Windows, yang diturunkan karena hanya saat itulah persyaratan Mac muncul? Saya lebih suka persyaratan Mac dibatalkan dan lihat jawaban Anda (jika itu jawaban non-Mac yang bagus) juga!
Arjan
@Arjan: Selesai.
harrymc
Untuk Mac, saya bertanya-tanya apakah Spotlight dapat digunakan. Saya meragukannya, tetapi jika Anda tahu cara untuk melakukan sesuatu di Spotlight, maka mdfindperintah itu mungkin membantu untuk menulis beberapa skrip untuk mengotomatiskan hal-hal. Namun, saya pikir itu akan selalu hanya menggunakan data meta. Karenanya menemukan file serupa mungkin membatasi pada jenis file, tetapi tidak pada konten file. Tidak ada cerutu
Arjan

Jawaban:

5

Simian melakukan ini untuk kode sumber beberapa bahasa. Cara terbaik adalah menemukan pengkodean copy-n-paste terang-terangan. Perkembangannya tampaknya terhenti, tetapi bekerja cukup baik.

Benjamin Bannier
sumber
Tidak banyak membantu - dalam aplikasi rel dengan banyak parsial yang sangat mirip hanya dikatakan, bahwa saya memiliki garis yang sama dalam development.log
tig
Apakah Anda memberikannya file yang tepat untuk dianalisis? Anda mungkin peduli dengan sumber Anda, bukan development.log. Untuk kereta, lihat flay rubyforge.org/frs/…
Benjamin Bannier
Ya saya memberikan semua file di rails app dir
tig
2

(Untuk Windows)

Produk Anti-Twin (gratis untuk penggunaan pribadi) mengklaim dapat melakukan ini:

Jika Anda ingin Anti-Twin tidak hanya mencari duplikat penuh tetapi juga file yang serupa, Anda dapat mengurangi kecocokan minimum yang diinginkan dari nilai default 100% hingga 60%. Fungsi ini telah dirancang khusus untuk mencari file yang hampir identik di mana hanya detail kecil yang diubah. Anti-Twin menggunakan pencarian kesamaan segera setelah Anda memasukkan nilai di bawah 100%. Perbandingan kesamaan membutuhkan waktu lebih lama daripada pencarian duplikat penuh 100%!

Sayangnya, pencarian kesamaan sebagai bagian dari perbandingan byte-by-byte hanya masuk akal untuk beberapa jenis file, karena kesamaan hanya dapat dideteksi jika file tidak terkompresi dan tidak dienkripsi. File yang tidak dikompres misalnya teks yang tidak diformat (.TXT) dan HTML.

harrymc
sumber
Saya menggunakan mac dan menjalankan sesuatu melalui anggur, paralel atau sesuatu seperti itu tidak akan membuat refactoring lebih mudah, hanya lebih sulit :)
tig
@tig: Anda harus menentukan ini di posting Anda. Saya telah menambahkan tag mac.
harrymc
@Arjan: Saya membatalkan penghapusan jawaban ini, seperti yang Anda minta.
harrymc
memang seharusnya begitu! [mac]Tag dihapus lagi. Seharusnya [osx]tetap ;-)
Arjan