Konversi akhir baris untuk seluruh pohon direktori (Git)

162

Situasi berikut:

Saya sedang mengerjakan Mac yang menjalankan OS X dan baru-baru ini bergabung dengan sebuah proyek yang anggotanya semua menggunakan Windows. Salah satu tugas pertama saya adalah mengatur basis kode dalam repositori Git, jadi saya menarik pohon direktori dari FTP dan mencoba memeriksanya ke repo Git yang telah saya siapkan secara lokal. Ketika mencoba melakukan ini, yang saya dapatkan adalah ini

fatal: CRLF would be replaced by LF in blog/license.txt.

Karena ini mempengaruhi semua file di bawah folder "blog", saya mencari cara untuk dengan mudah mengkonversi SEMUA file di pohon ke Unix line-endings. Apakah ada alat yang melakukannya di luar kotak atau apakah saya mendapatkan skrip sendiri?

Untuk referensi, konfigurasi Git saya tentang akhir baris:

core.safecrlf=true
core.autocrlf=input
Lunikon
sumber

Jawaban:

268

dos2unix melakukan itu untuk Anda. Proses ke depan yang cukup lurus.
dos2unix filename

Berkat toolbear, ini adalah one-liner yang secara rekursif menggantikan akhir baris dan menangani spasi, kutipan, dan shell meta chars dengan benar.

find . -type f -exec dos2unix {} \;

Jika Anda menggunakan file biner dos2unix 6.0 akan diabaikan.

Andy
sumber
8
find blog -type f | xargs dos2unixharus lebih cepat. Anda tidak memerlukan -name *.*keduanya, kecuali Anda hanya menginginkan file dengan periode di suatu tempat di namanya. Itu windows glob, bukan yang * nix.
berguna
15
Perpipaan findke xargsakan gagal jika findmencocokkan file dengan spasi, tanda kutip, atau karakter meta shell lain di jalurnya. Setidaknya gunakan find blog -type f -print0 | xargs -0 dos2unixuntuk menangani kasus spasi putih. Anda harus menggunakan find's -execbukan pipa untuk menghindari kutipan, dll .. The dos2unixman page tidak menentukan apa yang perilakunya adalah jika Anda meminta itu pada file biner. Jika mengkonversi CRLF dalam file biner, itu akan merusaknya. Lihat jawaban saya untuk alternatif yang lebih aman dan lebih lama.
toolbear
1
@ lukmdo yang bukan merupakan versi yang diinstal pada centos 6.4 ..... yang mana membuat clobber mereka .... sebaliknya saya harus d / l dari sini rpmfind.net/linux/rpm2html/search.php?query=dos2unix
Kerridge0
Tambahan: The dos2unix CLI paling mudah diinstal melalui Homebrew (dan bukan npm).
2540625
2
Bagaimana mungkin orang mengabaikan direktori menggunakan pendekatan ini, jika memungkinkan?
datatype_void
50

Dengan asumsi Anda memiliki GNU grepdan perlini akan secara rekursif mengkonversi CRLF ke LF dalam file non-biner di bawah direktori saat ini:

find . -type f -exec grep -qIP '\r\n' {} ';' -exec perl -pi -e 's/\r\n/\n/g' {} '+'

Bagaimana itu bekerja

Temukan secara rekursif di bawah direktori saat ini; ubah .ke blogatau whatevsubdirektori untuk membatasi penggantian:

find .

Hanya cocok dengan file biasa:

  -type f

Uji apakah file berisi CRLF. Kecualikan file biner. Menjalankan grepperintah untuk setiap file biasa. Itu harga tidak termasuk binari. Jika Anda memiliki yang lama, grepAnda bisa mencoba membuat tes menggunakan fileperintah:

  -exec grep -qIP '\r\n' {} ';'

Ganti CRLF dengan LF. The '+'dengan yang kedua -execmemberitahu finduntuk mengakumulasi file yang cocok dan meneruskannya ke satu (atau sesedikit mungkin) pemanggilan perintah seperti perpipaan xargs, tetapi tanpa masalah jika path file berisi spasi, tanda kutip, atau karakter meta shell lainnya. The idalam -pimemberitahu perl untuk memodifikasi file di tempat. Anda dapat menggunakan sedatau di awksini dengan beberapa pekerjaan, dan Anda mungkin akan mengubah '+' menjadi ';' dan meminta proses terpisah untuk setiap pertandingan:

  -exec perl -pi -e 's/\r\n/\n/g' {} '+'
toolbear
sumber
6
Jika itu membantu siapa pun: grep -qIP '\r\n'tidak pernah cocok dengan apa pun di sistem CentOS saya. Mengubahnya grep -qIP '\r$'berfungsi.
Steve Onorato
Benci untuk bertanya dalam komentar, tetapi apakah ada cara untuk mengecualikan folder seperti node_modules?
datatype_void
1
@datatype_void lihat stackoverflow.com/questions/4210042/... untuk cara memodifikasi findbagian dari perintah untuk mengecualikan direktori. Mereka menyarankan menggunakan -path, tetapi Anda juga dapat menggunakan -regexatau -iregex, yaitu -not -regex '.*/node_modules/.*'yang akan mengecualikan node_modulespada kedalaman apa pun.
Toolbear
Maaf jika saya keluar sebagai a regexatau bashnoob, tetapi bagaimana dengan beberapa pengecualian, katakan node_moduledan distmisalnya?
datatype_void
GNU grep diperlukan untuk -Pbendera. OS X beralih dari GNU grep ke BSD grep. Beberapa alternatif untuk OS X: stackoverflow.com/questions/16658333/…
toolbear
28

Ini pilihan yang lebih baik: Pisau File Swiss . Ia bekerja secara rekursif di seluruh sub-direktori, dan menangani spasi dan karakter khusus dengan benar.

Yang harus Anda lakukan adalah:

sfk remcr -dir your_project_directory

Bonus: sfk juga melakukan banyak konversi lainnya. Lihat di bawah untuk daftar lengkap:

SFK - The Swiss File Knife File Tree Processor.
Release 1.6.7 Base Revision 2 of May  3 2013.
StahlWorks Technologies, http://stahlworks.com/
Distributed for free under the BSD License, without any warranty.

type "sfk commandname" for help on any of the following.
some commands require to add "-help" for the help text.

   file system
      sfk list       - list directory tree contents.
                       list latest, oldest or biggest files.
                       list directory differences.
                       list zip jar tar gz bz2 contents.
      sfk filefind   - find files by filename
      sfk treesize   - show directory size statistics
      sfk copy       - copy directory trees additively
      sfk sync       - mirror tree content with deletion
      sfk partcopy   - copy part from a file into another one
      sfk mkdir      - create directory tree
      sfk delete     - delete files and folders
      sfk deltree    - delete whole directory tree
      sfk deblank    - remove blanks in filenames
      sfk space [-h] - tell total and free size of volume
      sfk filetime   - tell times of a file
      sfk touch      - change times of a file

   conversion
      sfk lf-to-crlf - convert from LF to CRLF line endings
      sfk crlf-to-lf - convert from CRLF to LF line endings
      sfk detab      - convert TAB characters to spaces
      sfk entab      - convert groups of spaces to TAB chars
      sfk scantab    - list files containing TAB characters
      sfk split      - split large files into smaller ones
      sfk join       - join small files into a large one
      sfk hexdump    - create hexdump from a binary file
      sfk hextobin   - convert hex data to binary
      sfk hex        - convert decimal number(s) to hex
      sfk dec        - convert hex number(s) to decimal
      sfk chars      - print chars for a list of codes
      sfk bin-to-src - convert binary to source code

   text processing
      sfk filter     - search, filter and replace text data
      sfk addhead    - insert string at start of text lines
      sfk addtail    - append string at end of text lines
      sfk patch      - change text files through a script
      sfk snapto     - join many text files into one file
      sfk joinlines  - join text lines split by email reformatting
      sfk inst       - instrument c++ sourcecode with tracing calls
      sfk replace    - replace words in binary and text files
      sfk hexfind    - find words in binary files, showing hexdump
      sfk run        - run command on all files of a folder
      sfk runloop    - run a command n times in a loop
      sfk printloop  - print some text many times
      sfk strings    - extract strings from a binary file
      sfk sort       - sort text lines produced by another command
      sfk count      - count text lines, filter identical lines
      sfk head       - print first lines of a file
      sfk tail       - print last lines of a file
      sfk linelen    - tell length of string(s)

   search and compare
      sfk find       - find words in binary files, showing text
      sfk md5gento   - create list of md5 checksums over files
      sfk md5check   - verify list of md5 checksums over files
      sfk md5        - calc md5 over a file, compare two files
      sfk pathfind   - search PATH for location of a command
      sfk reflist    - list fuzzy references between files
      sfk deplist    - list fuzzy dependencies between files
      sfk dupfind    - find duplicate files by content

   networking
      sfk httpserv   - run an instant HTTP server.
                       type "sfk httpserv -help" for help.
      sfk ftpserv    - run an instant FTP server
                       type "sfk ftpserv -help" for help.
      sfk ftp        - instant anonymous FTP client
      sfk wget       - download HTTP file from the web
      sfk webrequest - send HTTP request to a server
      sfk tcpdump    - print TCP conversation between programs
      sfk udpdump    - print incoming UDP requests
      sfk udpsend    - send UDP requests
      sfk ip         - tell own machine's IP address(es).
                       type "sfk ip -help" for help.
      sfk netlog     - send text outputs to network,
                       and/or file, and/or terminal

   scripting
      sfk script     - run many sfk commands in a script file
      sfk echo       - print (coloured) text to terminal
      sfk color      - change text color of terminal
      sfk alias      - create command from other commands
      sfk mkcd       - create command to reenter directory
      sfk sleep      - delay execution for milliseconds
      sfk pause      - wait for user input
      sfk label      - define starting point for a script
      sfk tee        - split command output in two streams
      sfk tofile     - save command output to a file
      sfk toterm     - flush command output to terminal
      sfk loop       - repeat execution of a command chain
      sfk cd         - change directory within a script
      sfk getcwd     - print the current working directory
      sfk require    - compare version text

   development
      sfk bin-to-src - convert binary data to source code
      sfk make-random-file - create file with random data
      sfk fuzz       - change file at random, for testing
      sfk sample     - print example code for programming
      sfk inst       - instrument c++ with tracing calls

   diverse
      sfk media      - cut video and binary files
      sfk view       - show results in a GUI tool
      sfk toclip     - copy command output to clipboard
      sfk fromclip   - read text from clipboard
      sfk list       - show directory tree contents
      sfk env        - search environment variables
      sfk version    - show version of a binary file
      sfk ascii      - list ISO 8859-1 ASCII characters
      sfk ascii -dos - list OEM codepage 850 characters
      sfk license    - print the SFK license text

   help by subject
      sfk help select   - how dirs and files are selected in sfk
      sfk help options  - general options reference
      sfk help patterns - wildcards and text patterns within sfk
      sfk help chain    - how to combine (chain) multiple commands
      sfk help shell    - how to optimize the windows command prompt
      sfk help unicode  - about unicode file reading support
      sfk help colors   - how to change result colors
      sfk help xe       - for infos on sfk extended edition.

   All tree walking commands support file selection this way:

   1. short format with ONE directory tree and MANY file name patterns:
      src1dir .cpp .hpp .xml bigbar !footmp
   2. short format with a list of explicite file names:
      letter1.txt revenues9.xls report3\turnover5.ppt
   3. long format with MANY dir trees and file masks PER dir tree:
      -dir src1 src2 !src\save -file foosys .cpp -dir bin5 -file .exe

   For detailed help on file selection, type "sfk help select".

   * and ? wildcards are supported within filenames. "foo" is interpreted
   as "*foo*", so you can leave out * completely to search a part of a name.
   For name start comparison, say "\foo" (finds foo.txt but not anyfoo.txt).

   When you supply a directory name, by default this means "take all files".

      sfk list mydir                lists ALL  files of mydir, no * needed.
      sfk list mydir .cpp .hpp      lists SOME files of mydir, by extension.
      sfk list mydir !.cfg          lists all  files of mydir  EXCEPT .cfg

   general options:
      -tracesel tells in detail which files and/or directories are included
                or excluded, and why (due to which user-supplied mask).
      -nosub    do not process files within subdirectories.
      -nocol    before any command switches off color output.
      -quiet    or -nohead shows less output on some commands.
      -hidden   includes hidden and system files and dirs.
      For detailed help on all options, type "sfk help options".

   beware of Shell Command Characters.
      command parameters containing characters < > | ! & must be sur-
      rounded by quotes "". type "sfk filter" for details and examples.

   type "sfk ask word1 word2 ..."   to search ALL help text for words.
   type "sfk dumphelp"              to print  ALL help text.

EDIT: kata hati-hati: hati-hati saat menjalankan ini pada folder yang memiliki file biner, karena akan secara efektif menghancurkan file Anda, khususnya direktori .git . Jika ini adalah kasus Anda, jangan tidak menjalankan sfk di seluruh folder, tapi pilih ekstensi file tertentu bukan (* Rb, * .py, dll). Contoh:sfk remcr -dir chef -file .rb -file .json -file .erb -file .md

Gui Ambros
sumber
Berfungsi bagus di OSX Mavericks. Tidak perlu menginstal apa pun, cukup jalankan script dari dmg yang terpasang dan terminal Anda tampaknya siap untuk digunakan.
Nate Cook
@Gui Ambros Anda tidak perlu khawatir tentang file di dalam folder .git. sfk tidak memperbarui file di dalam folder tersembunyi secara default.
bittusarkar
1
@ bitittarkar: Pada saat jawaban saya, sfksecara efektif memproses seluruh folder .git saya dan menghancurkan banyak binari (maka edit saya ; tidak ingat apakah itu Linux atau Mac). Mereka mungkin telah mengubah perilaku default di versi yang lebih baru, tetapi saya masih merekomendasikan untuk menentukan ekstensi, agar aman.
Gui Ambros
1
Ini bekerja dengan baik untuk saya, setelah menghabiskan terlalu banyak waktu untuk menormalkan repo saya menggunakan perintah git yang direkomendasikan yang tidak memperbaiki semua file yang relevan.
angularsen
1
Terima kasih! Hanya menggunakan ini untuk mengonversi sejumlah besar file dengan cepat dan tanpa rasa sakit dan sekarang saya dapat menambahkannya ke area pementasan di Git. Pada OSX 10.9.5, dan tidak yakin di mana file dibuat.
ryanwc
16
find . -not \( -name .svn -prune -o -name .git -prune \) -type f -exec perl -pi -e 's/\r\n|\n|\r/\n/g' {} \;

Ini jauh lebih aman karena tidak merusak git repo Anda. Tambahkan atau ganti .git, .svn dengan .bzr, .hg atau sumber apa pun yang mengontrol penggunaan Anda ke daftar tidak .

pemecah kode
sumber
3
Ini adalah jawaban terbaik jika Anda tidak perlu menginstal apapun seperti dos2unix. Mengizinkan pengecualian jenis file dan menghindari file kode sumber yang rusak.
Raghavan
10

Di OS X, ini berhasil bagi saya:

find ./ -type f -exec perl -pi -e 's/\r\n|\n|\r/\n/g' {} \;

Peringatan: Harap cadangkan direktori Anda sebelum menjalankan perintah ini.

Raunak
sumber
5
Hanya ingin mencatat bahwa ini merusak repositori git saya. Saya mencoba lagi dengan memindahkan folder .git sebelum menjalankan dan memindahkannya kembali dengan sukses yang lebih baik.
Garie
1
Saya juga akan mencatat bahwa ini tidak mengecualikan file biner, jadi itu akan merusak jpg Anda misalnya.
Niek
0

Di sini solusinya jika menggunakan sed:

find . -type f -exec sed -i 's/\r$//' {} \;

-i singkatan di tempat, jika Anda ingin membuat cadangan gunakan juga -i.bak

's/\r$//'akan mengganti semua pengembalian carriage ( \r) di akhir setiap baris

Mustapha-Belkacim
sumber