Bagaimana saya mendapatkan semuanya sebelum: dalam string Python

Question 1

Saya mencari cara untuk mendapatkan semua huruf dalam string sebelum a: tapi saya tidak tahu harus mulai dari mana. Apakah saya akan menggunakan regex? Jika ya, bagaimana caranya?

string = "Username: How are you today?"

Dapatkah seseorang menunjukkan kepada saya contoh tentang apa yang dapat saya lakukan?

Question 2

Cukup gunakan splitfungsinya. Ini mengembalikan daftar, sehingga Anda dapat menyimpan elemen pertama:

>>> s1.split(':')
['Username', ' How are you today?']
>>> s1.split(':')[0]
'Username'

Question 3

Menggunakan index:

>>> string = "Username: How are you today?"
>>> string[:string.index(":")]
'Username'

Indeks akan memberi Anda posisi : dalam string, lalu Anda dapat mengirisnya.

Jika Anda ingin menggunakan regex:

>>> import re
>>> re.match("(.*?):",string).group()
'Username'

match cocok dari awal string.

Anda juga bisa menggunakan itertools.takewhile

>>> import itertools
>>> "".join(itertools.takewhile(lambda x: x!=":", string))
'Username'

Question 4

Anda tidak perlu regexuntuk ini

>>> s = "Username: How are you today?"

Anda dapat menggunakan splitmetode ini untuk membagi string pada ':'karakter

>>> s.split(':')
['Username', ' How are you today?']

Dan potong elemen [0]untuk mendapatkan bagian pertama dari string

>>> s.split(':')[0]
'Username'

Question 5

Saya telah membandingkan berbagai teknik ini dengan Python 3.7.0 (IPython).

TLDR

tercepat (ketika simbol pemisah cdiketahui): regex yang telah dikompilasi sebelumnya.
tercepat (sebaliknya): s.partition(c)[0].
aman (yaitu, bila cmungkin tidak berada di s): partisi, split.
tidak aman: indeks, regex.

Kode

import string, random, re

SYMBOLS = string.ascii_uppercase + string.digits
SIZE = 100

def create_test_set(string_length):
    for _ in range(SIZE):
        random_string = ''.join(random.choices(SYMBOLS, k=string_length))
        yield (random.choice(random_string), random_string)

for string_length in (2**4, 2**8, 2**16, 2**32):
    print("\nString length:", string_length)
    print("  regex (compiled):", end=" ")
    test_set_for_regex = ((re.compile("(.*?)" + c).match, s) for (c, s) in test_set)
    %timeit [re_match(s).group() for (re_match, s) in test_set_for_regex]
    test_set = list(create_test_set(16))
    print("  partition:       ", end=" ")
    %timeit [s.partition(c)[0] for (c, s) in test_set]
    print("  index:           ", end=" ")
    %timeit [s[:s.index(c)] for (c, s) in test_set]
    print("  split (limited): ", end=" ")
    %timeit [s.split(c, 1)[0] for (c, s) in test_set]
    print("  split:           ", end=" ")
    %timeit [s.split(c)[0] for (c, s) in test_set]
    print("  regex:           ", end=" ")
    %timeit [re.match("(.*?)" + c, s).group() for (c, s) in test_set]

Hasil

String length: 16
  regex (compiled): 156 ns ± 4.41 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        19.3 µs ± 430 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
  index:            26.1 µs ± 341 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  26.8 µs ± 1.26 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            26.3 µs ± 835 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            128 µs ± 4.02 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

String length: 256
  regex (compiled): 167 ns ± 2.7 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        20.9 µs ± 694 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  index:            28.6 µs ± 2.73 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  27.4 µs ± 979 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            31.5 µs ± 4.86 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            148 µs ± 7.05 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

String length: 65536
  regex (compiled): 173 ns ± 3.95 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        20.9 µs ± 613 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
  index:            27.7 µs ± 515 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  27.2 µs ± 796 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            26.5 µs ± 377 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            128 µs ± 1.5 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

String length: 4294967296
  regex (compiled): 165 ns ± 1.2 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        19.9 µs ± 144 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
  index:            27.7 µs ± 571 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  26.1 µs ± 472 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            28.1 µs ± 1.69 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            137 µs ± 6.53 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Question 6

Partisi () mungkin lebih baik daripada split () untuk tujuan ini karena memiliki hasil prediksi yang lebih baik untuk situasi Anda tidak memiliki pembatas atau lebih banyak pembatas.

Answer 1

Saya mencari cara untuk mendapatkan semua huruf dalam string sebelum a: tapi saya tidak tahu harus mulai dari mana. Apakah saya akan menggunakan regex? Jika ya, bagaimana caranya?

string = "Username: How are you today?"

Dapatkah seseorang menunjukkan kepada saya contoh tentang apa yang dapat saya lakukan?

Answer 2

181

Cukup gunakan splitfungsinya. Ini mengembalikan daftar, sehingga Anda dapat menyimpan elemen pertama:

>>> s1.split(':')
['Username', ' How are you today?']
>>> s1.split(':')[0]
'Username'

fredtantini
sumber

12

Entah membatasi pemisahan, atau dalam kasus ini - gunakans1.partition(':')[0]

Jon Clements

Terima kasih, ini sangat berguna dan informatif. Ditambah itu bantuan besar terima kasih!

0Cool

2

Jangan gunakan split, karena itu memproses semua ':' dan membuat array penuh, tidak bagus untuk string yang lebih panjang. Lihat pendekatan @ Hackaholic untuk menggunakan indeks. Hanya saja yang satu ini juga merekomendasikan regex yang jelas tidak seefektif itu. Juga harus ada opsi python untuk melakukan operasi standar .substringBefore () yang berbasis indeks. Dan juga variasi seperti .substringBeforeLast (), dll harus ada untuk kenyamanan (kode tidak boleh diulang). Memperhatikan poin tentang partisi - ya, lebih sedikit pemrosesan setelah ':', tetapi masih mengembalikan <class 'tuple'>: ('1', ':', '2: 3') daripada '1'.

arntg

Answer 3

12

Entah membatasi pemisahan, atau dalam kasus ini - gunakans1.partition(':')[0]

Jon Clements

Answer 4

Terima kasih, ini sangat berguna dan informatif. Ditambah itu bantuan besar terima kasih!

0Cool

Answer 5

2

Jangan gunakan split, karena itu memproses semua ':' dan membuat array penuh, tidak bagus untuk string yang lebih panjang. Lihat pendekatan @ Hackaholic untuk menggunakan indeks. Hanya saja yang satu ini juga merekomendasikan regex yang jelas tidak seefektif itu. Juga harus ada opsi python untuk melakukan operasi standar .substringBefore () yang berbasis indeks. Dan juga variasi seperti .substringBeforeLast (), dll harus ada untuk kenyamanan (kode tidak boleh diulang). Memperhatikan poin tentang partisi - ya, lebih sedikit pemrosesan setelah ':', tetapi masih mengembalikan <class 'tuple'>: ('1', ':', '2: 3') daripada '1'.

arntg

Answer 6

48

Menggunakan index:

>>> string = "Username: How are you today?"
>>> string[:string.index(":")]
'Username'

Indeks akan memberi Anda posisi : dalam string, lalu Anda dapat mengirisnya.

Jika Anda ingin menggunakan regex:

>>> import re
>>> re.match("(.*?):",string).group()
'Username'

match cocok dari awal string.

Anda juga bisa menggunakan itertools.takewhile

>>> import itertools
>>> "".join(itertools.takewhile(lambda x: x!=":", string))
'Username'

Hackaholic
sumber

3

Metode ini (string [: string.index (":")]) mungkin lebih bersih daripada pemisahan

Damien

Untuk kecepatan, jangan gunakan regex - gunakan opsi indeks pertama yang disebutkan di sini. Regex jelas tidak efektif. Juga harus ada opsi python untuk melakukan operasi standar .substringBefore () yang berbasis indeks. Dan juga variasi seperti .substringBeforeLast (), dll harus ada untuk kenyamanan (kode tidak boleh diulang). Sarankan untuk memperbarui jawaban ini untuk menjelaskan mengapa indeks bekerja lebih baik dan mengapa ini harus digunakan di atas pendekatan lain termasuk yang memilih lebih tinggi sekarang dalam tanggapan fredtantini.

arntg

Jika tidak ada, indeks akan gagal.

Marc

Answer 7

3

Metode ini (string [: string.index (":")]) mungkin lebih bersih daripada pemisahan

Damien

Answer 8

Untuk kecepatan, jangan gunakan regex - gunakan opsi indeks pertama yang disebutkan di sini. Regex jelas tidak efektif. Juga harus ada opsi python untuk melakukan operasi standar .substringBefore () yang berbasis indeks. Dan juga variasi seperti .substringBeforeLast (), dll harus ada untuk kenyamanan (kode tidak boleh diulang). Sarankan untuk memperbarui jawaban ini untuk menjelaskan mengapa indeks bekerja lebih baik dan mengapa ini harus digunakan di atas pendekatan lain termasuk yang memilih lebih tinggi sekarang dalam tanggapan fredtantini.

arntg

Answer 9

Jika tidak ada, indeks akan gagal.

Marc

Answer 10

Anda tidak perlu regexuntuk ini

>>> s = "Username: How are you today?"

Anda dapat menggunakan splitmetode ini untuk membagi string pada ':'karakter

>>> s.split(':')
['Username', ' How are you today?']

Dan potong elemen [0]untuk mendapatkan bagian pertama dari string

>>> s.split(':')[0]
'Username'

Answer 11

Saya telah membandingkan berbagai teknik ini dengan Python 3.7.0 (IPython).

TLDR

tercepat (ketika simbol pemisah cdiketahui): regex yang telah dikompilasi sebelumnya.
tercepat (sebaliknya): s.partition(c)[0].
aman (yaitu, bila cmungkin tidak berada di s): partisi, split.
tidak aman: indeks, regex.

Kode

import string, random, re

SYMBOLS = string.ascii_uppercase + string.digits
SIZE = 100

def create_test_set(string_length):
    for _ in range(SIZE):
        random_string = ''.join(random.choices(SYMBOLS, k=string_length))
        yield (random.choice(random_string), random_string)

for string_length in (2**4, 2**8, 2**16, 2**32):
    print("\nString length:", string_length)
    print("  regex (compiled):", end=" ")
    test_set_for_regex = ((re.compile("(.*?)" + c).match, s) for (c, s) in test_set)
    %timeit [re_match(s).group() for (re_match, s) in test_set_for_regex]
    test_set = list(create_test_set(16))
    print("  partition:       ", end=" ")
    %timeit [s.partition(c)[0] for (c, s) in test_set]
    print("  index:           ", end=" ")
    %timeit [s[:s.index(c)] for (c, s) in test_set]
    print("  split (limited): ", end=" ")
    %timeit [s.split(c, 1)[0] for (c, s) in test_set]
    print("  split:           ", end=" ")
    %timeit [s.split(c)[0] for (c, s) in test_set]
    print("  regex:           ", end=" ")
    %timeit [re.match("(.*?)" + c, s).group() for (c, s) in test_set]

Hasil

String length: 16
  regex (compiled): 156 ns ± 4.41 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        19.3 µs ± 430 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
  index:            26.1 µs ± 341 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  26.8 µs ± 1.26 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            26.3 µs ± 835 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            128 µs ± 4.02 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

String length: 256
  regex (compiled): 167 ns ± 2.7 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        20.9 µs ± 694 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  index:            28.6 µs ± 2.73 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  27.4 µs ± 979 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            31.5 µs ± 4.86 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            148 µs ± 7.05 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

String length: 65536
  regex (compiled): 173 ns ± 3.95 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        20.9 µs ± 613 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
  index:            27.7 µs ± 515 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  27.2 µs ± 796 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            26.5 µs ± 377 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            128 µs ± 1.5 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

String length: 4294967296
  regex (compiled): 165 ns ± 1.2 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
  partition:        19.9 µs ± 144 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
  index:            27.7 µs ± 571 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split (limited):  26.1 µs ± 472 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  split:            28.1 µs ± 1.69 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
  regex:            137 µs ± 6.53 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Answer 12

1

mengapa Anda menganggap indeks tidak aman?

Yakobus

Answer 13

3

s.index(c)memunculkan ValueError saat ctidak ada s. Jadi, saya menganggapnya aman ketika saya yakin bahwa string yang akan dipartisi berisi pemisah, tidak aman jika tidak.

Aristide

Answer 14

1

Untuk index, c ada di s, jadi tidak berbahaya dan masih tercepat.

arntg

Answer 15

2

Partisi () mungkin lebih baik daripada split () untuk tujuan ini karena memiliki hasil prediksi yang lebih baik untuk situasi Anda tidak memiliki pembatas atau lebih banyak pembatas.

Marv-CZ
sumber

1

Keduanya partitiondan splitakan bekerja secara transparan dengan string kosong atau tanpa pembatas. Perlu dicatat bahwa word[:word.index(':')]akan muncul dalam kedua kasus ini.

Rob Hall

Answer 16

1

Keduanya partitiondan splitakan bekerja secara transparan dengan string kosong atau tanpa pembatas. Perlu dicatat bahwa word[:word.index(':')]akan muncul dalam kedua kasus ini.

Rob Hall

Bagaimana saya mendapatkan semuanya sebelum: dalam string Python

Jawaban:

TLDR

Kode

Hasil