pengantar
Tidak seperti bahasa Inggris, bahasa Jerman dianggap memiliki sistem penulisan fonemik yang cukup . Itu berarti bahwa korespondensi antara ejaan dan pengucapannya dekat. Mengingat kata apa pun yang tidak Anda kenal, Anda masih tahu cara mengucapkannya karena sistem ejaannya. Ini berarti komputer harus dapat melakukannya juga bukan?
Tantangan
Tulis sebuah program atau fungsi yang mengambil input string yang mewakili kata Jerman, dan mencetak atau mengembalikan pelafalannya dalam International Phonetic Alphabet (IPA) .
Saya tentu saja tidak akan membuat Anda belajar bahasa Jerman atau IPA lengkap . Bagian Wikipedia yang satu ini menyediakan hampir semua aturan Bahasa Jerman ke IPA yang Anda butuhkan, dan saya telah membuat kode implementasi referensi C # yang tidak diklik .
Juga disediakan dalam tautan itu adalah daftar 400 kata Jerman umum dan pelafalan IPA mereka (diperlukan untuk validasi). Mengambil contoh dari daftar itu, jika inputnya adalah solltest
, output yang benar adalah ˈzɔltəst
.
Implementasi referensi menambahkan dua aturan bermanfaat yang tidak disebutkan di bagian Wikipedia: Ini mengasumsikan tekanan kata ada pada suku kata pertama (sangat mungkin dalam bahasa Jerman), dan menggunakan heuristik yang lebih baik untuk menentukan kapan huruf "e" mewakili schwa sound / ə /. Ini juga mengimplementasikan pemrosesan khusus untuk awalan, tetapi itu tidak meningkatkan hasil sebanyak yang saya pikir akan terjadi.
Detail
Untuk dianggap sebagai entri yang valid, program Anda harus memenuhi persyaratan berikut:
- Output IPA Anda harus sama persis dengan setidaknya 300 dari 400 kata dalam daftar kata referensi (implementasi referensi mendapatkan 333 benar)
- Program Anda harus membuat tebakan untuk kata Jerman yang masuk akal. Jadi kami memiliki persyaratan teknis, ini berarti bahwa untuk input apa pun yang cocok dengan regex
[a-zA-ZäÄöÖüÜ][a-zäöüß]*
dan memiliki setidaknya satu vokal (aeiouyäöü), Anda harus menghasilkan output non-spasi-saja dan tidak kesalahan keluar. - Program harus deterministik (selalu menghasilkan output yang sama dengan input yang sama)
- Kalau tidak, lubang standar dilarang (terutama yang mengambil sumber daya di luar lokasi)
Hal-hal lain yang boleh Anda lakukan:
- Miliki memimpin dan mengikuti spasi putih di output Anda jika Anda harus
- Gunakan pengkodean karakter yang sudah ada sebelumnya dalam output (saya tidak bisa membayangkan apa pun selain Unicode bekerja dengan baik, tetapi jika Anda bisa, selamat)
- Asumsikan input dalam bentuk normal seperti Unicode normalisasi bentuk NFD, NFC, dll. Sebagai contoh, apakah ä ditulis sebagai karakter tunggal atau karakter dasar + karakter kombinasi?
- Gunakan metode input dan output standar
Karakter Penilaian & IPA
Skor dalam byte. Berhati-hatilah karena karakter Jerman dan karakter IPA adalah 2 byte dalam UTF-8. Selain itu, karakter IPA U + 0327 COMBINING INVERTED BREVE BELOW (̯) adalah karakter kombinasi Unicode dan merupakan karakter 2 byte UTF-8 sendiri. Itu berarti sesuatu seperti ɐ̯ akan dihitung sebagai 4 byte dalam UTF-8. Bagi yang penasaran, simbol ini berarti vokal tidak membentuk inti suku kata (yang sebelumnya bukan).
Waspadalah terhadap karakter IPA ini yang dalam beberapa font terlihat seperti karakter ASCII lainnya: ɡ, ɪ, ʏ, ː (menandai vokal panjang), ˈ (menandai suku kata yang memiliki tekanan dalam kata yang memiliki banyak suku kata).
Bagaimana daftar kata referensi dibuat
Bagian ini adalah info tambahan yang tidak diperlukan untuk tantangan ini.
Daftar kata diambil dari daftar frekuensi kata Wiktionary ini , menghapus pengulangan karena perbedaan casing dan dua kata yang tidak memiliki entri Jerman di Wiktionary bahasa Inggris (oh & hei). IPA berasal dari melihat baik kamus bahasa Inggris maupun Jerman. Ketika banyak pengucapan dilakukan, saya memilih yang lebih formal dan standar. Jika ini tidak jelas, saya memilih yang paling sesuai dengan aturan umum.
Saya juga harus membakukan bagaimana huruf "r" diucapkan. Sangat tergantung pada wilayah bagaimana surat ini diucapkan, dan Wiktionary sama sekali tidak konsisten di mana yang dipilihnya. Saya merasa cenderung ke arah berikut: "r" diucapkan / ɐ̯ / ketika diikuti oleh vokal panjang dan vokal tidak mengikuti, jika tidak, itu adalah ʁ. Jadi, saya mengubah semuanya untuk mengikuti aturan itu, kecuali untuk awalan ver dan er yang cukup konsisten / (f) ɛɐ̯ /. Demikian pula, saya menstandarkan "eu" sebagai / ɔʏ̯ /.
sumber
#~WordData~"PhoneticForm"&
), tetapi hanya berfungsi untuk kata-kata bahasa Inggris.Jawaban:
PHP,
331129882916284527592671266725092484 byte, melampaui 301/400Mendefinisikan
pronounce(string $word)
.Pemakaian:
Satu catatan: 3 awalan dan 33 kata adalah kode-keras, dan beberapa kode dioptimalkan secara ringan menuju daftar pengujian.
Kode pengujian ada di sini , meskipun tergantung pada file ini .
Untuk menguji:
Didukung oleh air mata pernyataan ternary.
EDIT 7 : Diperas ~ 170 byte dengan menulis preprocessor ke dalam program. Akibatnya, program yang sebenarnya (semuanya setelahnya
__halt_compiler();
) agak sulit dibaca. Jika Anda ingin program yang tidak diproses, beralihlaheval
denganprint
pernyataan ketiga.sumber