Alat untuk mengukur keterbacaan teks bahasa Inggris

13

Apakah ada program baris perintah yang mengambil file yang berisi teks bahasa Inggris, menganalisis teks, dan menampilkan skor keterbacaannya?

Misalnya, jika seseorang memberi teks pada sebuah program, program tersebut harus menampilkan tingkat kelas Flesch-Kincaid, penilaian SMOG McLaughlin, dll.

Saya percaya program semacam itu ada di repositori resmi, tetapi saya tidak dapat mengingat namanya. Ada juga kemungkinan bahwa saya salah ingat.

Aliran
sumber

Jawaban:

11

The diction Pasang diksipaket berisi alat yang disebut style:

Style menganalisis karakteristik permukaan gaya penulisan dokumen. Ini mencetak berbagai nilai keterbacaan, panjang kata, kalimat dan paragraf. Lebih lanjut dapat menemukan kalimat dengan karakteristik tertentu.

Misalnya, jika saya mengevaluasi badan pertanyaan Anda (disimpan dalam file flux_question) untuk mencetak kalimat dengan indeks keterbacaan (ARI) lebih dari 10:

$ style -r 10 flux_question
flux_question:1: Is there a command line program that takes a file containing English text, analyzes the text, and outputs its readability scores?
flux_question:2: For example, if one feeds the program a text, the program should output the Flesch-Kincaid grade level, McLaughlin's SMOG grading, etc.
readability grades:
        Kincaid: 10.2
        ARI: 10.8
        Coleman-Liau: 12.5
        Flesch Index: 51.1/100
        Fog Index: 12.0
        Lix: 48.6 = school year 9
        SMOG-Grading: 11.2
sentence info:
        333 characters
        65 words, average length 5.12 characters = 1.65 syllables
        4 sentences, average length 16.2 words
        25% (1) short sentences (at most 11 words)
        0% (0) long sentences (at least 26 words)
        1 paragraphs, average length 4.0 sentences
        25% (1) questions
        25% (1) passive sentences
        longest sent 21 wds at sent 2; shortest sent 8 wds at sent 4
word usage:
        verb types:
        to be (1) auxiliary (2) 
        types as % of total:
        conjunctions 5% (3) pronouns 9% (6) prepositions 2% (1)
        nominalizations 0% (0)
sentence beginnings:
        pronoun (1) interrogative pronoun (0) article (0)
        subordinating conjunction (0) conjunction (0) preposition (0)

Untuk memfilter output, Anda dapat menggunakan misalnya tail -n8untuk mendapatkan hanya nilai atau grep 'Flesch\|SMOG'hanya mencetak Indeks Flesch dan Grading-SMOG:

$ style style_test | grep 'Flesch\|SMOG'
        Flesch Index: 51.7/100
        SMOG-Grading: 11.2

Bacaan lebih lanjut

pencuci mulut
sumber