Bagaimana menentukan kompleksitas kalimat bahasa Inggris?

10

Saya sedang mengerjakan aplikasi untuk membantu orang belajar bahasa Inggris sebagai bahasa kedua. Saya telah membuktikan bahwa kalimat membantu dalam belajar bahasa dengan memberikan konteks tambahan. Saya melakukan itu dengan melakukan penelitian kecil di ruang kelas yang terdiri dari 60 siswa.

Saya telah menambang lebih dari seratus ribu kalimat dari Wikipedia untuk berbagai kata bahasa Inggris (Termasuk Barrons'800 kata dan 1000 kata bahasa Inggris yang paling umum)

Seluruh data tersedia di https://buildmyvocab.in

Untuk menjaga kualitas konten, saya memfilter kalimat yang lebih panjang dari 160 karakter karena mungkin sulit dimengerti.

Sebagai langkah selanjutnya, saya ingin mengotomatiskan proses pengurutan konten ini dalam urutan kemudahan pemahaman. Saya sendiri adalah penutur bahasa Inggris non-pribumi. Saya ingin tahu fitur apa yang bisa saya gunakan untuk memisahkan kalimat yang mudah dari yang sulit.

Juga, apakah Anda pikir ini mungkin?

BuildMyVocab
sumber

Jawaban:

8

Iya. Ada berbagai metrik, seperti indeks fogg. Textacy in python memiliki daftar dan implementasi yang bagus.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}
GrimSqueaker
sumber
Anda juga dapat melihat entropi atau persen dari kata-kata unik, tetapi metrik di atas lebih relevan.
GrimSqueaker