Частотний аналіз тексту: особливості і приклади

Основа методу

Уявімо тепер аналіз частотних характеристик детально. Цей різновид аналізу прямо базується на тому, що тест складається з слів, а ті, у свою чергу, з букв. Кількість букв, які наповнюють національні алфавіти, обмежена. Букви можуть бути тут просто перераховані.

Найважливішими характеристиками подібного тексту буде як повторюваність букв, різних биграмм, триграм і n-грам, так і сполучуваність різних букв один з одним, чергування приголосних/гласних і інших різновидів даних символів.

Головна ідея методів – у підрахунку входжень з можливих n-грам (позначається nm) у досить довгих для аналізу відкритих текстах (позначаються T=t1t2…tl), складених з букв національного алфавіту (позначаються {a1, a2, …, an}). Все вищезазначене обумовлює деякі йдуть підряд m-грами тексту:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Якщо це – кількість появ m-грами ai1ai2…aim в тексті T, а L – загальна кількість проаналізованих дослідником m-грам, то досвідченим шляхом можливо встановити, що при достатньо великих L частоти для такої m-грами буде мало чим відрізнятися один від одного.

Дивіться також:  Осередки ядерного ураження: характеристика осередків, методи захисту від радіоактивного випромінювання