Частотний аналіз тексту: особливості і приклади

Бі-, три-, четырехграммы

В осмислених текстах також можна зустріти найпоширеніші (відповідно, найбільш повторювані) поєднання двох літер. Фахівцями складено і кілька таблиць, де вказані частоти подібних биграмм різноманітних алфавітів.

Що стосується російської, то частотний аналіз систем об’ємних осмислених текстів дозволив встановити найбільш поширені биграммы і триграми:

  • ЄП.
  • СТ.
  • АЛЕ.
  • НІ.
  • НА.
  • РА.
  • ІВ.
  • ДО.
  • ПІД.
  • СТО.
  • НОВ.
  • ЄНО.
  • ТОВ.
  • ОВА.
  • ОВО.

Кращі зв’язку букв один з одним

І це ще не всі можливості, які може надати частотний аналіз дослідникам тексту. Систематизувавши інформацію з таких таблиць биграмм і триграм, що реально витягти дані про найпоширеніших поєднаннях букв. Або, іншими словами, їх переважних зв’язках між собою.

Таке велике дослідження вже було проведено фахівцями. Його результатом стала таблиця, де разом з кожною буквою алфавіту були вказані її сусіди. Притому ті символи, які часто зустрічаються як безпосередньо перед нею, так і після неї. Літери в таблиці прописані не випадково. Ближче до символу позначені найчастіші сусіди, далі – більш рідкісні.

Розглянемо приклади:

  • Буква “А”. Тут виділяються наступні кращі зв’язку: л-д-к-т-у-р-н-А-л-н-с-т-р-в-до-м. Звідси ми бачимо, що найчастіше перед “А” в текстах йде “Н” (“НА”). А після “А” найчастіше в текстах російською мовою ми можемо зустріти “Л” (“АВ”).
  • Буква “М”. Фахівці виділили такі бажані зв’язку: “я-и-а-і-е-о-М-і-е-о-у-а-н-п-и”.
  • Буква “Ь”. Кращі зв’язку такі: “н-с-т-л-Ь-н-к-в-п-с-е-о-і”.
  • Буква “Щ”. Кращі зв’язку: “е-б-а-я-ю-Щ-е-та-а”.
  • Літера “П”. Кращі зв’язку з цим символом російського алфавіту: “у-у-а-і-е-о-П-о-р-е-а-у-и-л”.

Дивіться також:  Що таке ОВП: визначення, особливості, застосування