Частотний аналіз тексту: особливості і приклади

Що визначає аналіз?

Сучасні програми частотного аналізу тексту допомагають вивчити великі обсяги найрізноманітніших статей, творів, уривків та ін. Досліднику стандартно надається наступна інформація:

  • Загальна кількість символів у тексті.
  • Кількість використаних автором прогалин.
  • Кількість цифр.
  • Інформація про використані розділові знаки – крапки, коми та ін.
  • Кількість літер кожного з наявних алфавітів – кирилиці, латиниці та ін.
  • Інформація про частоту використання кожної літери та символу в тексті – кількість згадувань і відсоткова величина в порівнянні з усім текстом.

Боротьба з переоптимизацией і перенасиченістю

Навіщо проводиться частотний аналіз тексту? Тільки з метою цікавості – встановити, які символи у написаному тексті виявилися часто зустрічається? Ні, головне застосування аналізу – практичне, і воно полягає в іншому.

До N-грам відносяться не тільки стійкі биграммы і триграми. До цієї ж категорії можна віднести ключові слова (теги), колокації. Тобто стійкі поєднання, що складаються з двох і більш слів. Їх відрізняє факт, що такі композиції зустрічаються в тексті разом і при цьому несуть певне смислове навантаження.

Це на руку недобросовісним СЕО-фахівців. У своїй роботі вони часом зловживають повторенням у тексті тегів, ключових слів, щоб штучно підвищити релевантність тієї чи іншої інтернет-сторінки. Вони намагаються обдурити систему і таким фокусом: перетворюючи природне поєднання з звичайним, традиційним для російської мови поєднанням слів (“купити норкову шубу”) в неузгоджене. Тобто, отримане перестановкою слів в такий природної N-грамі (“шубу норкову купити”).

Але сьогодні пошукові алгоритми навчилися визначати переоптімізацію так само ефективно, як і переспам – перенасиченість тексту ключовими словами, тегами, які впливають на ранжирування результатів на сторінці пошуку. Надмірно оптимізовані сторінки тепер, навпаки, отримують більш низьке положення за запитом користувача. Та й самі люди не прагнуть читати безглуздий, перенасичений тегами текст, віддаючи йому корисну інформацію на іншому ресурсі.

Дивіться також:  Соціальна стратифікація і соціальна нерівність в суспільстві. Опис процесів та теорії пояснення