Що визначає аналіз?
Сучасні програми частотного аналізу тексту допомагають вивчити великі обсяги найрізноманітніших статей, творів, уривків та ін. Досліднику стандартно надається наступна інформація:
- Загальна кількість символів у тексті.
- Кількість використаних автором прогалин.
- Кількість цифр.
- Інформація про використані розділові знаки – крапки, коми та ін.
- Кількість літер кожного з наявних алфавітів – кирилиці, латиниці та ін.
- Інформація про частоту використання кожної літери та символу в тексті – кількість згадувань і відсоткова величина в порівнянні з усім текстом.
Боротьба з переоптимизацией і перенасиченістю
Навіщо проводиться частотний аналіз тексту? Тільки з метою цікавості – встановити, які символи у написаному тексті виявилися часто зустрічається? Ні, головне застосування аналізу – практичне, і воно полягає в іншому.
До N-грам відносяться не тільки стійкі биграммы і триграми. До цієї ж категорії можна віднести ключові слова (теги), колокації. Тобто стійкі поєднання, що складаються з двох і більш слів. Їх відрізняє факт, що такі композиції зустрічаються в тексті разом і при цьому несуть певне смислове навантаження.
Це на руку недобросовісним СЕО-фахівців. У своїй роботі вони часом зловживають повторенням у тексті тегів, ключових слів, щоб штучно підвищити релевантність тієї чи іншої інтернет-сторінки. Вони намагаються обдурити систему і таким фокусом: перетворюючи природне поєднання з звичайним, традиційним для російської мови поєднанням слів (“купити норкову шубу”) в неузгоджене. Тобто, отримане перестановкою слів в такий природної N-грамі (“шубу норкову купити”).
Але сьогодні пошукові алгоритми навчилися визначати переоптімізацію так само ефективно, як і переспам – перенасиченість тексту ключовими словами, тегами, які впливають на ранжирування результатів на сторінці пошуку. Надмірно оптимізовані сторінки тепер, навпаки, отримують більш низьке положення за запитом користувача. Та й самі люди не прагнуть читати безглуздий, перенасичений тегами текст, віддаючи йому корисну інформацію на іншому ресурсі.