осторожно βeta версия!

Закон Ципфа и Синонимайзеры часть 1.

Если вы вдруг первый раз слышите о законе Ципфа, рекомендую ознакомиться с вводной статьей и только после вернуться к прочтению этой.

Достаточно активно на различных околосеошных ресурсах используется вот такая фраза: естественность текста по закону Ципфа. На чем основано данное утверждение? Сам закон ни в коей мере не оговаривает естественность текста, а лишь указывает на существующую в нем закономерность. Тексты на всех естественных языках подчиняются этой закономерности. Но не только они.

Вэньтянь Ли (Wentian Li)В 1992 году Вэньтянь Ли (Wentian Li) в своей работе Случайные тексты подчиняются частотному распределению по закону Ципфа. (Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution) доказал, что последовательность из случайно сгенерированных символов с ограниченным алфавитом имеет весьма близкое распределение. Его работа ставит под сомнение саму возможность определения естественности текста с использованием рангового распределения.

Цель эксперимента, постановка задачи.

Сравнить графики рангового распределения для оригинальных текстов и текстов, обработанных синонимайзером. Попытаться выявить закономерности между естественностью текста и видом кривых, если они существуют.

В качестве синонимайзера были использованы собственноручно разработанный скрипт и большая база (около миллиона синонимов). Скрипт обрабатывал текст в двух режимах замены:

  • группа А слово|синоним;
  • группа Б слово|один из|случайных|синонимов

Для каждого из режимов количество замен в тексте ограничивалось 75% слов. Чтобы сохранить читаемость на минимальном уровне для дальнейшего анализа текста. Примеры полученных текстов не привожу, думаю каждый из читателей представляет, что получается на выходе.

Тексты для эксперимента выбирались максимально разные по стилю, но примерно одного объема. В общей сложности было обработано 30 текстов в 3 группах.

тексты до 500 слов

Среднестатистическая статья на большинстве сайтов рунета. Было отобрано 10 текстов подходящего размера из топа Яндекса по запросу "недвижимость". Тексты коммерческого топа сильно заспамлены, при этом читаемость сохранена на высоком уровне.

Результаты в группе А.

Изменения кривых минимальны и практически не меняются от текста к тексту.

распределения ципфа в логарифмическом масштабе синонимизированного текста о недвижимости

Результаты в группе Б.

Изменения кривых кардинальны. Вид кривых больше походит на аналогичные для англоязычных текстов.

распределения ципфа в логарифмическом масштабе синонимизированного текста о недвижимости

Тексты до 50000 слов

Размер также выбран не случайно: по моим наблюдениям, это средний размер печатной книги или, что более важно для аудитории, размер сателлита на сканированном контенте. Тексты выбирались соответствующие, узкоспециализированные издания 80-х годов. Единственным недостатком подобных текстов является высокая плотность редких слов.

Результаты в группе А.

Изменения кривых незначительны: небольшой прогиб в верхней части графика содержит в себе слова общей лексики, прогиб присутствует на всех текстах тестовой выборки.

распределения ципфа в логарифмическом масштабе синонимизированного скана

Результаты в группе Б.

Изменения кривых значительны: в верхней части графика присутствует существенный скачок, содержащий в основном предлоги и местоимения. Слова общей лексики и спецтермины равномерно отодвинулись.

распределения ципфа в логарифмическом масштабе синонимизированного скана

Тексты от 500000 слов

В основном такой объем имеется на крупных проектах с десятками тысяч страниц. Я, к сожалению, пожадничал ресурсов на сбор естественного материала и взял для анализа произведения художественной литературы. Отечественную классику: Пушкина, Достоевского, Толстого. Зарубежную классику: Дюма и Экзюпери. Современных авторов: Братьев Стругацких и Донцову.

Результаты в группе А.

Вид кривых очень походит на предыдущие, прогиб также присутствует.

распределения ципфа в логарифмическом масштабе синонимизированного художественного текста

Результаты в группе Б.

Изменения кривых значительны: тенденции, выявленные в предыдущем эксперименте, сохранены. Единственное отличие, выявленное у всех авторов кроме Донцовой: ближе к середине графики сходятся, а потом вновь расходятся.

распределения ципфа в логарифмическом масштабе синонимизированного художественного текста

Выводы и результаты.

Обработка текстов в режиме слово|синоним практически не меняет вид кривых независимо от объема текста. Можно с уверенностью утверждать, что синонимизированный таким способом текст невозможно отличить от естественного, используя лишь ранговое распределение. Отличия кривых минимальны и могут быть списаны на особенность изложения автором своих мыслей или, например, на тематическую особенность самого текста.

Вопрос об определении естественности текста в режиме синонимизации слово|один из|случайных|синонимов остался открытым. Несмотря на то что обработка значительно меняет вид кривых, в рамках этого эксперимента невозможно определить, насколько отличаются измеримые параметры синонимизированного текста от естественного текста другого автора или, например, эпохи. Все необходимые стенды собраны, результаты будут опубликованы в отдельной статье чуть позже.

Совсем не был затронут вопрос частотности слов в полученных текстах и её отличие от естественных. Эта тема также будет освещена в ближайшее время.

Комментарии (7)

Ваша оценка: Нет Средняя: 5 (2 голоса)
Аватар пользователя Гость

Антон мне кажется вы погорячились написав в тайтле блога "просто и доступно о теории сео".

Аватар пользователя Гость

Если вы имеете ввиду сложность восприятия текста, то тут нужно изначально подойти к тому, на сколько вы хорошо разбираетесь в данной теме. Кто-то с первого чтения все понял, мне к примеру, понадобился час, для того чтоб полностью понять то о чем тут написано (приходилось пользоваться несколькими источниками чтоб до конца разобраться)
Автору, большое спасибо за статью.

Аватар пользователя Гость

))))Ха, ха. Вы, возможно, правы. Но надоело читать замусоленные тексты. А вот такое исследовательское Seo мне по душе. Нужно подходить основательно. Этот подход мне чем-то напоминает подход знаменитого Миныча. Жаль материалов с его исследованиями я мало смог найти в сети. После прочтения его материалом, понимаешь, что всё так просто, а поддается строгим формулам.

Аватар пользователя Гость

написано вроде не много, но статья такая калоритная что у меня мозг чуть не взорвался :)

Аватар пользователя Гость
Не чего не понял:(((
Аватар пользователя webpavilion
грустно конечно если вы совсем ничего не понимаете, и при этом позиционируете себя как seoшник. (ссылочку на ваш блог я удалил)
Аватар пользователя Гость
Можно с уверенностью утверждать, что синонимизированный таким способом текст невозможно отличить от естественного, используя лишь ранговое распределение. спасибо, это снимает кучу вопросов, правда появилась еще большая куча... если нельзя определить синонимизированный текст или нет, то получается, что принцип ранжирования сайтов, совсем не зависит от текстов, которые на них располагаются.

Отправить комментарий