осторожно βeta версия!

Закон Ципфа и Синонимайзеры часть 2.

С небольшим запозданием, но все же публикую, результаты исследования синонимизации с множественной заменой. В статье даны выборки для различных художественных текстов в сравнении с синонимизированными текстами.

В первой части эксперимента были получены результаты, развеявшие миф о возможности определения естественности текста с помощью рангового распределения (Закона Ципфа). Дополнительно потребовалось проверить только синонимизации с множественной заменой, вида: слово|один из|случайных|синонимов.

Для второй части эксперимента были использованы те же художественные тексты. Единственным отличием можно считать искусственно уменьшенный объем. Каждый из текстов был обрезан до 30 и 65 тысяч слов. Мера вынужденная, но на чистоту полученных результатов влияние оказать не должна.

Как мне казалось, изначально причиной столь значительного изменения кривых выявленного на первом этапе эксперимента является особенность используемой мною базы синонимов.

Для проверки этого предположения из архивов были подняты еще три базы, из которых собиралась тестовая база, используемая для экспериментов. Одна из них, самая маленькая и качественная, в рамках этого эксперимента использоваться не может. База имеет прямой формат замены (слово|синоним). Оставшиеся две в том или ином виде влияли на получаемый результат. Но разница оказалась незначительна, менее 3%. На выборке из нескольких текстов определить, где какая база использовалась, не представляется возможным. Следовательно, причины лежат намного глубже, и искать их стоит в чем-то другом; используемые базы на вид кривых влияют незначительно.

Вот результат для 7 авторов: синие графики — исходных текстов, черные — обработанных синонимайзером.

сравнение графиков закона ципфа для естественных и синонимизированных текстов

Разница между естественными и обработанными текстами уже не так очевидна и составляет 3.54%. Хотя присутствует явно различимый провал с 50 до 110 по оси Абсцисс.

Долго проверял различные параметры получаемых текстов. В итоге было найдено одно из основных отличий, повторяющееся от текста к тексту. Тексты после обработки получались чуть больше оригинала, примерно на 10 процентов. Разница получалась за счет того, что многим однословным синонимам соответствует синоним словосочетание, например журнал|печатное издание. То есть сравнивать такие тексты не совсем корректно, если обрезать обработанный текст до размера оригинала, получим:

сравнение нормализованных графиков закона ципфа для естественных и синонимизированных текстов

На глаз разница практически незаметна. Но если присмотреться, то видно, что графики неестественных текстов поднялись чуть выше, после такой нормализации разница составляет 2.17%.

Выводы:

Теперь я со 100% уверенностью могу утверждать, что, используя ранговое распределение (закон Ципфа-Мандельборта), невозможно отличить естественный текст от синонимизированного.

А как же тогда Яндекс косит пачки сателлитов? — спросит внимательный читатель. Расскажу в следующей статье.

Комментарии (8)

Ваша оценка: Нет Средняя: 4 (4 голоса)
Аватар пользователя Гость

100% уверенность - это отлично.
Но Яндекс проверяет одну статью, а не весь сайт сразу. А на одной статье размером 2000 символов различия будут очень существенны. Вот так и банит.

Аватар пользователя webpavilion

Да уж конечно.

  • Во первых статистические закономерности не работают на мелких выборках.
  • Во вторых отличия от чего если не секрет? в моих экспериментах есть оригинал текста откуда его возьмет ПС?
  • В третьих прочитайте первую часть статьи там мелкие тексты как раз и обсуждались.
Аватар пользователя Гость

интересная статья!

жду продолжения! очень заинтересовало!

Аватар пользователя Гость

да оч легко яша рубит сателлиты ручным способом, логика такая ну если сайт ГС то и когда забанят вебмастер сам понимает что гс и не будет протестовать, а если будет тогда с большим проблемами да воссстановят

Аватар пользователя Гость

Как же Яндекс косит пачки сателлитов? Когда выйдет продолжение?

Аватар пользователя Гость
Поисковые системы используют эти законы построения естественного человеческого текста, поэтому удивляться, что выкашивают определенные группы сайтов не следует. Другое дело, что многие путают понятие естественности, в случае синонимизированного текста и в случае искусственно оптимизированного под определенные ключевые слова. Во втором случае, определение естественности текста с помощью рангового распределения очень даже работает, и ПС используется. А эксперименты в первой части относятся к первому случаю, и это вполне закономерно. Автору респект. Молодец парень. Уважаю людей с высоким интеллектом.
Аватар пользователя Гость
Отличная статья, можно провести экспиримент... давно я думал чтобы заказать 1000 синонимизированых текстов (описания товара), залить в магазин и посмотреть чего будет... артикулы товара можно сделать от 0000 до 0990...
Аватар пользователя Гость
Как грустно, что столь достойные и серьёзные исследования не продолжились. :( С признательностью.

Отправить комментарий