осторожно βeta версия!

Закон Ципфа — Вводная статья.

Вильфредо Парето (Vilfredo Pareto) В 1906 году Вильфредо Парето (Vilfredo Pareto) публикует свой учебник политической экономии (Manuale di economia politica), в нем присутствует первое упоминание правила 80/20: в Италии 20% домохозяйств получают 80% доходов. Особой роли в учебнике эта фраза не играла, и удивительная закономерность ждала внимательного взгляда почти четыре десятилетия.

Джозеф Мосес Джуран (Joseph Мoses Juran) Джозеф Мосес Джуран (Joseph Мoses Juran) с 1940 по 1944 годы вел собственную войну с бюрократическим аппаратом армии США, он служил помощником администратора в управлении Лендлиза. Основной задачей Джурана была оптимизация документооборота для ускорения поставок грузов союзникам. В эти годы был сформулирован принцип: 80% последствий проистекают из 20% причин. В честь указанной выше работы Парето выявленная закономерность была названа «принципом Парето».

Джордж Кингсли Ципф (George Kingsley Zipf) В 1949 году Джордж Кингсли Ципф (George Kingsley Zipf) заметил, что некоторые слова используются значительно чаше других. На основе статистических измерений Ципф сформулировал принцип наименьшего действия в социально-экономической сфере: Ресурсы самоорганизуются так, чтобы свести к минимуму затраченную работу. Четвертая часть любого ресурса приносит три четверти результата.

Бенуа Мандельброт (Benoît Mandelbrot) Статус законов был присвоен этим принципам после появления вычислительной техники, способной провести точные расчеты на больших выборках. Бенуа Мандельброт (Benoît Mandelbrot), используя ЭВМ Калифорнийского технологического института провел ряд обоснований и уточнений закона, впервые опубликованных в книге «Теория информации и психолингвистики» («Information Theory and Psycholinguistics») 1965 года.

Сегодня в рунете под законом Ципфа чаше всего подразумевают закономерность «ранг — частота», известную также как «универсальное гиперболическое ранговое распределение»: Если составить список из всех слов текста и отсортировать его в порядке убывания частоты(F) используемости слов, то для любого слова произведение его порядкового номера(R) в этом списке на частоту использования будет равно постоянной величине(C).

FR =C — в классическом виде

FRY=C — с поправкой Мандельброта

  • F – частота используемости слова;
  • R – порядковый номер;
  • С – постоянная величина;
  • Y – близкая к единице переменная величина, меняющейся в зависимости от параметров текста.

Значение константы для разных языковых групп различно и незначительно меняется в зависимости от характеристик текста. Для русских текстов отношение константы (С) к количеству слов в тексте приблизительно равно 0,08 для английских 0,1

Переменная Y для русских и английских текстов в зависимости от жанра:

жанр Английский Русский
SF/fantasy 0,96187 0,87668
SF/fantasy 0,95598 0,86701
SF/fantasy 0,95552 0,86300
SF/fantasy 0,95209 0,83927
novel 0,99903 0,93588
novel 0,99695 0,82960
novel 0,96751 0,88660
detective 0,98193 0,88777
detective 0,97810 0,88362
detective 0,94886 0,87347
children 0,97680 0,93658
children 0,96803 0,90178
children 0,95075 0,88304
adventure 1,00462 0,91667
adventure 0,99104 0,88060
adventure 0,97185 0,85905
среднее значение: 0,97256 0,88254
по результатам исследований Александра Гельбух и Григория Сидорова

На графике представлены 1000 самых употребляемых слов на моей экспериментальной выборке текстов. В десятичном масштабе. Не сложно заметить, что распределение подчиняется правилу 80/20.

закон ципфа - ранг-частота (десятичный масштаб)

Десятичный масштаб графиков не слишком удобен из-за огромного разброса порядка значений. В подобных графиках часто используют логарифмическую шкалу.

логарифмический (ln) масштаб закон Ципфа логарифмический (lg) масштаб закон Ципфа

Для закономерностей ранг-частота всегда существуют три явно различаемые зоны ранговых распределений: зона ядра рангового распределения, центральная зона и зона усечения. Постоянство коэффициента Y сохраняется только на среднем участке графика распределения.

В зону ядра рангового распределения попадают наиболее часто употребляемые слова для русского языка — предлоги, местоимения и т. д.

В центральной зоне находятся слова, максимально характеризующие данный текст и выражающие его специфичность и тематику (ключевые слова).

В зоне усечения находятся слова, не несущие основной смысловой нагрузки.

закон Ципфа десятичный маштаб - Робин Гуд

«Робин Гуд» слова с рангом от 25 до 85 без стоп-слов:

слово частота
джон 195
шериф 186
люди 145
монах 128
лес 125
тук 120
принц 106
король 99
марианна 87
ричард 81
джордж 56
маленький 56
сэр 51
руки 48
лицо 40
мужчины 37
деньги 36
глаз 36
лошадь 35

От ширины центральной зоны зависит качество выделяемых ключевых слов. На этапе определения ширины центральной зоны первостепенной задачей является отсечение информационного шума — нейтральных стоп-слов.

Также особое внимание следует уделить пропорциональности частоты вхождения слова и количества слов c данной частотой. Проще всего понять закономерность на графике, если по оси абсцисс отложить частоту вхождения, а по оси ординат — количество слов с данной частотой.

отношении частоты использования и количества слов в тексте

Общий вид кривой сохраняется независимо от языка текста, незначительно меняется только коэффициент гиперболы.

Что еще подчиняется закону Ципфа?

  • 80% предложений состоит из 20% слов
  • 80% работы выполняют 20% сотрудников
  • 80% научных публикаций пишут 20% ученых
  • 80% профильной информации находится в 20% источников
  • 80% материальных ценностей принадлежит 20% населения
  • 80% времени процессора занимают 20% инструкций(команд)
  • 80% населения сосредоточено в 20% городов
  • 80% общего объема продаж дают 20% ассортимента
  • 80% прибыли дают 20% покупателей
  • 80% преступлений совершают 20% преступников
  • 80% ДТП произошли по вине 20% водителей
  • 80% разводов на совести 20% вступивших в брак
  • 80% времени вы носите 20% имеющейся у вас одежды

продолжать можно до бесконечности...

НИ ОДИН ученный на данный момент не может объяснить природу этой закономерности. Вероятно, принципы, открытые эмпирическим путем — проявление каких-то более глобальных мировых законов.

Комментарии (18)

Ваша оценка: Нет Средняя: 4.8 (6 голосов)
Аватар пользователя Гость

80% прибыли, дают 20% инвестиций на рекламу.
Только какие именно 20% остается загадкой.
Ну хоть кто-то завел блог с адекватным контентом ;)

Аватар пользователя webpavilion

Спасибо, дальше будет интересней, сейчас готовлю материалы.

Аватар пользователя Гость

Полезно, присоединяюсь к Смешной SeoБиз. Надеюсь и дальше будете писать незря. А то многие просто делают рерайт и все.

Аватар пользователя Гость

Наконец действительно интересная статья с пищей для мозгов

Аватар пользователя Гость

Картинки прикольно на сайдбар наезжают :) оригинально

Аватар пользователя webpavilion

Спасибо мне тоже нравится, не зря столько на дизайн потратил.

Аватар пользователя Гость

давно искал что то подобное! спасибо за статью :)

Аватар пользователя Гость

Спасибо за статью! Надеюсь, автор не против, если я использую это для своей курсовой.

Аватар пользователя webpavilion

Не против, только вот как определить это банальный спам или человеку правда нужно про Ципфа курсовую писать?

Аватар пользователя Гость

Приятно читать умного человека. Умного не только в планет веб-сферы. Спасибо, автор, за потраченное на нас время.

Вот такие блоги должны быть в лидерах и всевозможных ТОПах.

Аватар пользователя Гость

спасибо большое было очень интересно читать

Аватар пользователя Гость
Похоже там где у вас сами графики в логарифмическом масшатабе, оси в линейном сделаны. Даже учитывая ваш множитель х10 всё-равно значения на осях не могут прирастать на один и тот же интервал. Они должны изменять так: 1 - 10 - 100 - 1000 См. пример здесь или см. самого Ципфа отмотайте до стр. 44.
Аватар пользователя webpavilion
Почти все верно масштаб десятичный, только множитель x100, в логарифмическом масштабе (лично мне) не так удобно сравнивать графики. Как мне кажется суть информации от этого не сильно меняется, считаете иначе?
p.s. ОЧЕНЬ благодарен вам за ссылку на гугло книги, будет время почитаю Ципфа в оригинале.
Аватар пользователя Гость
У вас же график вытягивается в линию, хотя на предыдущей картинке он же был гиперболой. Значит что-то изменилось. Либо координатная сетка стала логарифмической (как это делал Ципф), либо вы вычислили производную, либо что-то еще. Написано "В подобных графиках часто используют логарифмическую шкалу", но сами графики даны так как если бы они испытали логарифмическое преобразование, а шкалы даны так если бы они его не испытывали. С уважением.
Аватар пользователя webpavilion
Спасибо я понял что вы имели ввиду после первого вашего комментария, можно привести к виду первоисточника, но для практического применения это не совсем удобно.
что сделано с данными:
	for ($i=1;$i<$count;$i++) {
		$x = round(log10($x[$i]),2)*100;
		$y = round(log10($y[$i]),2)*100;
		$log[$x] = $y;
	}
Аватар пользователя Гость
Данные ведь в результате искажаются. Приведённое преобразование приводит к тому что у вас на графике представлен не закон Ципфа FR = C, а функция dblf F = C - a1*R. Т.е. на 2-м графике нет закона Ципфа.
Аватар пользователя webpavilion
Данные не искажаются, изменилось только их представление.
Аватар пользователя Гость
Отличный материал. Один вопрос.. чем графики строили? возможно есть какой инструмент, да такой который сам всё посчитает распишет и график построит?

Отправить комментарий