Закон Ципфа — Вводная статья.
В 1906 году Вильфредо Парето (Vilfredo Pareto) публикует свой учебник политической экономии (Manuale di economia politica), в нем присутствует первое упоминание правила 80/20: в Италии 20% домохозяйств получают 80% доходов
. Особой роли в учебнике эта фраза не играла, и удивительная закономерность ждала внимательного взгляда почти четыре десятилетия.
Джозеф Мосес Джуран (Joseph Мoses Juran) с 1940 по 1944 годы вел собственную войну с бюрократическим аппаратом армии США, он служил помощником администратора в управлении Лендлиза. Основной задачей Джурана была оптимизация документооборота для ускорения поставок грузов союзникам. В эти годы был сформулирован принцип: 80% последствий проистекают из 20% причин
. В честь указанной выше работы Парето выявленная закономерность была названа «принципом Парето».
В 1949 году Джордж Кингсли Ципф (George Kingsley Zipf) заметил, что некоторые слова используются значительно чаше других. На основе статистических измерений Ципф сформулировал принцип наименьшего действия в социально-экономической сфере: Ресурсы самоорганизуются так, чтобы свести к минимуму затраченную работу. Четвертая часть любого ресурса приносит три четверти результата
.
Статус законов был присвоен этим принципам после появления вычислительной техники, способной провести точные расчеты на больших выборках. Бенуа Мандельброт (Benoît Mandelbrot), используя ЭВМ Калифорнийского технологического института провел ряд обоснований и уточнений закона, впервые опубликованных в книге «Теория информации и психолингвистики» («Information Theory and Psycholinguistics») 1965 года.
Сегодня в рунете под законом Ципфа чаше всего подразумевают закономерность «ранг — частота», известную также как «универсальное гиперболическое ранговое распределение»: Если составить список из всех слов текста и отсортировать его в порядке убывания частоты(F) используемости слов, то для любого слова произведение его порядкового номера(R) в этом списке на частоту использования будет равно постоянной величине(C)
.
FR =C — в классическом виде
FRY=C — с поправкой Мандельброта
- F – частота используемости слова;
- R – порядковый номер;
- С – постоянная величина;
- Y – близкая к единице переменная величина, меняющейся в зависимости от параметров текста.
Значение константы для разных языковых групп различно и незначительно меняется в зависимости от характеристик текста. Для русских текстов отношение константы (С) к количеству слов в тексте приблизительно равно 0,08 для английских 0,1
Переменная Y для русских и английских текстов в зависимости от жанра:
| жанр | Английский | Русский |
|---|---|---|
| SF/fantasy | 0,96187 | 0,87668 |
| SF/fantasy | 0,95598 | 0,86701 |
| SF/fantasy | 0,95552 | 0,86300 |
| SF/fantasy | 0,95209 | 0,83927 |
| novel | 0,99903 | 0,93588 |
| novel | 0,99695 | 0,82960 |
| novel | 0,96751 | 0,88660 |
| detective | 0,98193 | 0,88777 |
| detective | 0,97810 | 0,88362 |
| detective | 0,94886 | 0,87347 |
| children | 0,97680 | 0,93658 |
| children | 0,96803 | 0,90178 |
| children | 0,95075 | 0,88304 |
| adventure | 1,00462 | 0,91667 |
| adventure | 0,99104 | 0,88060 |
| adventure | 0,97185 | 0,85905 |
| среднее значение: | 0,97256 | 0,88254 |
На графике представлены 1000 самых употребляемых слов на моей экспериментальной выборке текстов. В десятичном масштабе. Не сложно заметить, что распределение подчиняется правилу 80/20.
Десятичный масштаб графиков не слишком удобен из-за огромного разброса порядка значений. В подобных графиках часто используют логарифмическую шкалу.
Для закономерностей ранг-частота всегда существуют три явно различаемые зоны ранговых распределений: зона ядра рангового распределения, центральная зона и зона усечения. Постоянство коэффициента Y сохраняется только на среднем участке графика распределения.
В зону ядра рангового распределения попадают наиболее часто употребляемые слова для русского языка — предлоги, местоимения и т. д.
В центральной зоне находятся слова, максимально характеризующие данный текст и выражающие его специфичность и тематику (ключевые слова).
В зоне усечения находятся слова, не несущие основной смысловой нагрузки.
«Робин Гуд» слова с рангом от 25 до 85 без стоп-слов:
| слово | частота |
| джон | 195 |
| шериф | 186 |
| люди | 145 |
| монах | 128 |
| лес | 125 |
| тук | 120 |
| принц | 106 |
| король | 99 |
| марианна | 87 |
| ричард | 81 |
| джордж | 56 |
| маленький | 56 |
| сэр | 51 |
| руки | 48 |
| лицо | 40 |
| мужчины | 37 |
| деньги | 36 |
| глаз | 36 |
| лошадь | 35 |
От ширины центральной зоны зависит качество выделяемых ключевых слов. На этапе определения ширины центральной зоны первостепенной задачей является отсечение информационного шума — нейтральных стоп-слов.
Также особое внимание следует уделить пропорциональности частоты вхождения слова и количества слов c данной частотой. Проще всего понять закономерность на графике, если по оси абсцисс отложить частоту вхождения, а по оси ординат — количество слов с данной частотой.
Общий вид кривой сохраняется независимо от языка текста, незначительно меняется только коэффициент гиперболы.
Что еще подчиняется закону Ципфа?
- 80% предложений состоит из 20% слов
- 80% работы выполняют 20% сотрудников
- 80% научных публикаций пишут 20% ученых
- 80% профильной информации находится в 20% источников
- 80% материальных ценностей принадлежит 20% населения
- 80% времени процессора занимают 20% инструкций(команд)
- 80% населения сосредоточено в 20% городов
- 80% общего объема продаж дают 20% ассортимента
- 80% прибыли дают 20% покупателей
- 80% преступлений совершают 20% преступников
- 80% ДТП произошли по вине 20% водителей
- 80% разводов на совести 20% вступивших в брак
- 80% времени вы носите 20% имеющейся у вас одежды
продолжать можно до бесконечности...
НИ ОДИН ученный на данный момент не может объяснить природу этой закономерности. Вероятно, принципы, открытые эмпирическим путем — проявление каких-то более глобальных мировых законов.
Комментарии (17)
5октября 2010 7:46)80% прибыли, дают 20% инвестиций на рекламу.
Только какие именно 20% остается загадкой.
Ну хоть кто-то завел блог с адекватным контентом ;)
5октября 2010 8:3)Спасибо, дальше будет интересней, сейчас готовлю материалы.
7октября 2010 9:46)Полезно, присоединяюсь к Смешной SeoБиз. Надеюсь и дальше будете писать незря. А то многие просто делают рерайт и все.
10октября 2010 9:42)Наконец действительно интересная статья с пищей для мозгов
10октября 2010 11:57)Картинки прикольно на сайдбар наезжают :) оригинально
10октября 2010 12:3)Спасибо мне тоже нравится, не зря столько на дизайн потратил.
7ноября 2010 0:43)давно искал что то подобное! спасибо за статью :)
24декабря 2010 23:59)Спасибо за статью! Надеюсь, автор не против, если я использую это для своей курсовой.
25декабря 2010 7:32)Не против, только вот как определить это банальный спам или человеку правда нужно про Ципфа курсовую писать?
5января 2011 10:9)Приятно читать умного человека. Умного не только в планет веб-сферы. Спасибо, автор, за потраченное на нас время.
Вот такие блоги должны быть в лидерах и всевозможных ТОПах.
26февраля 2011 23:47)спасибо большое было очень интересно читать
1октября 2011 17:22)2октября 2011 6:24)p.s. ОЧЕНЬ благодарен вам за ссылку на гугло книги, будет время почитаю Ципфа в оригинале.
2октября 2011 7:35)2октября 2011 18:56)что сделано с данными:
for ($i=1;$i<$count;$i++) { $x = round(log10($x[$i]),2)*100; $y = round(log10($y[$i]),2)*100; $log[$x] = $y; }3октября 2011 7:23)3октября 2011 9:53)Отправить комментарий