осторожно βeta версия!

ТИЦ - большой эксперимент. Вводная статья.

Кто не видел темы об очередном апдейте ТИЦ? Не когда не задумывались, а зачем они вообще нужны? Понятно 3-4 сообщения в начале темы служат подтверждением (или опровержением) апдейта. Ну а остальные 200-300 сообщений, информационный мусор из эмоций и глупых вопросов, вперемешку с крупицами полезной информации. Причем достоверность полезной информации проверить не возможно. А статистику по апдейтам собирать очень хотелось... В общем так и родилась сама идея, мониторинга изменений ТИЦ для групп сайтов.

С момента формирования самой идеи до её реализации размер группы, которую хотелось бы отслеживать, изменился в сотни тысяч раз. Изначально планировалось отобрать в полуавтоматическом режиме 2-3 тысячи сайтов из различных источников и постепенно довести размер выборки до 10К. Но этот вариант отпал сам собой в процессе формирования ТЗ, из-за большого объема рутинной ручной работы. Вопрос был поставлен по другому, а что бы я хотел получит в идеале? Всё! 120 миллионов доменов из gLTD и 4 миллиона доменов рунета (ru, su, рф). Ковырялся я долго в итоге техническая возможность получить списки всех зарегистрированных доменов была найдена. Еще раз хочу сказать спасибо друзьям из Прибалтики которые за нескромное вознаграждение взяли на себя поставку списков gLTD.

Дальше все исключительно техническая реализация. Вопросов в процессе написание возникало множество, но все они достаточно стандартны и упираются больше в мощность серверов и их количество. Сейчас сбор ТИЦ всех доменов второго уровня в зоне ru (чуть больше трех миллионов ) занимает примерно 14-15 часов. При текущих ресурсах на обработку всех 120 миллионов доменов теоретически должно уйти около 3х недель. На данный момент сервис находится в состоянии глубокой альфа версии, статистика собирается только для зоны ru. Для выхода на полную мощность необходимо как минимум в три раза увеличить количество серверов, что пока для меня весьма затратно. Несмотря на статус "альфа" появилась редкая возможность проводить фундаментальные исследование ТИЦ уже сейчас. Нечего подобного в публичном доступе я не встречал.

сравните размеры самых популярных доменных зон в рунете

Первые результаты готовы и будут опубликованы завтра.

Комментарии (8)

Ваша оценка: Нет Средняя: 4.7 (3 голоса)
Аватар пользователя Гость

контактов на блоге не нашел. интересно приобретение собранной базы. напиши на почту мне.

Аватар пользователя webpavilion

контактов на блоге нет специально, я нечего не продаю и никаких услуг не предоставляю. на данный момент продажей любых материалов из проведенных или анонсированных экспериментов мне не интересна.

Аватар пользователя Гость
Так это статистика зон или статистика тица зон?
Аватар пользователя webpavilion
если вы о диаграмме то это срез по количеству доменов второго уровня в разных зонах.
Аватар пользователя Гость
Возможно глупый вопрос, но зачем одному человеку история изменения ТИЦ всех сайтов? Или вы хотите сделать публичный сервис?
Аватар пользователя webpavilion
мне просто интересно, сервис делать не планирую, уж больно хлопотно.
Аватар пользователя Гость
Как итоги эксперимента?
Аватар пользователя Гость
Чего то я не въехал в диаграмму, что на ней означают проценты?

Отправить комментарий