Яндекс.Цитирования сайтов рунета в 4-м квартале 2006 г.

Цели, задачи и методы

В конце декабря 2006 года оптимизаторские форумы, рассылки и курилки наполнились стонами о пересчете Яндексом тИЦ в меньшую сторону. Накопленные ранее данные позволяют увидеть всю картину целиком.

Получение индексов цитирование производилось все той же тысячей китайцев, данные по тИЦ получены 1 января 2007 года.

Данные

Анализировались индексы цитирования для WWW-сайтов в доменах второго уровня в TLD .RU и .SU.

При анализе изменений тИЦ рассматривались домены с ненулевым значением этого параметра, причем из рассмотрения были исключены зеркала (по данным Яндекса).

  • 203 805 доменов с ненулевым тИЦ на октябрь 2006 и январь 2007 гг. Из них:
    • 193 569 сайтов успешно ответили на декабрьский запуск черного квадрата.
    • 10 236 сайтов затруднились с ответом: 400-е и 500-е ошибки, зацикленные редиректы и т.п.
  • 14 067 доменов, с ненулевым тИЦ на октябрь 2006 и нулевым тИЦ на январь-2007 (возможно, часть сайтов стала за прошедший квартал чьими-то зеркалами)
  • 24 509 доменов с нулевым тИЦ на октябрь-2006 и ненулевым тИЦ на январь-2007

Общие метрики

Для начала хочется проверить гипотезу о всеобщем падении индексов цитирования. Если просто просуммировать все индексы цитирования для "хороших" сайтов (ненулевой ТИЦ в октябре и январе, успешный ответ черному квадрату), получим:
  • Сумма за октябрь-2006 для 193 569 доменов - 30 973 530
  • Сумма за январь-2007 для того же списка доменов - 23 388 165
Таким образом, массовое падение ТИЦ - произошло, среднее изменилось на 24% (или на 40 пунктов ТИЦ). Включение в расчет новых сайтов (неизвестных яндексу на октябрь) картину практически не меняет, суммарный ТИЦ по ним менее миллиона, суммарный ТИЦ на октябрь по сайтам, неизвестным в январе - 720 тысяч т.е. прибавка и убавка почти скомпенсированы. Относительно общей суммы невелико и изменение суммарных индексов цитирования.

Чтобы не смешивать разные группы сайтов, разберемся сначала с "хорошими", а потом со всеми остальными.

Хорошие сайты

Хорошими назовем сайты с которыми ничего ужасного не случилось:
  • положительный ТИЦ и в октябре и в январе;
  • успешный ответ "черному квадрату" в декабре.

Всего таких сайтов, как указано выше, 193 569 (как всегда, рассматриваем только домены 2-го уровня в RU/SU).

Если посмотреть только на знак изменения ТИЦ, то обнаружится такая картина:

  • У 108 174 сайтов (56%) из "хорошего" списка ТИЦ упал;
  • У 60 821 сайтов (31%) ТИЦ не изменился;
  • У 24 574 сайтов (13%) ТИЦ вырос.

Посмотрим на общую гистограмму изменения ТИЦ для рассматриваемой группы сайтов (показана центральная часть гистограммы):

Несимметричность гистограммы прекрасно видна, среднее изменение ТИЦ, как и написано выше, отрицательное.

Не менее интересна гистограмма относительного (относительно значения на октябрь-2006) изменения ТИЦ:

Видно, что падение в процентах достаточно большое, видны максимумы на -30% и -50%. Пики на +100%,+200% и так далее соответствуют увеличению ТИЦ с маленьких значений (10-20).

Рассмотрим изменение ТИЦ подробнее.

Анализ роста и падения

Разделим все хорошие сайты на группы по знаку изменения ТИЦ и посмотрим, как он у них менялся.

Сайты с ростом ТИЦ

Для 24574 сайтов с ростом ТИЦ построим график, где по оси X будет значение ТИЦ на октябрь, а по оси Y - прирост цитируемости к январю:
Как мы видим, чем больше было исходное значение ТИЦ, тем (в среднем) больше оказался прирост. Есть, конечно, исключения, у заметного количества сайтов с ТИЦем 10 он вырос до нескольких сотен.

Лидеры роста (по абсолютному приросту ТИЦ):

ДоменТИЦ в октябре 2006ТИЦ в январе 2007
spb.ru140051000
eroplus.ru1308300
webmix.ru508100
mail.ru2000028000
data.ru6008100
hut.ru560012000
yandex.ru110000115000
kvartirant.ru18006200
by.ru2200026000
boom.ru1900023000
За исключением spb.ru, причины роста цитируемости остальных сайтов совершенно очевидны - это рост ссылочной базы, как естественной, так и околоестественной (партнерки и т.п.) и особенности расчета ТИЦ (склейка с зеркалами, как у eroplus.ru).

Уменьшение ТИЦ

Изменение ТИЦ в меньшую сторону отражено на следующем графике, охватывающем 108174 сайта:
Внимание! Чтобы показать график в логарифмических координатах у изменения ТИЦ был изменен знак! Т.е. чем выше точка на графике, тем больше УПАЛ ТИЦ
Линией под 45 градусов ограничена максимально-возможная величина падения: ТИЦ не может упасть ниже нуля. Как мы видим, есть аномальное сгущение точек для сайтов с исходным ТИЦ в диапазоне 300-1200: это сайты, индекс цитирования которых упал до нуля или почти до нуля.

Зависимость изменения цитируемости от исходной цитируемости

Попробуем разобраться, какие сайты более всех пострадали, а какие - более всех выиграли от изменений расчета цитируемости.

Если опираться только на данные Яндекса, то мы можем разделить все "хорошие" сайты две группы по величине среднего изменения цитируемости:

  1. Сайты с цитируемостью до 100. Таких сайтов 125 022, средняя цитируемость у них уменьшилась незначительно.
  2. 68 547 сайтов с цитируемостью более 100, средняя цитируемость у них упала более чем на четверть.
Все графики будем рисовать в относительных величинах.

Сайты с минимальной цитируемостью (ТИЦ 10-99)

Среднее значение ТИЦ у 125 022 сайтов с цитируемостью меньше 100 составляло 34.8 в октябре и составляет 32.8 в январе (изменение -5.6%). C октября по январь:
  • у 49860 сайтов ТИЦ упал;
  • у 18841 сайта ТИЦ увеличился;
  • у 57321 сайта ТИЦ остался неизменным.
Максимальное падение цитируемости для сайтов этой группы -80 (что неудивительно, при бОльшем падении сайт выпадет из группы "хороших" сайтов), максимальный рост: 8050 единиц для сайта webmix.ru (вероятно, за счет склейки с data.ru, хотя на момент получения данных склейки еще не было), все остальные приросты не превышают 1600 единиц.

Гистограмма относительных изменений цитируемости:

Падение цитируемости более чем вдвое для данной группы сайтов нехарактерно.

Сайты с цитируемостью >= 100

Среди 68 547 сайтов этой группы изменения цитируемости таковы:
  • 58 314 сайтов (85%) потеряли в цитируемости;
  • 6 733 сайта увеличили цитируемость;
  • у 3 500 сайтов цитируемость не изменилась
С октября по январь средний ТИЦ для сайтов этой группы упал с 388 до 281 или почти на 28%.

Максимальное падение цитируемости для сайтов этой группы: -16000, это сайт google.ru (тут надо ехидно заметить "ну кто бы сомневался", но я не буду). Лидеры роста перечислены в таблице выше.

Гистограмма относительных изменений цитируемости:

Гистограмма подтверждает сделанное ранее наблюдение: для сайтов с цитируемостью выше 100 характерно существенное падение цитируемости, падение на 30-50% является вполне распространенным.

Новые сайты

С октября по ноябрь у 24509 сайтов появился ненулевой ТИЦ. Распределение показано на гистограмме:
Ничего удивительного не видно, у большинства новых сайтов ТИЦ в пределах нескольких десятков, исключений мало, большинство из них - перенос сайта на новый домен.

Сломавшиеся сайты

"Сломавшиеся сайты" - это те, которые не смогли ответить без ошибки на HTTP-запрос в последней декаде декабря в рамках тестирования черным квадратом, всего таких сайтов 10 236.

Среди этих сайтов:

  • У 5 026 сайтов (~50%) ТИЦ упал;
  • У 626 сайтов ТИЦ не изменился;
  • У 4 484 сайтов ТИЦ вырос.
Среднее значение ТИЦ на октябрь у этих сайтов было 90, среднее изменение составляет 27 (30%).

Гистограмма изменения абсолютных значений ТИЦ выглядит следующим образом (показана центральная часть гистограммы):

Как мы видим, основные изменения цитируемости очень небольшие, в пределах нескольких десятков единиц. Гистограмма изменения относительных значений ТИЦ выглядит следующим образом (показана центральная часть гистограммы):
На этом графике видно, что падение ТИЦ в процентах для многих сайтов довольно велико - десятки процентов. Сравнивая с предыдущим графиком, начинаем подозревать, что от падения ТИЦ пострадали в первую очередь сайты, индекс цитирования которых был невелик.

Лидеры понижения по абсолютному изменению ТИЦ:

ДоменИзменение ТИЦ
sotoweek.ru-9 980
onegomedia.ru-8 390
alllovers.ru-6 280
getlove.ru-6 270
vashyznakomstva.ru-6 270
mlovers.ru-6 260
ifh.ru-3 920
skyman.ru-3 225
rts-game.ru-3 120
В настоящее время часть этих сайтов вполне работоспособна, не исключено что и ТИЦ у части из них со временем восстановится. Отдельное внимание стоит обратить на tass.ru: на момент написания данного текста он уже склеен в каталоге Яндекса с itar-tass.com с индексом цитирования 5500, а 1-го января для доменов itar-tass.ru и tass.ru выдавались разные значения ТИЦ (1000 и 2500, соответственно), равно как и октябрьские значения для этих доменов тоже были разными (1100 и 7600). Возможно это поможет кому-то рассчитать формулу склейки ТИЦ :).

Лидеры повышения (абсолютные величины):

ДоменИзменение ТИЦ
al.ru2700
dax.ru2100
bip.ru1300
pu.ru1300
sibacadem.ru675
fotover.ru580
reductory.ru440
achuni.ru380
i-baza.ru235
securityclub.ru230

Обнуленные сайты

За 4-й квартал 2007 года ТИЦ был обнулен у 14 тысяч доменов 2-го уровня в RU/SU. По этим доменам имеется довольно много данных, которые позволяют установить причину обнуления ТИЦ для части из них:
Статус сайта на 25 декабря 2006Количество
Домен более не обслуживается1 081
Сайт отсутствует в DNS 542
Сайт не отвечает на HTTP-запрос, либо отвечает ошибкой1 119
Редирект на другой сайт1 106
Остальные 10 219 сайтов - вполне живые, отвечают на запросы (о содержании этих ответов - ниже).

72% из "обнуленных" сайтов имели на октябрь-2006 ТИЦ равный 10, еще 10% - ТИЦ равный 20. Общее распределение показано на гистограмме:

распределение CY обнуленных сайтов на октябрь 2006

Верхушка (сортировка по убыванию ТИЦ) списка доменов с обнуленным ТИЦ:

ДоменТИЦ на октябрь-2006Комментарий
perejdemnaty.ru6300сайт закрыт
klusha.ru6300каталог с контекстной рекламой
climin.ru3600сайт закрыт
poleno.ru3600пустой сайт с номером ICQ
kupalnik.ru3600сайт закрыт
cyberpay.ru3500Показывается сайт провайдера. сайт закрыт ?
primnet.ru2900сайт закрыт
primenews.ru2900сайт закрыт
mars-planet.ru2700пустой сайт (есть дизайн, есть CMS, нет контента)
3-10.ru1900пустой сайт (страница хостера)
Как видно из таблицы, верхушку списка прикрыли за дело - либо нет сайта, либо на сайте контент с которым Яндекс активно борется.

Выводы

  1. Средний ТИЦ по Рунету действительно упал, средняя величина падения составила 24%.
  2. Основное падение произошло за счет сайтов со значением ТИЦ от 100, среднее падение для них 27.6%.
  3. Сайты у которых ТИЦ в октябре-2006 более 100 и к январю вырос - составляют 2% от всех сайтов рунета, эти сайты могут гордиться своим ТИЦ.
  4. В то же время, падение ТИЦ более чем у половины сайтов (и у 85% сайтов с высокой цитируемостью) говорит о том, что произошла массовая переоценка ссылочной базы, а вовсе не падение тИЦ у некоторых сайтов как утверждает Яндекс.

Комментирование

Комментировать и обсуждать данный текст можно в комментариях к анонсу статьи в моем блоге.
Indexed: Ap:2010-11-01 20:49 |  G:2016-05-23 17:27 |  MSN:2011-07-23 00:04 |  R:2011-06-16 01:12 |  Yah:2016-05-21 08:22 |  Я:2013-08-30 06:15