О роли Яндекс.Каталога в Яндексе.Цитирования

В предыдущем исследовании автора (Яндекс.Цитирования сайтов Рунета в 4-м квартале 2006 года) остался необсужденным достаточно важный вопрос: влияло ли наличие сайта в Яндекс.Каталоге на падение Тематического Индекса Цитирования (далее в тексте ТИЦ) сайта, каковое падение массово наблюдалось с сайтами Рунета в декабре 2006 года.

Наличие у автора всех необходимых данных - большого списка доменов 2-го уровня в RU/SU с историей их ТИЦ, рубрик каталога Яндекса к которым отнесены эти сайты (естественно, только имеющиеся в каталоге) - позволяет раскрыть данную тему.

Данные

Были взяты те же исходные данные, что и в предыдущей публикации, плюс данные о наличии сайтов в каталоге. Для компактности, автор ограничился только "хорошими" сайтами:
  1. С ненулевым ТИЦ в октябре 2006 года и январе 2007 года.
  2. Успешно ответившими на HTTP-запрос в конце декабря 2006 года.
  3. Не зеркала других сайтов (по мнению Яндекса, состояние на 1 января 2007 г.).
  4. Все эти сайты расположены в доменах 2-го уровня в RU/SU (т.е. имеют hostname www.domain.ru или domain.ru).

Таких сайтов всего 193 569, из них:

  • 36 963 имеют запись (или несколько записей) в каталоге Яндекса;
  • 156 606 таковой записи не имеют.
Всего в каталоге Яндекса на 10 января 2007 года более 81 тысячи описаний сайтов, но в там представлены как сайты в других TLD, так и сайты в доменах 3-го (и более) уровня. Отсюда, кстати, можно оценить представительность используемой выборки сайтов: порядка 40% рунета.

Grand Total

Для компактности, соберем данные в табличку:
ПараметрВсе сайтыСайты в каталоге Я.Сайты не в каталоге
Количество сайтов193 56936 963156 606
Средний ТИЦ в октябре 200616042198
Средний ТИЦ в январе 200712134368
Среднее изменение ТИЦ-24.5%-18.6%-30.5%
Доля сайтов с ростом ТИЦ12.7%17.9%11.5%
Доля сайтов с падением ТИЦ55.8%71.4%52.2%
Данные любопытные: с одной стороны, среднее значение ТИЦ у сайтов в каталоге упало меньше, чем по Рунету в целом. С другой стороны, доля сайтов с падением ТИЦ - больше чем средняя. Но не будем забывать, что каталожные сайты имеют гораздо большую среднюю цитируемость, что помещает их в группу риска.

Чтобы получить цифры, сравнимые с предыдущем исследованием, необходимо разделить сайты по второму измерению: ТИЦ на октябрь-2006.

Сайты с ТИЦ < 100

Сайты с ТИЦ меньше 100 распределились следующим образом:
  • Сайты в каталоге Яндекса: 8 597 сайтов. Средний ТИЦ за квартал вырос с 52 до 59 или на 14%. Падение ТИЦ наблюдается у 43% сайтов, рост - у 30%.
  • Сайты не в каталоге: 116 425 сайтов, средний ТИЦ упал с 33.5 до 30.9 или на 7.9%. ТИЦ упал у 40%, вырос - у 13%

Таким образом, нахождение в каталоге благотворно влияет на рост цитируемости (если она растет), а на вероятность падения - практически не влияет.

Посмотрим на распределение изменения ТИЦ в деталях.

Для сайтов из каталога:

Для сайтов не из каталога:

Сравнивая два графика, мы видим что для сайтов из каталога куда выше была вероятность изменить ТИЦ, а то что у каталожных сайтов среднее изменение положительное - произошло за счет двух эффектов:

  • У каталожных сайтов меньше доля катастрофических (разы) падений ТИЦ.
  • У каталожных сайтов больше доля "катастрофических" (разы) приростов цитируемости.
Естественно, большой прирост цитируемости часто случается с новыми хорошими проектами, никаких удивительных чудес мы не наблюдаем.

Сайты с высокой цитируемостью (ТИЦ >= 100)

Всего таких сайтов 68 547, из них:
  • 28 366 в каталоге Яндекса. Средний ТИЦ за квартал упал на 19.5%, с 533 до 428. ТИЦ упал у 79% сайтов, вырос у 14%.
  • 40 181 сайт не в каталоге. Падение ТИЦ на 38% с 286 до 177. Цитируемость упала у 88.7%, выросла у 6.8%
Как и в предыдущем случае, присутствие в каталоге положительно влияет на вероятность роста индекса цитируемости: несмотря на падение ТИЦ на 19%, это сильно лучше чем для цитируемых сайтов в-среднем (28%, см. предыдущую статью). Смотрим на распределение изменений ТИЦ.

Сайты в каталоге:

Сайты не в каталоге:

Наблюдаем ту же картину: для сайтов из каталога существенно меньше вероятность катастрофического падения цитируемости, одновременно выше вероятность того, что цитируемость вырастет.

Заключение

Качественные выводы:

Автор не может утверждать, что Яндекс использует данные своего каталога для расчета индексов цитирования. С другой стороны, не использовать результаты ручного просмотра было бы неразумно (и автор бы использовал, например для определения близости тематики, дополняя и корректируя результаты автоматического анализа).

Более того, наблюдая снаружи невозможно определить первичность или вторичность каталога и ТИЦ, не исключено что на рассмотрение модераторов каталога поступают в первую очередь те сайты, индекс которых резко вырос. После рассмотрения либо падает ТИЦ, либо сайт попадает в каталог (это гипотеза, не надо на меня ссылаться). Таким образом, можно говорить лишь о скоррелированности наличия сайта в каталоге и знака изменения ТИЦ. Для целей дальнейших рассуждений, будем считать нахождение в каталоге Яндекса первичным.

Полуколичественные выводы:

  • Присутствие в каталоге Яндекса резко снижает вероятность катастрофического (разы) снижения ТИЦ.
  • Присутствие в каталоге Яндекса значительно повышает вероятность пересчета ТИЦ в сторону увеличения.
  • Для низкоцитируемых (ТИЦ < 100) сайтов, присутствие в каталоге увеличивает вероятность колебаний ТИЦ

Комментирование

Комментировать и обсуждать данный текст можно в комментариях к анонсу статьи в моем блоге.
Indexed: Ap:2010-11-01 20:49 |  G:2016-05-12 12:56 |  MSN:2011-07-23 00:04 |  R:2011-06-16 01:14 |  Yah:2016-05-23 18:59 |  Я:2013-08-30 06:14