Пересчет Google PageRank в октябре 2007 года

О чем этот текст?

Как заметили многие вебмастера и SEO-специалисты, при последнем пересчете Google PageRank, он резко снизился, как у многих известных сайтов так и у неизвестных. Снижение ненадолго коснулось даже собственных проектов Google, так у YouTube.com PR падал до 3, правда потом восстановился обратно до 8.

Автору интересно было посмотреть, насколько массовым является всеобщее падение PR, и есть ли оно вообще.

Данные

В рамках проекта черный квадрат еженедельно собираются данные о первых страницах сайтов, расположенных в доменах второго уровня в TLD .RU и .SU. На сегодняшний день таких сайтов более 800 тысяч.

Кроме содержания главной страницы, для сайтов сохраняются значения PageRank (главной страницы) и Яндекс.ТИЦ. Эти данные имеются с марта 2007 года.

Реальная жизнь чуть сложнее сухой теории, в частности:

  • PageRank для www.site.ru и site.ru может отличаться;
  • с главной страницы сайта может быть редирект куда-то еще (на внутреннюю страницу, на другой сайт);
  • сайт может быть зеркалом какого-то другого сайта;

С этими затруднениями автор обошелся следующим образом:

  • из значений PR для «с www/без www» берется наибольшее;
  • зеркалирование никак не учитывается и не обрабатывается;
  • редиректы на другие страницы/сайты игнорируются;

Игнорирование двух последних проблем связано с тем, что доля зеркал и редиректов в общей массе сайтов приблизительно постоянна, а следовательно на общую картину пересчета PageRank эти явления повлияют мало.

Для изучения были выбраны 767 тысяч сайтов, которые были работоспособны как в конце сентября 2007 г., так и 30 октября-4 ноября того же года. Для этих сайтов были определены:

  1. PageRank «после пересчета» (на 1-4 ноября 2007 г.)
  2. PageRank «до пересчета» (на 22-28 сентября)

Общая картина

Для всей выборки сайтов, отвечавших на запросы и в сентябре и в октябре, изменения PageRank выглядят так:
  • У 118 911 сайтов PR увеличился;
  • у 540 426 — не изменился;
  • у 107 365 — уменьшился.
Таким образом, у среднего сайта PageRank вырос, что неплохо видно на гистограмме:

Как мы видим, подросло количество сайтов с PageRank от 1 до 3 (было 240 тысяч, стало 290), количество «четверок» изменилось мало, количество сайтов с бОльшими PR упало (PR 5-9 было 11.3 тысячи, стало 8.9 тысяч).

ВНИМАНИЕ! ЛОГАРИФМИЧЕСКИЙ МАСШТАБ! Каждое деление по вертикальной оси означает прирост в 10 раз! В линейном масштабе на графиках видны только 2-3 центральных палочки.

Изменения PageRank

Можно посмотреть и более детальную картину по изменениям, на гистограмме показано распределение сайтов по величине изменения PR (скажем, если было 7, а стало 6, то сайт попал в колонку -1):

Как мы видим, график практически симметричный, столбцы в области положительных изменений чуть-чуть повыше (что и так достаточно очевидно, ведь сайтов с приростом PR больше, чем сайтов с падением).

Изменение PR по группам сайтов

Мы можем разбить все сайты на две группы:
  • «нулевые» сайты, PageRank которых в сентябре был равен нулю;
  • сайты с ненулевым PR на конец сентября.
Достаточно очевидно, что у первой группы PR не может уменьшаться, вполне возможно что основной вклад в рост дали именно они, впрочем на гистограммах ниже все видно.

«Нулевые сайты», у 395 тысяч PageRank не изменился, у 85 тысяч - вырос:

Как видим, 72% сайтов с увеличившимся PageRank (85 тысяч из 118) увеличили его с нуля (весь рост с нуля до PR7-8 - это зеркала известных сайтов, как отечественных, так и зарубежных).

Среди сайтов, PR которых на конец сентября был ненулевым произошли такие изменения:

  • 33 577 сайтов увеличили PageRank при последнем пересчете;
  • У 145 809 сайтов PR не изменился;
  • У 107 365 сайтов PR уменьшился.
Таким образом, «неудачников» 38%, а у половины сайтов с ненулевым PR ничего не изменилось. Гистограмма показывает это более детально, ее левая часть заметно тяжелее правой:
Падение PR на 7-8 единиц - это «раззеркаливание» крупных зарубежных сайтов.

Зависимость изменения PageRank от значения PageRank до пересчета

Ничто не мешает нам посмотреть на предыдущую картинку еще более детально, мы можем построить сразу несколько гистограмм, по одной для каждого исходного PageRank. На гистограмме ниже цветом линии закодирован PR до пересчета (на сентябрь), а положением точек на координатной плоскости показывает сколько сайтов какой PR получили после пересчета:

Если внимательно присмотреться, то видны такие закономерности:

  • Наиболее вероятное (часто встречающееся) поведение для PR сайта — это его сохранение;
  • следующее по вероятности — это уменьшение PR на единичку, это гораздо более частый случай, чем увеличение на ту же единичку;
  • Довольно много сайтов, PageRank которых упал до нуля. Их больше, чем тех, PR которых упал «почти до нуля», особенно много (более 10%) их среди сайтов, PR которых был высоким.

Старые и новые сайты

Разобъем все сайты, доступные в сентябре 2007 года на две группы:
  • «старые» — которые были доступны полгода назад (на март 2007), таких сайтов в нашей выборке 558 тысяч;
  • «новые», появившиеся в сети после марта 2007 года, таких 208 тысяч;
и построим для них гистограмму изменения PageRank. Сначала для всех сайтов:
Как мы видим, несмотря на то, что новых сайтов в 2.7 раза меньше (это примерно треть деления в логарифмической шкале), количество сайтов с приростом PR в обоих группах примерно одинаково. В то же время, падение PR гораздо более свойственно «старым сайтам». Если суммировать колонки на гистограмме, то разница видна еще лучше:
  • Старые сайты: 105 тысяч потеряли в PR, 74 тысячи увеличили.
  • Новые сайты: только две тысячи потеряли, 45 тысяч увеличили.

Объяснение этому феномену очень простое: среди «новых сайтов» подавляющее количество имело нулевой PageRank к сентябрю, а следовательно PR мог только расти. Если взять только те сайты, PR которых в сентябре был ненулевым, и разбить их на две группы по возрасту, то размер выборок будет совершенно другим:

  • Cтарых сайтов: 283 тысячи, среди них 105 тысяч (37%) потеряли PR при пересчете, а 33 тысячи (12%) - увеличили.
  • Новых сайтов: 3841, среди них 2020 (53%) потеряли PR при последнем пересчете, а 421 сайт (11%) увеличили свой PR.
Гистограмма:

Из интересного на этой гистограмме только то, что среди новых сайтов примерно равное количество тех сайтов, PR которых не изменился и тех, которые потеряли единичку в PR.

Заключение

Как указано в самом начале данного текста, задачей автора была оценка массовости падения PageRank на сайтах Рунета. Как мы видели из графиков и цифр выше:
  • В-среднем по больнице, PageRank вырос, особенно это касается сайтов с небольшими значениями PR.
  • Сайтов с высокими значениями PR (от 4 и выше) наоборот стало заметно меньше.
Если смотреть на сайты, PageRank которых к сентябрю был ненулевым, то есть несколько типичных паттернов поведения PR, по убыванию частоты:
  1. PageRank не изменился: характерно для сайтов с любым PR, это половина всех сайтов.
  2. PR упал на единичку: второе по типичности поведение.
  3. PR упал до нуля: третье по типичности!
  4. Все остальные изменения PR.

Для полноценного анализа причин падения у автора недостаточно данных. В частности, хотелось бы иметь картину входящих ссылок для каждого из сайтов. Наиболее простая для проверки идея — изучение количества внешних исходящих ссылок — будет темой следующего исследования.

Обсудить статью, высказать поддержку или негодование можно в комментариях к анонсу статьи в блоге автора.

Indexed: Ap:2010-11-01 20:49 |  G:2016-07-24 19:30 |  MSN:2011-07-23 00:04 |  R:2011-06-16 01:09 |  Yah:2016-07-21 14:46 |  Я:2013-08-30 06:15