Ссылочное ранжирование в Рунете

Оглавление

  1. Краткое содержание
  2. Краткий словарик специалиста по продвижению сайтов
  3. Ссылки: для пользователей или для поисковиков?
  4. Ссылки: классификация и определения
  5. Ссылочное ранжирование в Рунете: гипотезы
  6. Исходные данные
  7. Ссылки с главных страниц: тенденции за 12 месяцев
  8. Старые сайты
  9. Новые сайты
  10. Объем рынка
  11. Заключение
  12. Благодарности

Краткое содержание

В рамках проекта Черный Квадрат у автора накопилось порядка 150 гигабайт копий главных страниц сайтов Рунета на различные моменты времени, начиная с марта 2006 года и кончая мартом 2007-го. Из этих данных можно извлечь много интересного, темой данной статьи являются ссылки с главных страниц сайтов и связанные с этим вопросы. Такие ссылки активно используются как инструмент продвижения в поисковых системах, этот рынок активно растет и развивается. В рамках статьи обсуждены следующие вопросы:

  • общее состояние и динамика ссылочного ранжирования с главных страниц в Рунете за 2006 — начало 2007 года;
  • критерии, по которым можно отличить сайты с естественными ссылками от сайтов с платными ссылками;
  • оценена доля сайтов, занимающихся продажей ссылок, и общий оборот этого рынка.

Кроме того, обнаружен, изучен и описан всплеск распространенности «дорвейных» сайтов в октябре 2006 года.

Тема ссылок с главных страниц оказалась намного богаче, чем казалось автору вначале. Нерассмотренными остались наиболее часто встречающиеся текстов ссылок, сайты на которые указывают ссылки и ряд других вопросов. Они будут постепенно рассмотрены в следующих статьях:

Краткий словарик специалиста по продвижению сайтов

Вокруг бизнеса по продвижению сайтов в поисковых системах (SEO — Search Engine Optimization) сложилось довольно большое профессиональное сообщество со своим слэнгом и специфическими выражениями. В тексте статьи эти выражения вынужденно используются, без них текст был бы длиннее и тяжеловеснее. Следовательно, в начале текста нужно дать словарик используемых слов и понятий:
  • Оптимизация сайта, поисковое продвижение — действия, направленные на повышение позиции сайта в поисковых системах (по какому-либо запросу).
  • Редирект (redirect) — автоматическое перенаправление пользователя, обратившегося к Web-странице на другую страницу. Существуют различные способы редиректа, в том числе позволяющие перенаправить «живого человека», но не перенаправлять робота поисковой системы.
  • Дорвей (doorway) — сайт или страница, предназначенная для сбора трафика с поисковых машин. Классические дорвеи перенаправляют пользователя на другую страницу (обычно с товарными предложениями), но в настоящее время понятие несколько размыто и дорвеями часто называют любые страницы, предназначенные для сбора трафика с поисковиков.
  • Морда — главная страница сайта (с URL вида http://www.domain/).
  • Продажная морда — главная страница сайта, на которой продается ссылочная реклама.
  • Линкопомойка — сайт, предназначенный только для размещения ссылок на другие сайты.
  • Ссылочная база сайта — все ссылки на данный сайт с других сайтов.
  • Бан (ban) — исключение сайта из индекса поисковой машины.

Ссылки: для пользователей или для поисковиков?

Предыстория

Ссылки — это основа WWW: идея о том, что любой документ может ссылаться на любой предопределила успех World Wide Web. Авторы документов охотно ссылались друг на друга, облегчая пользователям поиск документов и сайтов близкой тематики. На заре интернета ставить ссылку было вежливо и бесплатно (для ставящего ссылки).

Появление поисковых машин сначала не изменило картины: ссылки ставились «для пользователей», на «хорошие сайты» ссылались много, на «плохие» (или никому не известные) — мало. Появившиеся в 90-е годы каталоги ссылок разных видов, от Yahoo до Top100, тоже предназначались для конечных пользователей.

За последние десять лет пейзаж полностью изменился: сайты стали инструментом бизнеса, бизнес зависит от трафика, а наиболее значимыми распределителями трафика стали поисковики. Ссылки же стали товаром, который продается и покупается. Разберемся сначала в причинах.

Трафик из поисковых машин

По статистике liveinternet.ru, среднесуточное количество просмотров страниц российской аудиторией составляло в феврале 2007 года почти 33 млн. просмотров. При этом, пользователи совершали более 12 млн. переходов с поисковых машин в день. Конечно, статистика Liveinternet смещенная (в сторону сайтов, владельцы которых поставили счетчик), но общей картины это не меняет: основным источником трафика для сайтов Рунета являются поисковые машины. Даже если реальная доля поисковиков несколько ниже трети, общей картины это не меняет. Более того, считается что до 80% новых пользователей приходят из поиска.

В то же время, сайты часто являются инструментом зарабатывания денег (на рекламе, на продажах рекламируемых товаров и услуг), а коммерческий успех напрямую зависит от посещаемости целевой аудиторией. Общеизвестно, что по любому коммерчески-интересному запросу все сливки поискового трафика собирают те сайты, которые представлены на первой странице результатов поиска по этому запросу в основных поисковиках.

Вышесказанное определяет крайнюю заинтересованность сайтовладельцев в хороших позициях в выдаче поисковой машины.

Ранжирование выдачи поисковиков

Прежде чем двигаться дальше, нужно очень кратко рассмотреть работу поисковой машины на этапе обработки пользовательского запроса: получив от посетителя поисковый запрос (набор слов), поисковая система должна найти все соответствующие запросу документы (т.е. содержащие запрошенные слова) отранжировать их (т.е. отсортировать по степени важности с точки зрения поисковика) и предъявить пользователю первую страницу результатов. Не вдаваясь глубоко в процедуру ранжирования, перечислим факторы, которые в теории могут влиять на позиции страницы в поисковых результатах:

  • Факторы, находящиеся под контролем владельца сайта (внутренние факторы): содержание (текст) страниц сайта, позиция слов запроса на странице, структура ссылок внутри сайта.
  • Факторы, находящиеся под контролем других вебмастеров (внешние факторы): ссылки с других сайтов в первую очередь.
  • Поведение пользователей (факторы аудитории): посещаемость сайта, характер просмотра сайта, источники трафика. Эти факторы упомянуты для полноты картины, на сегодняшний день поисковые системы (кроме Рамблера) не имеют данных о посещаемости с необходимой полнотой.

Факторы ранжирования перечислены в порядке легкости их изменения владельцем сайта: переделать структуру сайта и переписать все тексты можно самостоятельно (и это относительно дешево), внешние ссылки требуют активности от других вебмастеров (что дороже), увеличение непоискового трафика — это покупка аудитории (рекламой), что еще дороже.

С учетом легкости манипуляции, основной вес в ранжировании на сегодня имеют внешние (т.е. ссылочные) факторы:

  • ссылочная структура интернета: какие страницы (сайты) ссылаются на данную страницу (сайт);
  • содержание (текст) ссылок и их окружения;
  • стабильность ссылок: как давно она появилась, менялся ли текст, менялось ли окружение.

Как следствие, наиболее надежный способ влияния на выдачу поисковых машин — это расширение ссылочной базы сайта.

Основная идея, лежащая в основе ссылочного ранжирования на сегодня — это Google PageRank (PR). PR определяется как вероятность посетить данную страницу при случайном блуждании по ссылкам. Не вдаваясь в подробности, основная идея выглядит так:

  • Чем больше ссылок на страницу, тем выше вероятность ее посещения т.к. PR будет выше.
  • Ссылки со страницы на которую много ссылок «весят» больше (передают больший PR) — раз на ней больше потенциальных посетителей, то и на страницы на которые мы ссылаемся их пойдет больше.

Удобство PageRank заключается в том, что он относительно легко и быстро рассчитывается (по матрице ссылок интернета).

Поисковые машины стараются учитывать и близость тематик донора и реципиента (страниц откуда и куда ссылка), в настоящее время крупные поисковики ведут работы по автоматическому определению естественности ссылки.

Манипуляция поисковой выдачей: шутки

Довольно большую прессу получили разнообразные шутки, прежде всего с Google. Наибольшую известность получила история с «жалким неудачником» в Google, когда по запросу miserable failure на первом месте выдавалась биография Джорджа Буша. Эту конкретную проблему Google полечил, но запрос про «французские военные победы» на первом месте до сих пор выдают ссылку на список военных поражений.

Подобные истории происходили и происходят и в Рунете (в частности, в выдаче Яндекса по запросу «геморрой за деньги» на третьем месте стоит сайт Microsoft Russia), за время написания статьи MS переполз со второго места на третье.

Все подобные шутки устроены одинаково: большое количество вебмастеров (в рамках флэш-моба) ставит ссылки с нужным текстом на нужный сайт. Для «продвижения» Microsoft по вышеупомянутому запросу понадобилось менее трех десятков ссылок.

Манипуляция поисковой выдачей: «бабки»

Влиять на выдачу поисковых машин интересно не только ради шутки, но и ради целевого трафика (другими словами, ради денег). Оставляя в стороне проблему низкоконкурентных запросов и дорвеев, рассмотрим вкратце методы, используемые для продвижения «нормальных сайтов» по сколько-нибудь конкурентным запросам:

  • Ручной линкообмен: «поставьте ссылку на меня, а я на вас». Для сайтов близкой (или родственной) тематики очень сложно провести точную границу между ссылками для пользователей и ссылками для поисковиков. Многие вебмастера о втором типе ссылок и не задумываются.
  • Массированный автоматизированный линкообмен: «разместите 20 ссылок на другие сайты и 20 сайтов сошлются на вас». Обмен бывает как двусторонним (A<->B, A<->C), так и более сложным (A->B->C->A). Как правило, в автоматизированных системах вебмастер не знает заранее какие ссылки будут установлены.
  • Изготовление специальных сайтов-каталогов (или каталожных разделов на нормальных сайтах), основное назначение которых — размещение ссылок.
  • Платное размещение ссылок на обычных сайтах. В первую очередь на головных страницах («мордах») сайтов, но головных страниц на всех не хватает.
  • Да, еще есть «естественные ссылки», можно делать интересные материалы, на которые будут ссылаться.

Ссылочный спам или ссылочная реклама?

Вышеперечисленные явления получили название «ссылочного спама». В первую очередь этот термин употребляют представители поисковых машин, именно им он мешает жить, отсюда и негативная оценка (и ассоциации с почтовым спамом). На эту тему написано уже много негатива, но на взгляд автора есть и позитив:

  • С точки зрения поисковой машины, однозначно вреден только малобюджетный ссылочный спам и спам ради спама: создание огромного количества сайтов без оригинального контента с целью «перелинковки» (линкопомоек). Дорогие «ссылки с морд» хороши для поисковиков тем, что они дОроги:
    • часть клиентов SEO вытесняется в контекстную рекламу (как только она становится эффективнее продвижения в основной выдаче);
    • дороговизна ссылочного продвижения гарантирует, что по конкурентным запросам в выдаче не будет сайтов-пустышек.
  • С точки зрения владельцев сайтов, ссылки — это еще один вид рекламы, которая не так раздражает пользователей, как всплываюший flash и моргающие баннеры, но при этом приносит ощутимую копеечку, которая позволяет поддерживать и развивать многие проекты.
  • Рекламодатель, очевидно, тоже доволен, иначе не платил бы.
  • С точки зрения пользователей, ссылочная реклама является менее заметной (а значит и менее раздражающей), чем графические и, тем более, всплывающие рекламные блоки (есть и другое мнение: «┘ а кому они нахрен нужны, эти пользователи, когда речь о деньгах идет┘ »).

Торговля ссылками в Рунете

Торговля ссылками в Рунете началась с партнерской программы clx.ru по размещению ссылок «за сутки». Участники событий вспоминают, что это «где-то 2003-й год». Массовое появление «псевдосайтов-линкопомоек» датируется 2004-м годом. Поисковые системы (в первую очередь, Яндекс) с явлением начали бороться и исключать из индекса ссылочные кластеры таких сайтов, мотивируя это отсутствием какого-либо полезного и оригинального контента.

Следующим шагом стало размещение ссылок на головных страницах старых, крупных и заслуженных сайтов от anekdot.ru до Комсомольской правды. Мотивация простая: «этих не забанят».

Рынок «ссылок с морд» сложился в 2005-м году, к началу 2006-го у него уже были признаки зрелости: сформированный уровень цен, известный участникам, массовый спрос и не менее массовое предложение, появились торговые площадки (ссылочные биржи), сводящие продавцов и покупателей. Цены формируются исходя из индексов цитирования сайта (ТИЦ и PageRank), количества исходящих ссылок, даты регистрации сайта и так далее. Необходимо отметить, что для сайтов с высокими индексами цитирования (скажем, PageRank >=6) открытый рынок практически отсутствует, большинство сделок заключается напрямую, мимо ссылочных бирж.

Ссылки: классификация и определения

Ссылки кажутся очень простой конструкцией, однако и для них возможна довольно детальная классификация:

  • По сайту «назначения» (на который ведет ссылка) ссылки делятся на внутренние (указывают на тот же сайт, что и сайт на котором размещена ссылка) и внешние (ссылка на какой-либо еще сайт).
  • По типу текста ссылки могут быть разделены на:
    • текстовые
    • изображение-ссылка, в свою очередь они делятся на
      • ссылки с текстом в атрибуте ALT тега IMG
      • ссылки вообще без текста
  • Ссылки могут быть сделаны невидимыми (неиндексируемыми) для поисковой машины (но видимыми для пользователя) рядом способов:
    • тег <noindex> (для Яндекса)/атрибут rel=nofollow (для Google)
    • ссылки в Javascript-скриптах (и генерация HTML уже в пользовательском браузере)

Можно предполагать, что с ростом коммерциализации ссылок доля неиндексируемых ссылок должна значимо вырасти.

Родственные ссылки

Помимо приведенной выше общепринятой классификации, автору хочется добавить и собственное понятие родственной ссылки. Под родственными ссылками мы будем понимать три случая:

  1. С www или без. Сайт с префиксом www (URL головной страницы http://www.domain.ru), а ссылка ведет на тот же домен без префикса www (например, на http://domain.ru/somepage), либо полностью зеркальная ситуация. Такие формально внешние ссылки — это либо неаккуратность вебмастера, либо он о ссылочном ранжировании просто не задумывался. Назовем их родственными, типа 0.
  2. Ссылки по цепочке автоматических HTTP/HTML-редиректов. При обращении к URL http://www. domain.ru происходит одно или несколько автоматических перенаправлений пользователя на другую страницу. Ссылки с финальной страницы на сайт в предшествующей цепочке редиректов будем считать родственными (тип 1).
    Пример: при обращении к http://www.microsoft.ru происходит перенаправление пользователя на http://www.microsoft.com/rus/. Если бы на этой странице оказалась бы ссылка на http://www.microsoft.ru/somepage, она считалась бы родственной.
    Как и роботы поисковых систем, робот «черного квадрата» обрабатывает HTTP-редиректы и перенаправления через <META refresh>, но не обрабатывает редиректы в Javascript.
  3. Ссылки на сайт с похожим написанием. Ссылки со страницы http://www.domain.ru будем считать родственными (тип 2), если они ведут на domain.other.domain. Например, ссылки с http://www.apple.ru на www.apple.com.tw или на www.apple.com.

Родственность ссылок важна для целей дальнейшего исследования т.к. родственные ссылки являются естественными, а не «продажными».

Ссылочное ранжирование в Рунете: гипотезы

Всякое исследование данных нуждается в формулировке гипотез, которые затем будут проверяться. Сформулируем их:

  • За последнее время (скажем, год) количество внешних ссылок с главных страниц сайтов должно было вырасти (за счет проданных ссылок).
  • В наибольшей степени процесс должен был затронуть сайты с высокими показателями индексов цитирования (PR, ТИЦ): таких сайтов мало, их владельцам за ссылки предлагают вполне серьезные деньги.
  • Как только сайт начинает торговлю ссылками, он начинает подсчитывать исходящие внешние ссылки, ведь каждая бесплатная ссылка — это потеря денег. В то же время, ставить ссылки для пользователей — общепринятая вежливость. Как следствие, должна была вырасти доля ссылок, закрытых для индексации поисковиками (через <noindex> или через Javascript).
Эти гипотезы описывают "разумное" поведение вебмастера, продающего ссылки.

Исходные данные

В рамках проекта Черный Квадрат автор регулярно выкачивает первые страницы сайтов, расположенных в доменах второго уровня в .RU и .SU т.е. страницы с URL http://www.DOMAIN.ru (su) или http://DOMAIN.ru(su>).

При выкачке обрабатываются редиректы (HTTP-редиректы с кодом 3xx и <META REFRESH> в заголовке HTML-страницы). Последовательных редиректов может быть до трех. Javascript-редиректы не обрабатываются, робот Черного Квадрата ведет себя аналогично другим поисковым роботам. Редиректы встречены у более чем 10% сайтов, поэтому их учет и обработка — необходимы.

К сожалению, часть данных погибла при крахе жесткого диска в августе 2006 года, на руках у автора имеются результаты выкачки на март 2006, сентябрь 2006 и далее ежемесячно. Количество имеющихся выкачанных страниц отражено на графике, кружками показаны точки, для которых имеются данные:

Как видим, за год количество исследуемых сайтов выросло более чем на 60% (с 375 тысяч до 605).

Данные по индексам цитирования (Google PageRank и ТИЦ Яндекса) тоже доступны выборочно:

  • PageRank: сентябрь и декабрь 2006, февраль и март 2007 (т.к. PageRank пересчитывается раз в три месяца, этих данных достаточно)
  • ТИЦ : октябрь 2006, январь-март 2007 ежемесячно.

Преимущественно будут использоваться значения на март 2007 года, чтобы не усложнять конструкцию еще и историей индексов цитирования.

Выделение и классификация ссылок

Для каждого из сайтов мы имеем:

  1. Входную точку: URL с которого началась попытка выкачки головной страницы.
  2. URL-и цепочки автоматических редиректов, если были редиректы.
  3. Содержание страницы (HTTP-заголовки и HTML-код).
  4. Индексы цитирования (ТИЦ и PR) для каждой страницы (для страниц с редиректами PR определяется для начальной и конечной точек цепочки редиректов).

В соответствии с классификацией ссылок (см. выше), все ссылки делятся на:

  1. По сайту назначения:
    1. Внутренние — ведут на тот же сайт
    2. Родственные тип 0 — ведут на тот же сайт с точностью до префикса www.
    3. Родственные типов 1-2ведут на сайт с похожим доменным именем, либо на сайт в цепочке редиректов с исходной головной страницы.
    4. Внешние — ведут на какой-то еще сайт.
  2. По типу текста:
    1. Текстовые — содержат текст между <a>..</a>
    2. Подпись к картинке — содержат текст только в атрибуте ALT в конструкции <a><img></a>
    3. Без текста — нет ни текста, ни атрибута ALT.
  3. По возможности индексации
    1. Индексируемые ссылки
    2. Неиндексируемые — либо внутри <noindex>, либо внутри <script>
  4. По типу ссылки
    1. На WWW-страницы (http:// и https://)
    2. Прочие ссылки (mailto, ftp и т.п.).

Среди всех 48-ми вариантов нас более всего интересуют Внешние-Текстовые-Индексируемые, ибо это основной вид продаваемых ссылок.

Степень разнообразия внешних ссылок

Введем понятие степени разнообразия внешних ссылок как отношение количества разных сайтов на которые ведут ссылки к количеству внешних ссылок. Достаточно очевидно, что для платных ссылок степень разнообразия будет велика, ведь покупатели независимы, а сайты у них разные. Наоборот, для проектов поддержки какой-либо партнерской программы степень разнообразия будет мала — все ссылки ведут на разные разделы поддерживаемого сайта.

Ссылки с главных страниц: тенденции за 12 месяцев

Построим графики среднего количества ссылок различных типов по всем доступным нам данным:

Как видим, для полной выборки ни одна из гипотез не подтвердилась, скорее наоборот:

  • Среднее количество закрытых от индексирования внешних ссылок практически не меняется.
  • Количество внешних ссылок (всех) и текстовых внешних ссылок ведет себя сложно: количество внешних текстовых ссылок выросло с марта по октябрь вдвое (с 6.5 до 12) , затем упало к февралю втрое (до 4.5), потом слегка выросло. При этом количество ссылок «с картинкой» меняется очень слабо. Этот феномен изучен ниже.
  • Количество нетекстовых внешних ссылок (разница между всеми и текстовыми, на графике не показана) практически не меняется: два сложных графика практически параллельны.
  • Интересно, что вдвое выросло количество родственных ссылок типа 0 (c site.ru на www.site.ru или наоборот). По всей видимости, средний вебмастер эти написания отличает все меньше.
  • Количество внутренних ссылок на главных страницах меняется слабо, среднее количество остальных типов ссылок на странице и вовсе можно считать константой.

Распределение по количеству внешних ссылок

Совершенно очевиден и не нуждается в проверке тот факт, что прирост среднего количества внешних ссылок к октябрю произошел за счет сайтов, на которых этих ссылок много. В то же время, интересно что это за сайты.

Отклассифицируем все головные страницы по количеству исходящих ссылок по логарифмической шкале (1-2,3-5,6-10,11-20,21-50 и так далее) и построим гистограмму в долях (чтобы сравнивать распределения для разного количества сайтов):

Как мы видим, до половины сайтов исходящих ссылок вовсе не имеет, а общее распределение от месяца к месяцу меняется слабо, с тремя исключениями:

  • В марте 2007 г. доля сайтов с 1-2 исходящими ссылками несколько выше, чем весь предыдущий год.
  • В марте 2006 г. доля сайтов с 501-1000 исходящими ссылками резко выше чем в остальные месяцы (на графике видно плохо, но даже минимального пика в этом месте быть не должно).
  • В октябре 2006 г. доля сайтов с 101-200 ссылками многократно выше чем должна бы быть.

Если смотреть не на долю сайтов, а на долю в общем числе ссылок (когда сайт с 100 ссылками вносит в 100 раз больший вклад, чем сайт с одной ссылкой), то отмеченные выше особенности видны гораздо лучше:

Как мы видим, полуторакратный прирост общего количества ссылок «с морд» в октябре 2006 года произошел за счет главных страниц с 101-200 исходящими ссылками (таких сайтов на на октябрь-2006 насчитывалось 32.5 тысячи). Нельзя не отметить и «феномен марта-2006», когда большой вклад в ссылочную базу Рунета (почти 25%) обеспечивали около 1000 сайтов с 501-1000 исходящими ссылками.

При внимательном рассмотрении, впрочем, «октябрьский феномен» находит очень простое объяснение:

  • В результате более детальной классификации по количеству ссылок, выяснилось что 95% страниц в этой группе имеют от 106 до 111 исходящих ссылок, а 85% страниц — ровно 108 исходящих ссылок.
  • Подавляющее сайтов со 106-111 исходящими ссылками — это ссылки на www.poishi.com (аналог Рупоиска и Блокнотика).

Таким образом, речь идет всего лишь о сборе дорвейного трафика (втч. с доменов, зарезервированных под продажу) и трех миллионах (!) ссылок на соответствующие страницы. По всей видимости, эта халява в октябре прекратилась, после чего обсуждаемые ~30 тысяч сайтов переориентировались на другой бизнес.

«Мартовский феномен» — это перелинковка сети из ~тысячи «зарезервированных» сайтов между собой с целью поднятия общих показателей цитирования. Оригинальность исполнения невелика: 970 сайтов с 552-553 ссылками на каждом, слова ссылки соответствуют имени домена, внешний вид сайтов одинаков.

Степень разнообразия ссылок

Подсчитаем степень разнообразия внешних ссылок для марта 2006 года и февраля 2007.

Мы видим следующие интересные эффекты:
  • Для сайтов с числом ссылок с главной страницы более 100 типичная небольшая степень разнообразия (<0.1), причем за год эта тенденция усилилась. Как и указано выше, при определении «степени разнообразия», эти сайты преимущественно работают на какие-либо дорвейные партнерки. Количество «линкопомоек» (т.е. огромного числа ссылок на разные сайты) за год упало практически до нуля.
  • Для сайтов с числом ссылок 51-100 доля специализированных (со ссылками на малое число доменов) сайтов снизилась с >70% до 50%. Оставшиеся 20% распределены по классам относительно равномерно.
  • Для сайтов с количеством ссылок с главной страницы от 6 до 20 характерно увеличение степени разнообразия ссылок. По всей видимости, это и есть линкоторговцы. В меньшей степени это относится к сайтам с числом ссылок от 21 до 50, доля которых среди сайтов со степенью разнообразия от 0.6 и выше выросла за год с 9 до 15%.
  • Обсуждать сайты с малым числом не так интересно, для них распределение степени разнообразия очень дискретно, за год оно изменилось мало.

Необходимо отметить, что на этой стадии исследования мы делили сайты на группы на момент исследования. Т.е. если сайт вдруг начал торговлю ссылками и количество ссылок на нем изменилось, то он переместился из одной группы в другую, но данный факт мы никак не зафиксировали. Взгляд на сайты с привязкой к сайтам у нас будет ниже.

Интересной кажется еще гипотеза о зависимости степени разнообразия ссылок от индексов цитируемости предположительно сайты с высоким PR более подвержены линкоторговле, а следовательно разнообразие у них должно быть выше. Однако исследование этой зависимости не выявило практически ничего интересного, все маскируется разницей в количестве исходящих ссылок. Для всех значений PR картина очень близкая: 50-60% сайтов имеют разнообразее большее 0.9, остальные 40-50% распределены по шкале разнообразия более-менее равномерно. Затевать многомерное исследование (PR-ТИЦ-число ссылок <=> разнообразие) автор не стал.

Промежуточные выводы

На основании изучения полного множества сайтов, можно сформулировать следующие выводы

  • Линкоторговля вовсе не так распространена, как это кажется при взгляде из SEO-сообщества. Ссылки с большим разнообразием (т.е.«подозрительные на продажность») размещают не более десяти процентов сайтов.
  • Подавляющее количество сайтов с большим количеством (50 и более) внешних ссылок на главной странице — это сайты поддержки партнерских программ. Таких сайтов — единицы процентов, но они обеспечивают десятки процентов ссылочной базы.

Для получения более интересных данных следует разбить сайты на группы с учетом их истории.

Старые сайты

Для дальнейшего исследования сделаем выборку «старых и заслуженных» сайтов: тех, по которым есть данные для всех 8 временных точек исследования. Эти сайты существовали на март 2006 г. и с тех пор ни разу не пропадали, всего их 258 тысяч. На графике показана динамика среднего количества внешних текстовых ссылок для этой выборки (все сайты и отобранные по PR/ТИЦ).

По графику можно сделать несколько интересных наблюдений:

  • Октябрьский дорвейный феномен прекрасно виден и на выборке «старых сайтов».
  • Чем выше индексы цитирования, тем больше количество исходящих ссылок с головной страницы.
  • Среднее число исходящих ссылок за год увеличилось примерно в 1.5 раза.

Другими словами, первые две наши гипотезы для данной выборки сайтов подтверждаются, старые сайты явно занимаются торговлей ссылками, причем чем выше индексы цитирования, тем больше.

Подозреваются в продажности

Исходя частью из опыта работы рядом с SEO, частью из описанных выше наблюдений, сформулируем достаточно широкие критерии, позволяющие подозревать сайт в «неестественности» ссылок:

  1. Количество исходящих текстовых ссылок от 6 до 50.
  2. Коэффициент разнообразия более 0.7 ( напоминаю, описанный выше коэффициент разнообразия это отношение количества сайтов на которые ведут внешние ссылки к количеству этих ссылок).
  3. Ненулевые индексы цитирования: PR > 0, ТИЦ >=10.

Отберем теперь из списка «старых» сайтов те, которые удовлетворяют данным критериям по состоянию на март 2007 года. Таких сайтов всего 20 тысяч, тогда как просто сайтов с ненулевыми индексами цитирования в 7.5 раз больше. Другими словами, линкоторговля — не массовое явление.

Заметим, что снижение порога по коэффициенту разнообразия до 0.5 увеличивает количество отбираемых сайтов до 26 тысяч, при пороге 0.3 их отбирается 29 тысяч. При таком изменении коэффициентов зависимость среднего числа ссылок от времени меняется очень слабо. Сама же закономерность изображена на графике:

Как видно из графика, гипотеза о росте среднего числа ссылок для рассматриваемой группы сайтов полностью подтверждается: количество ссылок растет, в наибольшей степени это проявляется для сайтов с относительно высокими индексами цитирования (разумеется, «октябрьские дорвеи» нужно из графика вычесть).

Осталось проверить гипотезу о распространенности закрытия от индексации для той же группы сайтов. На графике отображена доля сайтов, где есть тег <noindex> на одной или более исходящих ссылках:

Как видим, среди сайтов «подозреваемых в продажности» доля использующих <noindex> за год увеличилась практически вдвое.

Новые сайты

Среди невошедших в рассмотренную выше группу «старых» сайтов можно выделить две подгруппы:

  • Сайты, которые существовали на март-2006, но затем не попали в одно или несколько исследований. Таких сайтов около 115 тысяч, рассматривать их неинтересно.
  • Сайты, которые появились позже марта-2006. Отберем среди них те, которые существовали на октябрь-2006 и потом не пропадали из исследования. Всего таких сайтов 141 тысяча.

Для этих новых сайтов динамика изменения среднего количества ссылок выглядит очень похоже на соответствующий участок кривой для старых сайтов, динамика практически отсутствует, средние значения очень близки значениям для соответствующей группы из старых сайтов:

Некоторое разнообразие вносят сайты с высокими индексами цитирования, среднее число ссылок с которых падает. Но падение невелико, а количество новых сайтов с высокой цитируемостью тоже небольшое (1% от всех для заданных ограничений), а на маленькой выборке бывает всякое.

Новые сайты не участвуют в «октябрьском пике», но они и отобраны так, что в октябре только начали существовать.

Новые но продажные

Отберем теперь сайты с предположительно продажными ссылками по тем же критериями, по которым делали это для выборки старых сайтов. Всего таких сайтов около 8.5 тысяч. Как видно на графике ниже, среднее количество ссылок ведет себя аналогично «старым» сайтам: достаточно быстро растет (с поправкой на отсутствие октябрьского пика).

Доля сайтов с <noindex> среди новых сайтов тоже растет, но не достигает 22% как на «старых» сайтах:

Объем рынка

Какой-либо общепризнанной формулы цены для ссылок на рынке не существует, слишком уж много плохофомализуемых факторов влияет на цену (от количества и качества ссылок на страницу и возраста сайта до склонности вебмастера к торговле).

В то же время, существуют эмпирические формулы, построенные на результатах анализа цен в ссылочных биржах. Мы будем использовать формулу Александра Кириллина. Согласно этой формуле цена ссылки складывается из:

  • вклада PageRank (экспоненциальная зависимость)
  • вклада ТИЦ (линейный для больших ТИЦ и логарифмический для малых)
  • числа ссылок на странице (обратный логарифм если ссылок много, константа если ссылок мало).

Интересующиеся деталями могут посетить сайт на котором представлена реализация данной формулы, выполненная Николаем Яровым.

Сначала оценим рынок по состоянию на март 2007 года.

Оценка сверху: представим что все ссылки на всех главных страницах всех рассматриваемых сайтов проданы. Оценка месячного оборота в этом случае 11.6 миллионов долларов.

Любопытно посмотреть вклад в общую сумму от сайтов с разным PageRank:

PageRankСайтовСсылокСуммарная цена
всех ссылок
тыс. $
0 299 947 1 332 131 397
1 69 164 260 728 332
2 87 074 383 690 1 047
3 82 431 468 284 2 439
4 41 176 291 783 2 776
5 13 407 111 843 1 945
6 5 645 44 930 1 649
7 1927 14145 952
8 71 999 105
Итого 600 842 2 908 533 11 643

Как мы видим, основной вклад в потенциальный (напоминаю еще раз — это грубая оценка сверху) ссылочный оборот дают сайты с PageRank от 2 до 6. Сайтов с большими индексами цитирования мало, а ссылки на сайтах с меньшим PR слишком дешево стоят, хотя и составляют порядка половины всех ссылок с главных страниц.

Следующая оценка будет для сайтов, удовлетворяющих следующим условиям:

  • ТИЦ больше нуля
  • PageRank больше 1
  • Количество ссылок на странице от 5 до 50 включительно

Этим ограничениям удовлетворяют в 14 раз меньше сайтов, в 5 раз меньше ссылок (половина сайтов вовсе не имеет внешних ссылок), оценка бюджета получается в 2.4 раза меньше: 4.8 млн. долларов в месяц:

PageRankСайтовСсылокСуммарная цена
всех ссылок
тыс. $
2 13 008 161 355 503
3 16 452 211 195 1 211
4 9 992 137 080 1 445
5 3 211 48 305 919
6 888 12 885 560
7 167 1 656 122
8 9 140 59
Итого: 43 727 572 616 4 819

 

Включим в ограничения еще и степень разнообразия ссылок, ведь многочисленные ссылки на один и тот же сайт не являются признаком линкоторговли, это скорее признак партнерской программы.

В следующей таблице приведена оценка стоимости для сайтов, отобранных с ограничениями по числу ссылок и индексам цитирования (см.выше) и степень разнообразия ссылок на которых не менее 0.7:

PageRankСайтовСсылокСуммарная цена
всех ссылок
тыс. $
2 8 215 92 907 309
3 10 252 121 700 735
4 6 251 79 970 871
5 1 913 27 866 541
6 418 7 031 263
7 139 1 053 85
8 6 66 12
Итого: 27 194 330 593 2 816

Получающаяся оценка объема рынка — 2.8 млн. долларов в месяц или 33 млн. в год кажется достаточно разумной. С одной стороны, это все еще оценка сверху, далеко не все ссылки на отобранных нами сайтах — продажные, есть и линкообмен и естественные ссылки и спонсорские и раскрутка собственных проектов вебмастера. С другой стороны, кроме рынка главных страниц есть еще рынок «вторых страниц», оценить который мы сейчас не можем.

По той же методике мы можем оценить оборот рынка ссылок на предшествующие периоды:

  • 1.3 млн. долларов в месяц на март 2006 г.
  • 2.1 млн. долларов в месяц на сентябрь 2006 г.
  • 2.2 млн. на октябрь 2006 г.
  • 2.5 млн. на январь 2007 года.

Цифры вполне консистентные, оценка роста более двух раз за год вполне типична для SEO. Заметим, что «октябрьский дорвейный пик» на объеме рынка никак не сказался т.к. основная масса сайтов-дорвеев имела очень низкие индексы цитирования.

Заключение

  1. В начале статьи были выдвинуты гипотезы, которые следуют из «разумного поведения» продавца ссылок:
    • среднее количество ссылок с главных страниц должно расти;
    • этот рост должен затронуть, в первую очередь, сайты с высокими индексами цитирования;
    • распространенность методов частичного закрытия индексации (<noindex> и т.п.) должна возрастать.

    Эти гипотезы для полного набора сайтов не подтвердились. За исключением «дорвейного феномена» (см. ниже), все средние показатели по сайтам рунета очень устойчивы во времени.

    Если отобрать только «старые сайты» (существовавших на март 2006 г.), то гипотеза о росте количества ссылок подтверждается, но величина роста несущественна.

    Таким образом, для Рунета в целом мы не наблюдаем массовой торговли ссылками.

  2. В то же время, для небольшого количества сайтов, отобранных по поведению «похожему на линкоторговлю», которых всего менее 30 тысяч (5% от всей совокупности сайтов) эти гипотезы подтверждаются в полной мере: количество ссылок растет, использование <noindex> растет. Заметим, что гипотезы описывают естественное поведение продавцов ссылок, направленное на максимизацию прибыли.

    Таким образом, можно предполагать, что активной торговлей ссылками занимается относительно небольшое количество сайтов, порядка 5% от общего их количества.

  3. Оценен месячный оборот рынка ссылок с главных страниц в Рунете, который увеличился с 1.3 млн. долларов в месяц в марте 2006 года до 2.8 млн. в месяц в марте 2007. К этим цифрам нужно относиться исключительно как к оценке сверху, сделанной, впрочем, из разумных предположений.
  4. Отмечен, изучен и описан дорвейный феномен октября 2006 года, когда почти 60% ссылок с главных страниц обеспечивали 32 тысячи сайтов — партнеров poishi.com. По всей видимости, к октябрю Яндекс научился успешно бороться с такими сайтами и явление быстро сошло на нет.

Благодарности

Автор благодарит Андрея Иванова за конструктивное и благожелательное обсуждение первых версий данного текста.

Дискуссия

Прокомментировать, высказать свое мнение, отругать или похвалить автора можно в в комментариях в авторском блоге.
Indexed: Ap:2010-11-01 20:49 |  G:2024-01-04 07:11 |  MSN:2011-07-23 00:04 |  R:2011-06-16 01:14 |  Yah:2018-06-11 07:45 |  Я:2013-08-30 06:15