История Рунета в квадратах | Черный квадрат | Аналитика | О проекте |
Ссылочное ранжирование в РунетеОглавление
Краткое содержаниеВ рамках проекта Черный Квадрат у автора накопилось порядка 150 гигабайт копий главных страниц сайтов Рунета на различные моменты времени, начиная с марта 2006 года и кончая мартом 2007-го. Из этих данных можно извлечь много интересного, темой данной статьи являются ссылки с главных страниц сайтов и связанные с этим вопросы. Такие ссылки активно используются как инструмент продвижения в поисковых системах, этот рынок активно растет и развивается. В рамках статьи обсуждены следующие вопросы:
Кроме того, обнаружен, изучен и описан всплеск распространенности «дорвейных» сайтов в октябре 2006 года. Тема ссылок с главных страниц оказалась намного богаче, чем казалось автору вначале. Нерассмотренными остались наиболее часто встречающиеся текстов ссылок, сайты на которые указывают ссылки и ряд других вопросов. Они будут постепенно рассмотрены в следующих статьях:
Краткий словарик специалиста по продвижению сайтовВокруг бизнеса по продвижению сайтов в поисковых системах (SEO — Search Engine Optimization) сложилось довольно большое профессиональное сообщество со своим слэнгом и специфическими выражениями. В тексте статьи эти выражения вынужденно используются, без них текст был бы длиннее и тяжеловеснее. Следовательно, в начале текста нужно дать словарик используемых слов и понятий:
Ссылки: для пользователей или для поисковиков?ПредысторияСсылки — это основа WWW: идея о том, что любой документ может ссылаться на любой предопределила успех World Wide Web. Авторы документов охотно ссылались друг на друга, облегчая пользователям поиск документов и сайтов близкой тематики. На заре интернета ставить ссылку было вежливо и бесплатно (для ставящего ссылки). Появление поисковых машин сначала не изменило картины: ссылки ставились «для пользователей», на «хорошие сайты» ссылались много, на «плохие» (или никому не известные) — мало. Появившиеся в 90-е годы каталоги ссылок разных видов, от Yahoo до Top100, тоже предназначались для конечных пользователей. За последние десять лет пейзаж полностью изменился: сайты стали инструментом бизнеса, бизнес зависит от трафика, а наиболее значимыми распределителями трафика стали поисковики. Ссылки же стали товаром, который продается и покупается. Разберемся сначала в причинах. Трафик из поисковых машинПо статистике liveinternet.ru, среднесуточное количество просмотров страниц российской аудиторией составляло в феврале 2007 года почти 33 млн. просмотров. При этом, пользователи совершали более 12 млн. переходов с поисковых машин в день. Конечно, статистика Liveinternet смещенная (в сторону сайтов, владельцы которых поставили счетчик), но общей картины это не меняет: основным источником трафика для сайтов Рунета являются поисковые машины. Даже если реальная доля поисковиков несколько ниже трети, общей картины это не меняет. Более того, считается что до 80% новых пользователей приходят из поиска. В то же время, сайты часто являются инструментом зарабатывания денег (на рекламе, на продажах рекламируемых товаров и услуг), а коммерческий успех напрямую зависит от посещаемости целевой аудиторией. Общеизвестно, что по любому коммерчески-интересному запросу все сливки поискового трафика собирают те сайты, которые представлены на первой странице результатов поиска по этому запросу в основных поисковиках. Вышесказанное определяет крайнюю заинтересованность сайтовладельцев в хороших позициях в выдаче поисковой машины. Ранжирование выдачи поисковиковПрежде чем двигаться дальше, нужно очень кратко рассмотреть работу поисковой машины на этапе обработки пользовательского запроса: получив от посетителя поисковый запрос (набор слов), поисковая система должна найти все соответствующие запросу документы (т.е. содержащие запрошенные слова) отранжировать их (т.е. отсортировать по степени важности с точки зрения поисковика) и предъявить пользователю первую страницу результатов. Не вдаваясь глубоко в процедуру ранжирования, перечислим факторы, которые в теории могут влиять на позиции страницы в поисковых результатах:
Факторы ранжирования перечислены в порядке легкости их изменения владельцем сайта: переделать структуру сайта и переписать все тексты можно самостоятельно (и это относительно дешево), внешние ссылки требуют активности от других вебмастеров (что дороже), увеличение непоискового трафика — это покупка аудитории (рекламой), что еще дороже. С учетом легкости манипуляции, основной вес в ранжировании на сегодня имеют внешние (т.е. ссылочные) факторы:
Как следствие, наиболее надежный способ влияния на выдачу поисковых машин — это расширение ссылочной базы сайта. Основная идея, лежащая в основе ссылочного ранжирования на сегодня — это Google PageRank (PR). PR определяется как вероятность посетить данную страницу при случайном блуждании по ссылкам. Не вдаваясь в подробности, основная идея выглядит так:
Удобство PageRank заключается в том, что он относительно легко и быстро рассчитывается (по матрице ссылок интернета). Поисковые машины стараются учитывать и близость тематик донора и реципиента (страниц откуда и куда ссылка), в настоящее время крупные поисковики ведут работы по автоматическому определению естественности ссылки. Манипуляция поисковой выдачей: шуткиДовольно большую прессу получили разнообразные шутки, прежде всего с Google. Наибольшую известность получила история с «жалким неудачником» в Google, когда по запросу miserable failure на первом месте выдавалась биография Джорджа Буша. Эту конкретную проблему Google полечил, но запрос про «французские военные победы» на первом месте до сих пор выдают ссылку на список военных поражений. Подобные истории происходили и происходят и в Рунете (в частности, в выдаче Яндекса по запросу «геморрой за деньги» на третьем месте стоит сайт Microsoft Russia), за время написания статьи MS переполз со второго места на третье. Все подобные шутки устроены одинаково: большое количество вебмастеров (в рамках флэш-моба) ставит ссылки с нужным текстом на нужный сайт. Для «продвижения» Microsoft по вышеупомянутому запросу понадобилось менее трех десятков ссылок. Манипуляция поисковой выдачей: «бабки»Влиять на выдачу поисковых машин интересно не только ради шутки, но и ради целевого трафика (другими словами, ради денег). Оставляя в стороне проблему низкоконкурентных запросов и дорвеев, рассмотрим вкратце методы, используемые для продвижения «нормальных сайтов» по сколько-нибудь конкурентным запросам:
Ссылочный спам или ссылочная реклама?Вышеперечисленные явления получили название «ссылочного спама». В первую очередь этот термин употребляют представители поисковых машин, именно им он мешает жить, отсюда и негативная оценка (и ассоциации с почтовым спамом). На эту тему написано уже много негатива, но на взгляд автора есть и позитив:
Торговля ссылками в РунетеТорговля ссылками в Рунете началась с партнерской программы clx.ru по размещению ссылок «за сутки». Участники событий вспоминают, что это «где-то 2003-й год». Массовое появление «псевдосайтов-линкопомоек» датируется 2004-м годом. Поисковые системы (в первую очередь, Яндекс) с явлением начали бороться и исключать из индекса ссылочные кластеры таких сайтов, мотивируя это отсутствием какого-либо полезного и оригинального контента. Следующим шагом стало размещение ссылок на головных страницах старых, крупных и заслуженных сайтов от anekdot.ru до Комсомольской правды. Мотивация простая: «этих не забанят». Рынок «ссылок с морд» сложился в 2005-м году, к началу 2006-го у него уже были признаки зрелости: сформированный уровень цен, известный участникам, массовый спрос и не менее массовое предложение, появились торговые площадки (ссылочные биржи), сводящие продавцов и покупателей. Цены формируются исходя из индексов цитирования сайта (ТИЦ и PageRank), количества исходящих ссылок, даты регистрации сайта и так далее. Необходимо отметить, что для сайтов с высокими индексами цитирования (скажем, PageRank >=6) открытый рынок практически отсутствует, большинство сделок заключается напрямую, мимо ссылочных бирж. Ссылки: классификация и определенияСсылки кажутся очень простой конструкцией, однако и для них возможна довольно детальная классификация:
Можно предполагать, что с ростом коммерциализации ссылок доля неиндексируемых ссылок должна значимо вырасти. Родственные ссылкиПомимо приведенной выше общепринятой классификации, автору хочется добавить и собственное понятие родственной ссылки. Под родственными ссылками мы будем понимать три случая:
Родственность ссылок важна для целей дальнейшего исследования т.к. родственные ссылки являются естественными, а не «продажными». Ссылочное ранжирование в Рунете: гипотезыВсякое исследование данных нуждается в формулировке гипотез, которые затем будут проверяться. Сформулируем их:
Исходные данныеВ рамках проекта Черный Квадрат автор регулярно выкачивает первые страницы сайтов, расположенных в доменах второго уровня в .RU и .SU т.е. страницы с URL http://www.DOMAIN.ru (su) или http://DOMAIN.ru(su>). При выкачке обрабатываются редиректы (HTTP-редиректы с кодом 3xx и <META REFRESH> в заголовке HTML-страницы). Последовательных редиректов может быть до трех. Javascript-редиректы не обрабатываются, робот Черного Квадрата ведет себя аналогично другим поисковым роботам. Редиректы встречены у более чем 10% сайтов, поэтому их учет и обработка — необходимы. К сожалению, часть данных погибла при крахе жесткого диска в августе 2006 года, на руках у автора имеются результаты выкачки на март 2006, сентябрь 2006 и далее ежемесячно. Количество имеющихся выкачанных страниц отражено на графике, кружками показаны точки, для которых имеются данные: Как видим, за год количество исследуемых сайтов выросло более чем на 60% (с 375 тысяч до 605). Данные по индексам цитирования (Google PageRank и ТИЦ Яндекса) тоже доступны выборочно:
Преимущественно будут использоваться значения на март 2007 года, чтобы не усложнять конструкцию еще и историей индексов цитирования. Выделение и классификация ссылокДля каждого из сайтов мы имеем:
В соответствии с классификацией ссылок (см. выше), все ссылки делятся на:
Среди всех 48-ми вариантов нас более всего интересуют Внешние-Текстовые-Индексируемые, ибо это основной вид продаваемых ссылок. Степень разнообразия внешних ссылокВведем понятие степени разнообразия внешних ссылок как отношение количества разных сайтов на которые ведут ссылки к количеству внешних ссылок. Достаточно очевидно, что для платных ссылок степень разнообразия будет велика, ведь покупатели независимы, а сайты у них разные. Наоборот, для проектов поддержки какой-либо партнерской программы степень разнообразия будет мала — все ссылки ведут на разные разделы поддерживаемого сайта. Ссылки с главных страниц: тенденции за 12 месяцевПостроим графики среднего количества ссылок
различных типов по всем доступным нам данным: Как видим, для полной выборки ни одна из гипотез не подтвердилась, скорее наоборот:
Распределение по количеству внешних ссылокСовершенно очевиден и не нуждается в проверке тот факт, что прирост среднего количества внешних ссылок к октябрю произошел за счет сайтов, на которых этих ссылок много. В то же время, интересно что это за сайты. Отклассифицируем все головные страницы по
количеству исходящих ссылок по логарифмической шкале (1-2,3-5,6-10,11-20,21-50
и так далее) и построим гистограмму в долях (чтобы сравнивать распределения
для разного количества сайтов): Как мы видим, до половины сайтов исходящих ссылок вовсе не имеет, а общее распределение от месяца к месяцу меняется слабо, с тремя исключениями:
Если смотреть не на долю сайтов, а на долю в
общем числе ссылок (когда сайт с 100 ссылками вносит в 100 раз больший вклад,
чем сайт с одной ссылкой), то отмеченные выше особенности видны гораздо лучше:
Как мы видим, полуторакратный прирост общего количества ссылок «с морд» в октябре 2006 года произошел за счет главных страниц с 101-200 исходящими ссылками (таких сайтов на на октябрь-2006 насчитывалось 32.5 тысячи). Нельзя не отметить и «феномен марта-2006», когда большой вклад в ссылочную базу Рунета (почти 25%) обеспечивали около 1000 сайтов с 501-1000 исходящими ссылками. При внимательном рассмотрении, впрочем, «октябрьский феномен» находит очень простое объяснение:
Таким образом, речь идет всего лишь о сборе дорвейного трафика (втч. с доменов, зарезервированных под продажу) и трех миллионах (!) ссылок на соответствующие страницы. По всей видимости, эта халява в октябре прекратилась, после чего обсуждаемые ~30 тысяч сайтов переориентировались на другой бизнес. «Мартовский феномен» — это перелинковка сети из ~тысячи «зарезервированных» сайтов между собой с целью поднятия общих показателей цитирования. Оригинальность исполнения невелика: 970 сайтов с 552-553 ссылками на каждом, слова ссылки соответствуют имени домена, внешний вид сайтов одинаков. Степень разнообразия ссылокПодсчитаем степень разнообразия внешних ссылок
для марта 2006 года и февраля 2007.
Необходимо отметить, что на этой стадии исследования мы делили сайты на группы на момент исследования. Т.е. если сайт вдруг начал торговлю ссылками и количество ссылок на нем изменилось, то он переместился из одной группы в другую, но данный факт мы никак не зафиксировали. Взгляд на сайты с привязкой к сайтам у нас будет ниже. Интересной кажется еще гипотеза о зависимости степени разнообразия ссылок от индексов цитируемости предположительно сайты с высоким PR более подвержены линкоторговле, а следовательно разнообразие у них должно быть выше. Однако исследование этой зависимости не выявило практически ничего интересного, все маскируется разницей в количестве исходящих ссылок. Для всех значений PR картина очень близкая: 50-60% сайтов имеют разнообразее большее 0.9, остальные 40-50% распределены по шкале разнообразия более-менее равномерно. Затевать многомерное исследование (PR-ТИЦ-число ссылок <=> разнообразие) автор не стал. Промежуточные выводыНа основании изучения полного множества сайтов, можно сформулировать следующие выводы
Для получения более интересных данных следует разбить сайты на группы с учетом их истории. Старые сайтыДля дальнейшего исследования сделаем выборку
«старых и заслуженных» сайтов: тех, по которым есть данные для
всех 8 временных точек исследования. Эти сайты существовали на
март 2006 г. и с тех пор ни разу не пропадали, всего их 258 тысяч. На графике
показана динамика среднего количества внешних текстовых ссылок для этой выборки
(все сайты и отобранные по PR/ТИЦ). По графику можно сделать несколько интересных наблюдений:
Другими словами, первые две наши гипотезы для данной выборки сайтов подтверждаются, старые сайты явно занимаются торговлей ссылками, причем чем выше индексы цитирования, тем больше. Подозреваются в продажностиИсходя частью из опыта работы рядом с SEO, частью из описанных выше наблюдений, сформулируем достаточно широкие критерии, позволяющие подозревать сайт в «неестественности» ссылок:
Отберем теперь из списка «старых» сайтов те, которые удовлетворяют данным критериям по состоянию на март 2007 года. Таких сайтов всего 20 тысяч, тогда как просто сайтов с ненулевыми индексами цитирования в 7.5 раз больше. Другими словами, линкоторговля — не массовое явление. Заметим, что снижение порога по коэффициенту разнообразия до
0.5 увеличивает количество отбираемых сайтов до 26 тысяч, при пороге 0.3 их отбирается 29 тысяч. При таком изменении
коэффициентов зависимость среднего числа ссылок от времени меняется очень
слабо. Сама же закономерность изображена на графике: Как видно из графика, гипотеза о росте среднего числа ссылок для рассматриваемой группы сайтов полностью подтверждается: количество ссылок растет, в наибольшей степени это проявляется для сайтов с относительно высокими индексами цитирования (разумеется, «октябрьские дорвеи» нужно из графика вычесть). Осталось проверить гипотезу о
распространенности закрытия от индексации для той же группы сайтов. На графике
отображена доля сайтов, где есть тег <noindex> на одной или более
исходящих ссылках: Как видим, среди сайтов «подозреваемых в продажности» доля использующих <noindex> за год увеличилась практически вдвое. Новые сайтыСреди невошедших в рассмотренную выше группу «старых» сайтов можно выделить две подгруппы:
Для этих новых сайтов динамика изменения
среднего количества ссылок выглядит очень похоже на соответствующий участок
кривой для старых сайтов, динамика практически отсутствует, средние значения
очень близки значениям для соответствующей группы из старых сайтов: Некоторое разнообразие вносят сайты с высокими индексами цитирования, среднее число ссылок с которых падает. Но падение невелико, а количество новых сайтов с высокой цитируемостью тоже небольшое (1% от всех для заданных ограничений), а на маленькой выборке бывает всякое. Новые сайты не участвуют в «октябрьском пике», но они и отобраны так, что в октябре только начали существовать. Новые но продажныеОтберем теперь сайты с предположительно
продажными ссылками по тем же критериями, по которым делали это для выборки
старых сайтов. Всего таких сайтов около 8.5 тысяч. Как видно на графике ниже,
среднее количество ссылок ведет себя аналогично «старым» сайтам:
достаточно быстро растет (с поправкой на отсутствие октябрьского пика). Доля сайтов с <noindex> среди новых сайтов тоже
растет, но не достигает 22% как на «старых» сайтах:
Объем рынкаКакой-либо общепризнанной формулы цены для ссылок на рынке не существует, слишком уж много плохофомализуемых факторов влияет на цену (от количества и качества ссылок на страницу и возраста сайта до склонности вебмастера к торговле). В то же время, существуют эмпирические формулы, построенные на результатах анализа цен в ссылочных биржах. Мы будем использовать формулу Александра Кириллина. Согласно этой формуле цена ссылки складывается из:
Интересующиеся деталями могут посетить сайт на котором представлена реализация данной формулы, выполненная Николаем Яровым. Сначала оценим рынок по состоянию на март 2007 года. Оценка сверху: представим что все ссылки на всех главных страницах всех рассматриваемых сайтов проданы. Оценка месячного оборота в этом случае 11.6 миллионов долларов. Любопытно посмотреть вклад в общую сумму от сайтов с разным PageRank:
Как мы видим, основной вклад в потенциальный (напоминаю еще раз — это грубая оценка сверху) ссылочный оборот дают сайты с PageRank от 2 до 6. Сайтов с большими индексами цитирования мало, а ссылки на сайтах с меньшим PR слишком дешево стоят, хотя и составляют порядка половины всех ссылок с главных страниц. Следующая оценка будет для сайтов, удовлетворяющих следующим условиям:
Этим ограничениям удовлетворяют в 14 раз меньше сайтов, в 5 раз меньше ссылок (половина сайтов вовсе не имеет внешних ссылок), оценка бюджета получается в 2.4 раза меньше: 4.8 млн. долларов в месяц:
Включим в ограничения еще и степень разнообразия ссылок, ведь многочисленные ссылки на один и тот же сайт не являются признаком линкоторговли, это скорее признак партнерской программы. В следующей таблице приведена оценка стоимости для сайтов, отобранных с ограничениями по числу ссылок и индексам цитирования (см.выше) и степень разнообразия ссылок на которых не менее 0.7:
Получающаяся оценка объема рынка — 2.8 млн. долларов в месяц или 33 млн. в год кажется достаточно разумной. С одной стороны, это все еще оценка сверху, далеко не все ссылки на отобранных нами сайтах — продажные, есть и линкообмен и естественные ссылки и спонсорские и раскрутка собственных проектов вебмастера. С другой стороны, кроме рынка главных страниц есть еще рынок «вторых страниц», оценить который мы сейчас не можем. По той же методике мы можем оценить оборот рынка ссылок на предшествующие периоды:
Цифры вполне консистентные, оценка роста более двух раз за год вполне типична для SEO. Заметим, что «октябрьский дорвейный пик» на объеме рынка никак не сказался т.к. основная масса сайтов-дорвеев имела очень низкие индексы цитирования. Заключение
БлагодарностиАвтор благодарит Андрея Иванова за конструктивное и благожелательное обсуждение первых версий данного текста.Дискуссия Прокомментировать, высказать свое мнение, отругать или похвалить автора можно в в комментариях в авторском блоге. |
Казимир Малевич, дизайн Владимир Липка, тоже |
|
|
Спонсоры проекта | ||
---|---|---|
https://relatos-eroticos-club-x.com/ | Купить гостиничные чеки в Северске | Купить кассовые чеки в Одинцово |
Indexed: Ap:2010-11-01 20:49 | G:2024-11-20 19:12 | MSN:2011-07-23 00:04 | R:2011-06-16 01:14 | Yah:2018-06-11 07:45 | Я:2013-08-30 06:15 |