Ссылочное ранжирование в Рунете: реципиенты ссылок, тексты ссылок

Содержание

  1. Определения и термины
  2. Данные
  3. На кого ссылаются
  4. Продажные ссылки
  5. Тексты ссылок
  6. Слова в ссылках
  7. Выводы

Про что этот текст

Статья продолжает тему ссылок с головных страниц сайтов Рунета. В первой части исследования нами были рассмотрены доноры ссылок (сайты с главных страниц которых стоят ссылки на другие сайты), предложены критерии по которым можно отличить сайты со ссылочной рекламой от естественных ссылок, был оценен рынок поисковой рекламы в Рунете.

В настоящем исследовании основное внимание уделено реципиентам (получателям) ссылок:

  • на какие сайты ведут ссылки, сайты-лидеры по числу ссылок;
  • куда ведут платные ссылки;
  • максимальные ссылочные бюджеты отдельных сайтов (т.е. оценка ежемесячного платежа владельцам главных страниц, которые ставят ссылки на сайт);
  • наиболее конкурентные темы ссылочного продвижения;
  • какие тексты и отдельные слова используются на платных ссылках;

Роль ссылок в современном интернете подробно разобрана в первой статье, но на всякий случай напомним читателю, что ссылки (и их тексты) являются на сегодняшний день основным методом продвижения в поисковых машинах (SEO).

При написании данного текста возник вопрос - упоминать ли реальные названия сайтов, - который был разрешен следующим образом:

  • названия хостингов, сервисов, счетчиков, ссылки на которые гарантированно легальны - упоминаются.
  • названия сайтов, продвигаемых откровенно спамерскими методами (сотни, тысячи и десятки тысяч одинаковых сайтов), - упоминаются.
  • Названия реальных сайтов, продвигаемых через ссылочную рекламу - не упоминаются, а заменяются на условное название тематики сайта.
  • Формулировки ссылок приводятся без изменений.

Определения и термины

Данный текст написан, в первую очередь, для специалистов по SEO, для краткости часто приходится использовать жаргон из этой отрасли знания. В первой части статьи приведен краткий словарь SEO-терминов, который тут мы повторять не будем.

Будем пользоваться определениями из первой части исследования, чтобы не ссылаться туда постоянно, кратко повторим классификацию здесь.

Ссылки можно отклассифицировать по нескольким параметрам:

  • Куда указывает ссылка: внутренние, родственные и внешние ссылки.
  • Тексты ссылок: текстовые, подписи к картинкам, ссылки без текста.
  • Доступность для индексации: индексируемые и закрытые для индексации.

Так как одним из предметов исследования является рынок ссылок (т.е. размещенная за деньги ссылочная реклама), то рассматривать будем как совокупность из всех сайтов, так и сайты подозреваемые в линкоторговле. Подозреваемые сайты будем выделять по тем же критериям, что и в первой статье: ненулевые индексы цитирования, степень разнообразия более 0.7, количество внешних ссылок на странице от 5 до 50. Понятно, что сам подход оспорить трудно (см. обсуждение первой части исследования), но конкретные параметры назначаются достаточно произвольно. Для удобства сравнения, они такие же, как и в первой статье.

С точки зрения рынка ссылок, наибольший интерес представляют внешние индексируемые текстовые ссылки .

Данные

В исследовании использованы данные, полученные из Черного Квадрата на 2-4 апреля 2007 года. В дальнейшем тексте рассмотрены два подмножества сайтов:

  • Полная выборка по всем главным страницам сайтов в доменах .RU/.SU: 625 497 сайтов, содержащие 7 354 262 внешних и родственных ссылок, среди которых 5 958 692 внешних индексируемых текстовых ссылок.
  • Сайты из выборки «подозреваемых в продажности»: ненулевые индексы цитирования (Google PageRank >0, ТИЦ > 0), от 5 до 50 внешних ссылок, степень разнообразия ссылок не менее 0.7. Таких сайтов 30 819, они содержат 511 208 внешних ссылок, из них 355 091 внешние индексируемые текстовые. Критерии выделения «подозреваемых в продажности» сайтов аналогичны использованным в первой статье.

Из второй выборки были удалены зеркала сайтов, в качестве детектора зеркал использовался каталог Яндекса.

На кого ссылаются

Полная ссылочная база

Из 625.5 тысяч сайтов только 468 393 (75%) имеют ненулевое количество внешних ссылок и 359 485 (58%) содержат внешние индексируемые текстовые ссылки. Таким образом, около 160 тысяч (25%) сайтов внешних ссылок вообще не содержат, а еще 110 тысяч (18%) не содержат внешних индексируемых ссылок с текстом. Внешние текстовые индексируемые ссылки ведут на 218 499 различных сайтов-реципиентов, чуть менее половины реципиентов (107 764) - это сайты в доменах 2-го уровня в .RU/SU: только каждый 6-й сайт из рассматриваемой выборки имеет ссылки на себя из этой же выборки.

Если построить гистограмму распределения сайтов - реципиентов ссылок по числу ссылающихся сайтов и по числу входящих ссылок , учитывая все внешние ссылки, за исключением «родственных тип 0» (ссылки на тот же сайт с точностью до префикса WWW), включая, в том числе неиндексируемые ссылки , мы получим следующую любопытную картину:

ВНИМАНИЕ! Логарифмический масштаб! Каждое деление по вертикальной оси - это уменьшение в 10 раз, каждые три деления по горизонтальной оси - это в 10 раз больше входящих ссылок.

Кажущийся парадокс: в самом левом столбце синяя колонка выше красной. Если вдуматься, то сразу становится понятно: если на сайт ссылаются 1-2 сайта, то и ссылок будет 1-2 или больше. А если их будет больше, то по «красной» метрике сайт попадет уже в другой класс.

В остальном - практически идеальный закон Парето - прямая в логарифмических координатах. Необходимо понимать, что логарифмические координаты сильно непривычны человеческому организму:

  • сайтов на которые ссылаются более 50 «морд» всего 1.22% (4330 сайта, а всего ссылки указывают на 354 тысячи).
  • сайтов на которые ведут более 50 ссылок с «морд» (любое число ссылок с одного сайта) только 2.55% (9044 сайтов из тех же 354 тысяч).

В гистограмму не вошли лидеры - 13 сайтов на которые ссылаются более 10 тысяч главных страниц и 20 сайтов на которые указывают более 10 тысяч ссылок. Верхние 15 из списка лидеров представлены в таблице:

No. Сайт Ссылающихся сайтов Ссылок
1 top100.rambler.ru 125 898 220 342
2 counter.yadro.ru 114 872 116 313
3 top.mail.ru 109 177 188 629
4 liveinternet.ru 105 183 113 391
5 top.list.ru 98 413 105 984
6 hotlog.ru 70 083 203 166
7 poishi.com 57 154 168 271
8 sedoparking.com 56 237 3 378 824
9 spylog.com 50 803 55 835
10 yandex.ru 38 901 42 833
11 hosting.rbc.ru 12 926 74 742
12 icq.com 11 001 20 580
13 redxchange.ru 9 821 9 821
14 webflix.ru 9 811 9 811
15 krym.ru 9 795 19 591

Картина полностью ожидаемая, хотя и требует некоторых комментариев:

  • В первых девяти позициях рейтинга 7 мест занимают счетчики. Счетчики Mail.RU и LiveInternet занимают по две строчки рейтинга т.к. у них так устроен код.
  • Позиции 7-8 - это крупнейшие на сегодня дорвейные партнерки, все 56 тысяч сайтов ссылающихся на sedoparking - расположены на одном IP-адресе и совершенно одинаковы. Заметим, что sedoparking.com - это более трети всей ссылочной базы. Ссылочную базу для poishi.com обеспечивают домены с sedoparking (по одной ссылке на страницу) и, дополнительно, 1005 сайтов на которых ровно 112 ссылок. Все они расположены на одном хостинге и имеют один и тот же IP адрес. Проверка наудачу нескольких десятков из этой тысячи обнаружила только киберсквоттерские сайты, отличающиеся контактной информацией.
  • Основной вклад в позиции 11 и 13-15 внесли 8587 совершенно одинаковых киберсквоттерских сайтов одного владельца, состоящих из надписи «этот домен возможно продается», нескольких гигантских баннеров и нескольких одинаковых текстовых ссылок. Надо сказать, что сайту krym.ru это не помогло, по одному из запросов со ссылки его нет в выдаче Яндекса на первых 50 местах, по второму он находится на 29-м месте.
  • 12-я позиция, несколько неожиданная в общем дорвейном контексте, но понятная - это сервис ICQ, на 11 тысячах сайтов размещена ссылка «отправить сообщение».

Текстовые индексируемые ссылки

Если рассмотреть только внешние индексируемые текстовые ссылки, то вид гистограммы распределения практически не изменится:

Качественно картина не изменилась. Количественно всего стало меньше, гистограмма «по сайтам» спадает чуть быстрее, чем «по ссылкам», но это поведение тоже вполне естественное.

В то же время, верхушка рейтинга по цитируемости сильно другая:

No. Сайт Ссылающихся сайтов Ссылок
1 poishi.com 57 154 168 271
2 sedoparking.com 56 237 3 378 824
3 hosting.rbc.ru 12 752 58 829
4 redxchange.ru 9 821 9 821
5 webflix.ru 9 809 9 809
6 krym.ru 9 795 19 590
7 icq.com 8 657 14 254
8 hc.ru 3 986 4 507
9 infobox.ru 3 070 5 599
10 zvezdi.ru 2 644 2 644
11 top.mylove.ru 2 636 7 908
12 mylove.ru 2 636 2 636
13 agava.ru 2 450 29 458
14 top100.rambler.ru 2 446 3 216
15 subscribe.ru 2 148 3 874

Счетчики практически исчезают (стандартный код счетчика не содержит текстовой ссылки), на первые 7 позиций выходят сайты, занимавшие вторую половину предыдущего рейтинга. Помимо них, появляются хостеры (в первую очередь - за счет заглушечных страниц).

Позиции 10-12 таблицы я бы назвал 'Sedoparking plus' - эти сайты содержат ссылки на sedoparking плюс несколько баннеров, плюс пара счетчиков, плюс ссылка. Все вместе - 2636 сайтов на одном IP-адресе (на zvezdi.ru есть еще ссылки с 8 других сайтов).

Во всех рейтингах мы имеем одну полностью естественную ссылку - ICQ и одну «почти естественную» - денежку Яндекса. Остальные счетчики, рейтинги, службы подписки требуют ставить свой код (со ссылкой) без изменений как условие получение сервиса. Ссылки на хостера обычно имеются в стандартных темплейтах сайтов и их оставляют.

Хакнутые сайты ?

Если строить рейтинги не по количеству ссылающихся сайтов, а по количеству текстовых ссылок, ведущих на сайт (таблица ниже) , то картина несколько меняется, помимо уже обсужденных случаев мы видим новые:

No. Сайт Ссылающихся сайтов Ссылок
1 sedoparking.com 56 237 3 378 824
2 poishi.com 57 154 168 271
3 hosting.rbc.ru 12 752 58 829
4 agava.ru 2 450 29 458
5 webmag.ru 165 24 044
6 krym.ru 9 795 19 590
7 peterhost.ru 1 185 18 859
8 icq.com 8 657 14 254
9 sibvrv.com 132 10 966
10 verisign.com 314 10 922
11 redxchange.ru 9 821 9 821
12 webflix.ru 9 809 9 809
13 jargonbooks.com 20 9 695
14 unitedwaywillcounty.org 20 9 626
15 jmagar.com 17 8 316

Помимо уже обсужденных позиций, появляются новые сайты-реципиенты. На 10-й позиции - Verisign, при внимательном рассмотрении это оказалось парковкой доменов с главной страницей по-умолчанию.

На позициях 9 и 13-15 мы видим сайты, на которые ведут тысячи ссылок, идущих с нескольких десятков других сайтов. Феномен крайне заинтересовал и был внимательно изучен. Ссылки на эти сайты ведут на несуществующие страницы с примерно такими URL:

http://www.DOMAIN.ru/viagra/female-viagra.html

http://www.DOMAIN.ru/viagra/viagra-without-a-prescription.html

После установления этого факта, данные ссылки были извлечены из полной базы по следующему словарю: valium casino viagra xanax phentermine tramadol ultram charm gambling. Возможно, словарь не полный, но для оценки масштаба явления его хватило. Было обнаружено:

  • 754 сайта донора
  • 78 сайтов-реципиентов
  • на которых ведут 176 тысяч ссылок, указывающих на 31.5 тысячу страниц.

Выборочная страница реципиентов показала что это преимущественно нормальные сайты, причем страницы на которые указывают ссылки на этих сайтах отсутствуют. Сайты-доноры - это обычные мусорные сайты, 90% из них расположено на одном из хостеров, про взломы сайтов которого достаточно много писали.

Предположительно, мы имеем дело с взломанными сайтами-реципиентами (откуда, впрочем, целевые страницы успели удалить), взломанными сайтами-донорами (исходя из репутации хостера) и все это - такое черное SEO, что чернее уже и не бывает.

Продажные ссылки

Как уже обсуждалось ранее, механически отличить рекламную ссылку от естественной достаточно сложно. Использованные автором критерии (ненулевые индексы цитирования, ограничения по числу ссылок и их разнообразию) не имеют какого-либо «естественного» обоснования, они выведены из эпизодических наблюдений за рынком ссылочной рекламы.

Отобранные 30.8 тысяч сайтов содержат 363.5 тысячи внешних ссылок, ведущих на 79 тысяч реципиентов.

Эта гистограмма выглядит не так гладко, как гистограмма по всем главным страницам: количество сайтов на которые ведет от 6 до 100 ссылок сильно выше «нормы» (нормой считаем диагональную прямую линию). Это отклонение скорее всего связано с искусственным увеличением цитируемости. Заметим, что речь идет примерно об 11.5 тысячах сайтов-реципиентов (часть из которых имеет естественную цитируемость).

Верхушка таблицы, отсортированная по цитируемости выглядит так (для сайтов, где цитируемость является искусственной URL заменены видом деятельности):

No. Сайт Ссылающихся сайтов Ссылок Оценка
ссылочного
бюджета
$/мес.
1 hosting.rbc.ru 985 987  
2 redxchange.ru 888 888  
3 icq.com 881 1177  
4 webflix.ru 874 874  
5 krym.ru 865 1730  
6 subscribe.ru 410 634  
7 пластиковые окна.ru 385 417 1965
8 мебель.ru 354 371 1874
9 top100.rambler.ru 354 384  
10 top.mail.ru 326 343  
11 web-студия.ru 325 328 1414
12 салон красоты.ru 313 313 1916
13 hotlog.ru 299 315  
14 yandex.ru 297 322  
15 еще мебель.ru 277 283 1590

Бюджет на продвижение посчитан только для ссылок с главных страниц по формуле Александра Кириллина.

Десять позиций из 15-ти (в том числе 6 первых) занимают знакомые нам хостинги, счетчики и две естественных ссылки. Остающиеся 5 строчек - это, совершенно бесспорно, «платные ссылки на продажных мордах». Автор проверил по несколько ключевых (по мнению автора) запросов для каждого из этих сайтов и обнаружил, что 4 сайта из пяти находятся на хороших местах в поисковой выдаче и в Яндексе и в Google, а пятый сайт отсутствует в индексе Яндекса, но неплохо находится Google. Собственно, что «ссылки с морд» работают известно и без автора.

Если отсортировать реципиентов по количеству ссылок, то 14 из 15 участников таблицы остаются в ней, хотя и меняются местами. Эта таблица была бы банальной, поэтому не приводится.

Менее банальна таблица лидеров по бюджетам (не приводится: без названий сайтов скучно, а с названиями не хочется), если суммировать по области деятельности, то в десятке по бюджетам мы находим:

  • 3 мебельных сайта
  • два сайта web-студий с комплексными услугами (создание и продвижение сайтов)
  • По одному сайту по тематикам «кондиционеры», недвижимость, салон красоты, пластиковые окна, игры.

Максимальный ссылочный бюджет (оцененный только по главным страницам) несколько превышает $2000 в месяц, минимальный бюджет в десятке - около $1600.

Необходимо заметить, что наши оценки бюджетов не включают в себя:

  • бюджеты на ссылки с неглавных страниц сайтов;
  • бюджеты на ссылки с сайтов, не расположенных в доменах второго уровня .RU/SU.

Тексты ссылок

7.4 миллиона ссылок полной ссылочной базы содержат 897 тысяч разных текстов ссылок. Из них 630 тысяч текстов ссылок - уникальны т.е. встречаются только один раз, еще 120.5 тысяч встречаются два раза, а 45 текстов ссылок имеют частотность более 55 тысяч.

Частотные ссылки совершенно неинтересны - это стандартные тексты из кодов систем статистики, стандартные ссылки от sedoparking и текст «Этот домен возможно продается».

Если рассматривать только текстовые индексируемые ссылки, то картина практически не меняется, разве только подписи систем статистики выпадают из частотной части. Ссылок с единичными частотами становится 506 тысяч (на 5.9 млн. ссылок), ссылок с частотой два - 90 тысяч.

Тексты продажных ссылок

Если рассматривать 363.5 тысячи внешних индексируемых текстовых ссылок с сайтов «подозреваемых в продажности», то картинка становится сильно интереснее. 171 тысяча (48%) написаний встречается в единственном экземпляре (про склейку одинаковых ссылок все уже выучили), еще 19 тысяч (5.4%)встречаются два раза.

Если удалить из списка ссылки, размещенные на киберсквоттерских сайтах, входящих в топ15, то получается такая табличка частот:

No. Текст ссылки Частота
1 форум 661
2 создание сайта 521
3 знакомства 462
4 хостинг 430
5 создание сайтов 360
6 здесь 352
7 пластиковые окна 343
8 раскрутка сайта 271
9 разработка сайта 247
10 металлочерепица 245
11 продвижение сайта 236
12 wordpress 222
13 гостиницы москвы 206
14 subscribe.ru 206
15 москва 200
16 межкомнатные двери 200
17 продвижение сайтов 191
18 организация праздников 190
19 ремонт квартир 187
20 керамогранит 179

Пункты 1,6,12,14 - это, по всей видимости, естественные ссылки. Строчки 4 и 15 - под вопросом. Все остальные - очевидные продажные ссылки, причем тематика их почти целиком повторяет лидеров по бюджетам: разработка и продвижение сайтов, пластиковые окна, строительство и ремонт.

Слова в ссылках

Как мы видели выше, уникальных текстов ссылок очень много, сопоставить их можно путем анализа словарного состава.

Для сопоставления различных форм слов (сайта-сайтов и так далее) была использована бессловарная морфология для русского и английского языков от нашей компании. Рассматривались «поссылочные частоты» слов т.е. для текста ссылки «продажа опилок, продажа стружек» слово «продажа» получит единичную частоту .

Полная ссылочная база

5.9 миллионов внешних текстовых ссылок с полного набора сайтов содержат 219 тысяч разных слов (не так и много, в 4 раза меньше, чем уникальных текстов ссылок). Верхушка списка замусорена словами с sedoparking и потому не очень интересна.

Продажные ссылки

В 363.5 тысячах внешних индексируемых текстовых ссылок с сайтов из «продажной» выборки содержатся 1.2 миллиона слов (т.е. средняя длина текста ссылки - 4 слова), но словарный состав относительно беден: уникальных слов всего 64.5 тысячи. Распределение по частотам выглядит куда интереснее (из таблицы исключены знаки препинания, предлоги и частицы и три технических слова: http, www и ru):

No. Слово Частота Количество
вариантов ссылок
с этим словом
1 сайт 15048 7922
2 москва 13076 8570
3 квартира 7918 4792
4 продажа 7908 5387
5 мебель 6938 3972
6 отдых 6536 3508
7 дизайн 6225 3603
8 тур 6172 3728
9 ремонт 5803 3448
10 курс 5215 1749
11 аренда 5053 3046
12 недвижимость 4750 2373
13 дом 4615 3109
14 заказ 4606 2894
15 интернет 4572 2963
16 создание 4290 2141
17 магазин 4209 2942
18 офис 4162 2580
19 доставка 3962 1772
20 оборудование 3706 2474
21 окна 3682 1936
22 купить 3544 2558
23 автомобиль 3312 2073
24 дверь 3211 1665
25 продвижение 3160 1809

 

Как видим, все топ-25 слов в ссылках - это коммерческая тематика по дорогим темам:

  • слова-намерения и слова-география: аренда, купить, доставка, заказ, продажа, москва, магазин.
  • околоинтернетные сервисы: сайт, создание, продвижение, интернет.
  • недвижимость: офис,, недвижимость, квартира, дом.
  • ремонт и оборудование недвижимости: мебель, ремонт, дверь, окна.
  • автомобили
  • тур(изм) и отдых.

Ну и на закуску - рейтинг упоминаемости англоязычных брендов в текстах ссылок.

No. Брэнд Число ссылок
с этим словом
количество
вариантов
написания
1 panasonic 453 311
2 hp 418 297
3 samsung 413 243
4 daikin 401 230
5 sony 350 241
6 nokia 348 195
7 mitsubishi 339 189
8 lg 320 249
9 nissan 288 163
10 bmw 270 178
11 hyundai 258 124
12 kia 253 167
13 canon 240 159
14 nokian 204 130
15 toshiba 201 163

Рейтинг довольно понятный: кондиционеры, бытовая техника и электроника, автомобили. Не могу понять только одного: HP есть и на высокой позиции, а никого из других компьютерщиков - нету. Может быть HP возмещает часть бюджетов на SEO ?

Как мы видим, каждый отдельный бренд имеет примерно на порядок меньшую популярность, чем лидеры списка (предыдущая таблица), частоты близки к частотам таких слов как «принтер», «гидравлический», «мальдивы», «рыбалка», «автострахование» т.е. словам «второго эшелона». Подозреваю, впрочем, что для продвижения по конкретным названиям товаров ссылками с головных страниц пользуются уже мало.

Выводы

  1. Масштабы «малобюджетного» ссылочного спама в Рунете огорчают: более трети всех ссылок ведет на дорвейные партнерки, лидерами которых на сегодня являются sedoparking.com и poishi.com.
  2. На общем фоне довольно заметными оказались предположительно «хакнутые» сайты, на которых были ранее размещены страницы дорвейной тематики.
  3. Оценены максимальные бюджеты на продвижение «по мордам» (главным страницам), лидеры по бюджетам тратят порядка $2000/месяц (это только бюджеты на продвижение по «мордам» в доменах RU/SU, полные бюджеты очевидно выше, что подтверждается и сообщениями на форумах).
  4. Среди платных ссылок очень много уникальных текстов ссылок: около половины текстов не повторяются более 1-2 раз.
  5. При этом, разнообразие словарного состава платных ссылок невелико, всего 64.5 тысячи слов, включая числа, имена собственные, названия моделей товаров и знаки препинания.

Дальнейшая работа должна включать, по всей видимости, анализ ссылочной базы по «всем сайтам минус дорвеи», следует попытаться статистически различить естественные и платные ссылки и, при возможности, установить более точные критерии продажности.

Обсуждение

Обсудить статью, поругать или похвалить автора можно в комментариях к анонсу в блоге автора.
Indexed: Ap:2010-11-01 20:49 |  G:2016-09-18 16:09 |  MSN:2011-07-23 00:04 |  R:2011-06-16 01:14 |  Yah:2016-09-12 17:41 |  Я:2013-08-30 06:14