SlideShare a Scribd company logo
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса
Основные принципы
индексирования сайта
Смирнов Александр
О чём поговорим:
1.  Как поиск находит страницу, её путь до появления в поиске.
2.  Как управлять роботом.
3.  Особенности индексирования.
4.  Как улучшить индексирование.
5.  Вопросы.
4
Интересные факты
5
В поисковой базе содержится триллионы адресов.
Ежедневно робот скачивает миллиарды документов.
Как поиск находит страницу, её
путь до появления в поиске
Индексирование сайта
Что такое индексирование?
Индексирование – процесс получения информации о страницах
сайта с последующим добавлением данных в поисковую базу и
результаты поиска.
7
Процесс индексирования
8
Создание сайта
Робот узнаёт о
существовании
сайта
Планирование
Запрос контента,
добавление в
базу
Добавление
информации в
поиск
Откуда робот узнаёт о страницах
-  Ссылки на других страницах в интернете,
-  Я.Вебмастер (webmaster.yandex.ru),
-  Внутренние ссылки,
-  Карта сайта (sitemap),
-  Другие источники, например, Я.Метрика.
9
От чего зависит скорость индексирования
-  Загруженность сервера, на котором находится сайт,
-  Частота обновления страницы,
-  Интерес посетителей к сайту.
10
Запрос и получение контента
1. Запрос файла robots.txt (1-2 раза в сутки)
2. Запрос урла:
GET /URL HTTP/1.1
Host: HOST
Connection: Keep-Alive
Accept: */*
Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01
Accept-Encoding: gzip,deflate
User-Agent: Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
From: support@search.yandex.ru
11
Запрос и получение контента
Ответ сервера:
HTTP/1.1 200 Ok
Date: Mon, 12 Oct 2015 14:45:32 GMT
Content-Type: text/html; charset=UTF-8
Cache-Control: no-cache,no-store,max-age=0,must-revalidate
Expires: Mon, 12 Oct 2015 14:45:31 GMT
Last-Modified: Mon, 12 Oct 2015 14:45:31 GMT
Set-Cookie: yp=; Expires=Fri, 14-Oct-2005 14:45:32 GMT; Path=/
X-Frame-Options: DENY
Content-Encoding: gzip
X-XSS-Protection: 1; mode=block
X-Content-Type-Options: nosniff
Transfer-Encoding: chunked
12
Распространённые HTTP-коды
HTTP-200 – страница доступна, её необходимо индексировать
HTTP-301 – страница перенесена, необходимо включать цель
перенаправления
HTTP-302 – страница перенесена, необходимо включать наиболее
короткий адрес
HTTP-304 – страница не менялась с момента последнего обращения
HTTP-404 – страница удалена
HTTP-503 – сервер временно недоступен
13
Добавление контента в базу
14
Добавление контента в базу
<!DOCTYPE html><html class="i-ua_js_no i-ua_css_standard" lang="ru"><head><meta charset="utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge"/><title>Яндекс.Телепрограмма —
программа передач всех телеканалов в Калуге</title><script>;(function(d,e,c,r){e=d.documentElement;c="className";r="replace";e[c]=e[c][r]("i-ua_js_no","i-ua_js_yes");if(d.compatMode!
="CSS1Compat")e[c]=e[c][r]("i-ua_css_standart","i-ua_css_quirks")})(document);</script><meta name="description" content="Полная ТВ-программа всех телеканалов в Калуге на сегодня, на неделю."/
><meta name="keywords" content=""/><link rel="shortcut icon" href="/favicon/favicon-v3.ico"/><link rel="apple-touch-icon" href="/favicon/apple-touch-icon.png"/><link rel="apple-touch-icon"
sizes="57x57" href="/favicon/apple-touch-icon-57x57.png"/><link rel="apple-touch-icon" sizes="72x72" href="/favicon/apple-touch-icon-72x72.png"/><link rel="apple-touch-icon" sizes="76x76" href="/
favicon/apple-touch-icon-76x76.png"/><link rel="apple-touch-icon" sizes="114x114" href="/favicon/apple-touch-icon-114x114.png"/><link rel="apple-touch-icon" sizes="120x120" href="/favicon/apple-touch-
icon-120x120.png"/><link rel="apple-touch-icon" sizes="144x144" href="/favicon/apple-touch-icon-144x144.png"/><link rel="apple-touch-icon" sizes="152x152" href="/favicon/apple-touch-icon-152x152.png"/
><link rel="apple-touch-icon" sizes="180x180" href="/favicon/apple-touch-icon-180x180.png"/><link rel="icon" type="image/png" sizes="16x16" href="/favicon/256x256.png"/><link rel="icon" type="image/
png" sizes="32x32" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="96x96" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="192x192" href="/favicon/
256x256.png"/><meta name="msapplication-TileColor" content="#ffffff"/><meta name="msapplication-TileImage" content="/favicon/256x256.png"/><meta name="theme-color" content="#ffffff"/><link
rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.css"/><!--[if IE 8]><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.ie8.css"/><![endif]--
><!--[if IE 9]><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.ie9.css"/><![endif]--></head><body class="b-page b-page__body i-ua i-ua_interaction_yes i-global i-bem"
data-bem="{"b-page":{},"i-ua":{},"i-global":{"lang":"ru","tld":"ru","content-region":"ru","click-host":"//clck.yandex.ru","passport-host":"https://passport.yandex.ru","pass-host":"https://pass.yandex.ru","social-
host":"https://social.yandex.ru","export-host":"https://export.yandex.ru","login":"","lego-static-host":"//yastatic.net/lego/2.10-142","id":"tv","user-region":"ru","jsParams":{"i-config":{"hosts":{"phone":"https://
phone-passport.yandex.ru/","tune":"https://tune.yandex.ru","tune_urls_patterns":{"my_cookie":"{{host}}/api/my/v1.1/my.xml{{query}}","lang":"{{host}}/api/lang/v1.1/save.xml{{query}}","region":"{{host}}/
region/{{query}}"}},"metrika":{"debug":false},"adv":{"desktop_default":"D-I-93830-2","desktop_grid_cell":"R-I-93830-4","desktop_grid_wide":"R-I-54061-6","desktop_channel_aside":"R-
I-93830-1","desktop_sp_cell":"D-I-136810-1","desktop_sp_wide":"R-I-136810-2","desktop_sp_footer":"D-I-136810-3","touch_default":"R-I-80007-5"},"ua_region_id":187,"user":{"update-menu":true},"project":
{"urlSegment":"newseason","searchQuery":"телесезон 2015"}},"i-region":{"id":2},"lang":"ru","i-uatraits":
{"isTablet":false,"iOS":false,"Android":false,"BrowserName":"Unknown","BrowserVersion":null,"OSVersion":null},"i-api-request":{"easy-
sk":"4896ec5e4947640500b3efcbe3eccabd","sk":"y4d28820bc63b6af39414871fe112dbb3"},"i-tv-region":{"timezoneOffset":-180,"regionNames":
{"nominative":"Калуга","genitive":"Калуги","dative":"Калуге","prepositional":"Калуге","preposition":"в","locative":"","directional":"","ablative":"","accusative":"Калугу","instrumental":"Калугой"}},"i-tv-date":{"time":
1445925006280},"i-sms-passport":{"phone":null}},"retpath":"https://tv.yandex.ru/6?grid=all&period=now","yandexuid":"54830261445925006","lego-path":"/bower_components/romochka"}}" id="app"><div
class="b-content"><div class="progress i-bem" data-bem="{"progress":{}}"></div><div class="tv-header layout layout_type_serp i-bem" data-bem="{"tv-header":{}}"><div class="header2 header2_lang_ru i-
bem" data-bem="{"header2":{}}" role="banner"><div class="header2__main"><div class="header2__logo tv-header__logo"><a class="link i-bem" data-bem="{"link":{"origTabindex":"-1"}}" tabindex="-1"
href="//www.yandex.ru"><!--[if gt IE 8]page/_/UYmX3xSn-Z1WO7vNqgzY2H8bBIc.png);"/><!--<![endif]--><!--[if lte IE 8]><img class="image" src="//yastatic.net/islands-page/_/UYmX3xSn-
Z1WO7vNqgzY2H8bBIc.png" alt="Яндекс"/><![endif]--></a></div><div class="header2__middle"><div class="header2__middle-wrap"><div class="header2__left"><a class="header2__nameplate" href="/
6" tabindex="-1"><div class="arrow2 arrow2_size_m arrow2_theme_nameplate-border"><div class="arrow2 arrow2_size_s
15
Добавление контента в базу
- HTTP-код ответа,
- Текстовое содержимое, мета-теги,
- Исходящие ссылки на другие страницы.
16
17
Быстрый Основной
Индексирующий робот
Как узнать, что страница в поиске
-  Яндекс.Вебмастер, «Проверить URL»
-  Результаты поиска с оператором url: , например,
url:example.ru/contacts
-  Для поиска всех страниц сайта – оператор site: , например,
site:example.ru
18
Как управлять роботом
Индексирование сайта
robots.txt – строгая инструкция для робота
-  User-agent – указываем, для кого предназначаются правила
-  Disallow / Allow – запрещаем или разрешаем индексирование страниц
-  Clean-param – удаляем ненужные параметры в URL-адресах
-  Crawl-delay – задаём интервал между запросами страниц
-  Sitemap – сообщаем адрес карты сайта
-  Host – указываем адрес главного зеркала
20
robots.txt
User-agent: *
Disallow: /admin
Disallow: /images
Disallow: *?cart=*
User-agent: Yandex
Disallow: /admin
Disallow: *?cart=*
Clean-param: sid /
Crawl-delay: 0.5
Host: www.site.com
Sitemap: http://www.site.com/sitemap.xml
21
Ошибки при работе с robots.txt
-  Ошибки в содержимом файла
-  HTTP-ответ отличный от 200
-  Кириллические символы в файле
-  Размер более 32Кб
22
Пример:
Host: лютикицветочки.рф
Host: xn--b1aghacidc6a8af9br2g.xn--p1ai
robots.txt
Анализатор в Яндекс.Вебмастере:
https://webmaster.yandex.ru/robots.xml
23
robots.txt
Стандарт robots.txt:
http://www.robotstxt.org
Помощь вебмастеру:
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
24
Sitemap – карта вашего сайта
Текстовый или XML-файл, содержащий адреса страниц, которые
необходимо индексировать.
25
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://site.ru/</loc>
<lastmod>2015-10-12</lastmod>
<changefreq>monthly</changefreq>
<priority>0.9</priority>
</url>
</urlset>
Ошибки при работе с Sitemap
-  Файл на другом сайте
-  Установленный редирект,
-  Отсутствие служебной информации, например,
<?xml version="1.0" encoding="UTF-8"?>
26
Sitemap
Валидатор в Яндекс.Вебмастере:
https://webmaster.yandex.ru/sitemaptest.xml
Стандарт Sitemap:
http://www.sitemaps.org/ru/
Помощь вебмастеру:
https://yandex.ru/support/webmaster/indexing-options/sitemap.xml
27
Зеркала сайта
Один сайт по нескольким адресам
http://www.site.ru
http://site.ru
https://site.ru
http://сайт.рф
Чтобы объединить сайты в группу и выбрать главный адрес, они должны
содержать идентичный контент.
28
Зеркала сайта
Зачем?
-  Перенос сайта на новый адрес с сохранением характеристик старого
адреса
-  Наличие дополнительных адресов для пользователей
29
Зеркала сайта
1.  Директива Host в robots.txt
2.  «Главное зеркало» в Яндекс.Вебмастере
3.  Серверное перенаправление на главное зеркало
30
Зеркала сайта
31
А В
ГЛАВНОЕ ЗЕРКАЛО НЕГЛАВНОЕ ЗЕРКАЛО
перенаправление
Зеркала сайта
32
Ошибки при работе с зеркалами
-  Разное содержимое на сайтах
-  Переезд сайта в раздел другого
-  Запрет на индексирование одного из зеркал, его недоступность
-  Противоречивые указания
33
Зеркала сайта
Помощь Вебмастеру:
https://yandex.ru/support/webmaster/yandex-indexing/site-mirrors.xml
Обратная связь:
https://feedback2.yandex.ru/webmaster/
34
Особенности
индексирования
Индексирование сайта
AJAX
site.ru/#blog site.ru/#!blog
site.ru/#!blog site.ru/?_escaped_fragment_=blog
site.ru/blog <meta name="fragment" content="!">
site.ru/blog site.ru/blog?_escaped_fragment_=
36
Версии на других языках
37
-  Открыть локализованную версию для робота,
-  Использовать атрибут hreflang:
<link rel="alternate" hreflang=”ru-ru" href="http://site.ru/ru-ru/">
<link rel="alternate" hreflang="tr-tr" href="http://site.ru/tr-tr/">
<link rel="alternate" hreflang=”en-us" href="http://site.ru/en-us/">
<link rel="alternate" hreflang="x-default" href="http://site.ru/" />
Как улучшить
индексирование
Индексирование сайта
Дубли страниц
Дубли – несколько страниц одного сайта, содержащие идентичный
контент.
-  Один товар в двух категориях: site.ru/tort и site.ru/cat/tort ,
-  Со слэшом и без: site.ru/tort и site.ru/tort/ ,
-  Страницы с произвольными параметрами: site.ru/tort?1234
39
Дубли страниц
К каким проблемам приводят:
- Робот начинает посещать множество ненужных страниц вместо
индексирования корректных адресов,
- Робот может включать в выдачу только одну страницу на своё
усмотрение.
40
Дубли страниц
Как исправить:
-  Атрибут rel="canonical” тега <link>,
-  301 редирект ,
-  Disallow в robots.txt .
41
Использование HTTP-кодов
-  HTTP-404 на удалённых страницах
-  Заглушка с HTTP-503 при недоступности
-  Использование HTTP-301 редиректа при переезде страниц внутри
сайта
42
Проверка и актуализация robots.txt
-  Проверка логов сервера и закрытие служебных страниц
-  Crawl-delay без необходимости
43
Хостинг
44
ОШИБКИ СОЕДИНЕНИЯ
Полезные ссылки
-  Помощь вебмастеру:
https://yandex.ru/support/webmaster/for-webmasters/contents.xml
-  Блог:
http://webmaster.ya.ru
-  Блог Платона Щукина:
http://platon.ya.ru
-  Яндекс.Вебмастер:
https://webmaster.yandex.ru
45
Вопросы
Вопросы
Как ускорить процесс склейки доменов при смене доменного имени и
настройке редиректа?
Если сайт переходит на новый домен, то как изменится индексирование
сайта? И если изменится, то как сделать так, чтобы показатели быстрее
стали прежними?
Как грамотно поменять главное зеркало сайта с www.site.ru на site.ru
или site2.ru ? Какое зеркало предпочтительнее?
47
Переезд сайта
1.  Сделать сайты полными зеркалами (идентичный контент по всем адресам)
2.  Делаем оба сайта доступными для робота
3.  Убедиться, что сайты известны нашему роботу
4.  Указываем директиву Host в robots.txt всех сайтов
5.  Ждём склейки (от 1-2 месяцев и более)
6.  Установка редиректа
48
Вопросы
1). Минимальная и максимальная скорость индексирования сайта?
2). Возможно ли как-то повлиять на скорость индексирования?
3). Как кол-во страниц в индексе влияет на ранжирование? К примеру в
индексе 20 000, а в поиске 1000, как тут быть и стоит ли удалять не
нужные страницы из индекса?
4). Основываясь на случае из пункта 3, будет ли затруднена индексация
новых страниц?
49
Вопросы
Расскажите	
  пожалуйста,	
  как	
  правильно	
  организовать	
  пагинация	
  
листинга	
  каталога,	
  что	
  бы	
  в	
  поисковой	
  системе	
  не	
  возникло	
  
дублей	
  страниц,	
  но	
  при	
  этом	
  поисковая	
  система	
  понимала,	
  что	
  
ассортимент	
  большой?	
  
Relcanonical?	
  Не	
  заполнять	
  метатеги?	
  Закрывать	
  страницы	
  
noindex?	
  
50
Вопросы
В каталоге интернет-магазина есть категория товаров,
отличающихся друг от друга несколькими техническими
характеристиками и ценой, внешний вид и текст описания -
одинаковы. Товары представлены отдельными карточками.
Вопрос: Будут ли такие карточки признаны дублями? Если да, то
что нужно сделать, чтобы карточки таких товаров расценивались
роботом как отдельные страницы?
51
Вопросы
Как избежать индексирования всех возможных вариантов
фильтров и отборов товаров в интернет магазине и попадания в
индекс десятков тысяч страниц? И как это влияет на
ранжирование, нужно ли с этим бороться?
52
Вопросы
53
Вопросы
54
http://site.ru/catalog/acoustic_systems/?sort=name&order=desc
http://site.ru/catalog/acoustic_systems/?xar-block=16&secid=37&cost-min=10660&cost-
max=16653000&pf%5Bsp_power_min%5D%5BLEFT%5D=&pf%5Bsp_power_min%5D%5BRIGHT%5D=&pf
%5Bsp_power_max%5D%5BLEFT%5D=&pf%5Bsp_power_max%5D%5BRIGHT%5D=&cur%5B
%5D=RUB&cur%5B%5D=DPJ&cur%5B%5D=DOV&cur%5B%5D=USD&cur%5B%5D=ENT&cur%5B
%5D=ENP&cur%5B%5D=DOT&cur%5B%5D=ETA&cur%5B%5D=DAS
Disallow: *sort=
Disallow: *cost-*
Disallow: *_power_*
Вопросы
55
Карточка товаров в интернет-магазине имеет несколько табов
(Описание, Чертежи, Документация, Каталоги), написанных на
Java Script. Будет ли при этом корректно индексироваться
содержание табов?
Вопросы
56
- Проверка ответа сервера:
https://webmaster.yandex.ru/server-response.xml
- Поиск вида:
Александр Смирнов
Спасибо!

More Related Content

PDF
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
PDF
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
PDF
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
PDF
«Индексация сайтов в Яндексе» 17 лекция, александр смирнов
PDF
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
PDF
«Ранжирование сайтов» 18 лекция, антон роменский и сергей царик
PPT
Как провести технический аудит сайта. Е. Аралов
PPT
презентация занятие №1
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
«Индексация сайтов в Яндексе» 17 лекция, александр смирнов
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
«Ранжирование сайтов» 18 лекция, антон роменский и сергей царик
Как провести технический аудит сайта. Е. Аралов
презентация занятие №1

What's hot (18)

PPTX
SEO-Audit seo summit websarafan 2016
PPT
Как выйти из-под Google Panda. Симптомы, причины, кейсы.
PDF
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
PDF
Дмитрий Шахов. Как конкуренты могут обрушить ваше SEO
PDF
Трудов Алексей. Как поисковые системы учитывают и оценивают возраст страницы
PPTX
Принцип Парето в SEO - Как продавать в кризис 2016
PPTX
SEO для разработчика сайта
PDF
Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...
PDF
Никулин Павел. Machine learning для текстового анализа
PPTX
Познай ТОП на MegaIndex.tv. Севальнев Дмитрий (Пиксель Плюс)
PDF
скIm2 занятие 2 - seo, семантика
PPTX
Продвинутый курс по SEO
PPT
Title и Description: Правила оформления
PPT
Imu2011 Митник
PPTX
Как заказать сайт для бизнеса, чтобы не было мучительно больно
PPTX
Текстовое ранжирование и тз на копирайтинг
PPT
презентация Day4
SEO-Audit seo summit websarafan 2016
Как выйти из-под Google Panda. Симптомы, причины, кейсы.
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Дмитрий Шахов. Как конкуренты могут обрушить ваше SEO
Трудов Алексей. Как поисковые системы учитывают и оценивают возраст страницы
Принцип Парето в SEO - Как продавать в кризис 2016
SEO для разработчика сайта
Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...
Никулин Павел. Machine learning для текстового анализа
Познай ТОП на MegaIndex.tv. Севальнев Дмитрий (Пиксель Плюс)
скIm2 занятие 2 - seo, семантика
Продвинутый курс по SEO
Title и Description: Правила оформления
Imu2011 Митник
Как заказать сайт для бизнеса, чтобы не было мучительно больно
Текстовое ранжирование и тз на копирайтинг
презентация Day4
Ad

Viewers also liked (20)

PDF
Опенсорс-инструменты на страже безопасности бэкенда — Петр Волков
PPTX
PPT
Морфологический анализатор PC-KIMMO
PDF
PDF
PPTX
Внутреняя оптимизация
PPTX
живые сайты
PDF
Dima maksimov
PDF
20131210прохоренков
PPTX
usereto
PDF
Иван Ямщиков, Яндекс
PDF
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
PDF
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
PPTX
Кейс от Studio f1: интернет-магазин антикварной мебели
DOCX
методические рекомендации_2_часть
PPTX
повышение продаж
PDF
Instrukcija
PDF
Методы повышения Ctr (микроформаты)
Опенсорс-инструменты на страже безопасности бэкенда — Петр Волков
Морфологический анализатор PC-KIMMO
Внутреняя оптимизация
живые сайты
Dima maksimov
20131210прохоренков
usereto
Иван Ямщиков, Яндекс
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Кейс от Studio f1: интернет-магазин антикварной мебели
методические рекомендации_2_часть
повышение продаж
Instrukcija
Методы повышения Ctr (микроформаты)
Ad

Similar to Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса (20)

PDF
Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем
PPTX
Webmaster tools in Yandex 2011 (Kazan, Kharkov), Mikhail Senin, Alex Shubin
PPT
Александр Садовский "Хороший веб-поиск для веб-мастеров" на конференции Optim...
PDF
Yg 4
PDF
Yg
PPTX
Техническая оптимизация сайтов
PPTX
SEO продвижение
PPTX
Решение типовых задач с помощью сервиса яндекс.вебмастер
PPTX
Решение задач с помощью сервиса Яндекс.Вебмастер
PPTX
3. программные аспекты коледа олег
PPT
Kaznetweek2011
PDF
Грамотная SEO-оптимизация сайта на WordPress
PDF
Seo-оптимизация сайта на WordPress
PPT
Александр Садовский "Хороший веб-поиск для веб-мастеров" на конференции Optim...
PPTX
Поисковое продвижение - Михаил Федоринин
PPT
Базовый курс по SEO
PPT
Все что нужно знать о SEO
PPT
Технические ошибки сайта
PDF
Основы Seo
PDF
Как провести глубокую техническую оптимизацию сайта для SEO. Вебинар WebPromo...
Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем
Webmaster tools in Yandex 2011 (Kazan, Kharkov), Mikhail Senin, Alex Shubin
Александр Садовский "Хороший веб-поиск для веб-мастеров" на конференции Optim...
Yg 4
Yg
Техническая оптимизация сайтов
SEO продвижение
Решение типовых задач с помощью сервиса яндекс.вебмастер
Решение задач с помощью сервиса Яндекс.Вебмастер
3. программные аспекты коледа олег
Kaznetweek2011
Грамотная SEO-оптимизация сайта на WordPress
Seo-оптимизация сайта на WordPress
Александр Садовский "Хороший веб-поиск для веб-мастеров" на конференции Optim...
Поисковое продвижение - Михаил Федоринин
Базовый курс по SEO
Все что нужно знать о SEO
Технические ошибки сайта
Основы Seo
Как провести глубокую техническую оптимизацию сайта для SEO. Вебинар WebPromo...

More from Yandex (20)

PDF
Предсказание оттока игроков из World of Tanks
PDF
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
PDF
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
PDF
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
PDF
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
PDF
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
PDF
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
PDF
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
PDF
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
PDF
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
PDF
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
PDF
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
PDF
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
PDF
Эталонное описание фильма на основе десятков дубликатов
PDF
Поиск списков в неструктурированных данных
PDF
Производительность параметрического поиска на основе опенсорс-платформы
PDF
Beminar js
PDF
Дмитрий Ветров. Математика больших данных: тензоры, нейросети, байесовский вы...
PDF
Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней
PDF
Вебинар по БЭМ: сборка и оптимизация проекта
Предсказание оттока игроков из World of Tanks
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Эталонное описание фильма на основе десятков дубликатов
Поиск списков в неструктурированных данных
Производительность параметрического поиска на основе опенсорс-платформы
Beminar js
Дмитрий Ветров. Математика больших данных: тензоры, нейросети, байесовский вы...
Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней
Вебинар по БЭМ: сборка и оптимизация проекта

Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе вебмастеров Яндекса

  • 3. О чём поговорим: 1.  Как поиск находит страницу, её путь до появления в поиске. 2.  Как управлять роботом. 3.  Особенности индексирования. 4.  Как улучшить индексирование. 5.  Вопросы. 4
  • 4. Интересные факты 5 В поисковой базе содержится триллионы адресов. Ежедневно робот скачивает миллиарды документов.
  • 5. Как поиск находит страницу, её путь до появления в поиске Индексирование сайта
  • 6. Что такое индексирование? Индексирование – процесс получения информации о страницах сайта с последующим добавлением данных в поисковую базу и результаты поиска. 7
  • 7. Процесс индексирования 8 Создание сайта Робот узнаёт о существовании сайта Планирование Запрос контента, добавление в базу Добавление информации в поиск
  • 8. Откуда робот узнаёт о страницах -  Ссылки на других страницах в интернете, -  Я.Вебмастер (webmaster.yandex.ru), -  Внутренние ссылки, -  Карта сайта (sitemap), -  Другие источники, например, Я.Метрика. 9
  • 9. От чего зависит скорость индексирования -  Загруженность сервера, на котором находится сайт, -  Частота обновления страницы, -  Интерес посетителей к сайту. 10
  • 10. Запрос и получение контента 1. Запрос файла robots.txt (1-2 раза в сутки) 2. Запрос урла: GET /URL HTTP/1.1 Host: HOST Connection: Keep-Alive Accept: */* Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01 Accept-Encoding: gzip,deflate User-Agent: Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) From: support@search.yandex.ru 11
  • 11. Запрос и получение контента Ответ сервера: HTTP/1.1 200 Ok Date: Mon, 12 Oct 2015 14:45:32 GMT Content-Type: text/html; charset=UTF-8 Cache-Control: no-cache,no-store,max-age=0,must-revalidate Expires: Mon, 12 Oct 2015 14:45:31 GMT Last-Modified: Mon, 12 Oct 2015 14:45:31 GMT Set-Cookie: yp=; Expires=Fri, 14-Oct-2005 14:45:32 GMT; Path=/ X-Frame-Options: DENY Content-Encoding: gzip X-XSS-Protection: 1; mode=block X-Content-Type-Options: nosniff Transfer-Encoding: chunked 12
  • 12. Распространённые HTTP-коды HTTP-200 – страница доступна, её необходимо индексировать HTTP-301 – страница перенесена, необходимо включать цель перенаправления HTTP-302 – страница перенесена, необходимо включать наиболее короткий адрес HTTP-304 – страница не менялась с момента последнего обращения HTTP-404 – страница удалена HTTP-503 – сервер временно недоступен 13
  • 14. Добавление контента в базу <!DOCTYPE html><html class="i-ua_js_no i-ua_css_standard" lang="ru"><head><meta charset="utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge"/><title>Яндекс.Телепрограмма — программа передач всех телеканалов в Калуге</title><script>;(function(d,e,c,r){e=d.documentElement;c="className";r="replace";e[c]=e[c][r]("i-ua_js_no","i-ua_js_yes");if(d.compatMode! ="CSS1Compat")e[c]=e[c][r]("i-ua_css_standart","i-ua_css_quirks")})(document);</script><meta name="description" content="Полная ТВ-программа всех телеканалов в Калуге на сегодня, на неделю."/ ><meta name="keywords" content=""/><link rel="shortcut icon" href="/favicon/favicon-v3.ico"/><link rel="apple-touch-icon" href="/favicon/apple-touch-icon.png"/><link rel="apple-touch-icon" sizes="57x57" href="/favicon/apple-touch-icon-57x57.png"/><link rel="apple-touch-icon" sizes="72x72" href="/favicon/apple-touch-icon-72x72.png"/><link rel="apple-touch-icon" sizes="76x76" href="/ favicon/apple-touch-icon-76x76.png"/><link rel="apple-touch-icon" sizes="114x114" href="/favicon/apple-touch-icon-114x114.png"/><link rel="apple-touch-icon" sizes="120x120" href="/favicon/apple-touch- icon-120x120.png"/><link rel="apple-touch-icon" sizes="144x144" href="/favicon/apple-touch-icon-144x144.png"/><link rel="apple-touch-icon" sizes="152x152" href="/favicon/apple-touch-icon-152x152.png"/ ><link rel="apple-touch-icon" sizes="180x180" href="/favicon/apple-touch-icon-180x180.png"/><link rel="icon" type="image/png" sizes="16x16" href="/favicon/256x256.png"/><link rel="icon" type="image/ png" sizes="32x32" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="96x96" href="/favicon/256x256.png"/><link rel="icon" type="image/png" sizes="192x192" href="/favicon/ 256x256.png"/><meta name="msapplication-TileColor" content="#ffffff"/><meta name="msapplication-TileImage" content="/favicon/256x256.png"/><meta name="theme-color" content="#ffffff"/><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.css"/><!--[if IE 8]><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.ie8.css"/><![endif]-- ><!--[if IE 9]><link rel="stylesheet" href="//yastatic.net/kino-ui-tv/3.1.729/apps/desktop/desktop.ie9.css"/><![endif]--></head><body class="b-page b-page__body i-ua i-ua_interaction_yes i-global i-bem" data-bem="{"b-page":{},"i-ua":{},"i-global":{"lang":"ru","tld":"ru","content-region":"ru","click-host":"//clck.yandex.ru","passport-host":"https://passport.yandex.ru","pass-host":"https://pass.yandex.ru","social- host":"https://social.yandex.ru","export-host":"https://export.yandex.ru","login":"","lego-static-host":"//yastatic.net/lego/2.10-142","id":"tv","user-region":"ru","jsParams":{"i-config":{"hosts":{"phone":"https:// phone-passport.yandex.ru/","tune":"https://tune.yandex.ru","tune_urls_patterns":{"my_cookie":"{{host}}/api/my/v1.1/my.xml{{query}}","lang":"{{host}}/api/lang/v1.1/save.xml{{query}}","region":"{{host}}/ region/{{query}}"}},"metrika":{"debug":false},"adv":{"desktop_default":"D-I-93830-2","desktop_grid_cell":"R-I-93830-4","desktop_grid_wide":"R-I-54061-6","desktop_channel_aside":"R- I-93830-1","desktop_sp_cell":"D-I-136810-1","desktop_sp_wide":"R-I-136810-2","desktop_sp_footer":"D-I-136810-3","touch_default":"R-I-80007-5"},"ua_region_id":187,"user":{"update-menu":true},"project": {"urlSegment":"newseason","searchQuery":"телесезон 2015"}},"i-region":{"id":2},"lang":"ru","i-uatraits": {"isTablet":false,"iOS":false,"Android":false,"BrowserName":"Unknown","BrowserVersion":null,"OSVersion":null},"i-api-request":{"easy- sk":"4896ec5e4947640500b3efcbe3eccabd","sk":"y4d28820bc63b6af39414871fe112dbb3"},"i-tv-region":{"timezoneOffset":-180,"regionNames": {"nominative":"Калуга","genitive":"Калуги","dative":"Калуге","prepositional":"Калуге","preposition":"в","locative":"","directional":"","ablative":"","accusative":"Калугу","instrumental":"Калугой"}},"i-tv-date":{"time": 1445925006280},"i-sms-passport":{"phone":null}},"retpath":"https://tv.yandex.ru/6?grid=all&period=now","yandexuid":"54830261445925006","lego-path":"/bower_components/romochka"}}" id="app"><div class="b-content"><div class="progress i-bem" data-bem="{"progress":{}}"></div><div class="tv-header layout layout_type_serp i-bem" data-bem="{"tv-header":{}}"><div class="header2 header2_lang_ru i- bem" data-bem="{"header2":{}}" role="banner"><div class="header2__main"><div class="header2__logo tv-header__logo"><a class="link i-bem" data-bem="{"link":{"origTabindex":"-1"}}" tabindex="-1" href="//www.yandex.ru"><!--[if gt IE 8]page/_/UYmX3xSn-Z1WO7vNqgzY2H8bBIc.png);"/><!--<![endif]--><!--[if lte IE 8]><img class="image" src="//yastatic.net/islands-page/_/UYmX3xSn- Z1WO7vNqgzY2H8bBIc.png" alt="Яндекс"/><![endif]--></a></div><div class="header2__middle"><div class="header2__middle-wrap"><div class="header2__left"><a class="header2__nameplate" href="/ 6" tabindex="-1"><div class="arrow2 arrow2_size_m arrow2_theme_nameplate-border"><div class="arrow2 arrow2_size_s 15
  • 15. Добавление контента в базу - HTTP-код ответа, - Текстовое содержимое, мета-теги, - Исходящие ссылки на другие страницы. 16
  • 17. Как узнать, что страница в поиске -  Яндекс.Вебмастер, «Проверить URL» -  Результаты поиска с оператором url: , например, url:example.ru/contacts -  Для поиска всех страниц сайта – оператор site: , например, site:example.ru 18
  • 19. robots.txt – строгая инструкция для робота -  User-agent – указываем, для кого предназначаются правила -  Disallow / Allow – запрещаем или разрешаем индексирование страниц -  Clean-param – удаляем ненужные параметры в URL-адресах -  Crawl-delay – задаём интервал между запросами страниц -  Sitemap – сообщаем адрес карты сайта -  Host – указываем адрес главного зеркала 20
  • 20. robots.txt User-agent: * Disallow: /admin Disallow: /images Disallow: *?cart=* User-agent: Yandex Disallow: /admin Disallow: *?cart=* Clean-param: sid / Crawl-delay: 0.5 Host: www.site.com Sitemap: http://www.site.com/sitemap.xml 21
  • 21. Ошибки при работе с robots.txt -  Ошибки в содержимом файла -  HTTP-ответ отличный от 200 -  Кириллические символы в файле -  Размер более 32Кб 22 Пример: Host: лютикицветочки.рф Host: xn--b1aghacidc6a8af9br2g.xn--p1ai
  • 24. Sitemap – карта вашего сайта Текстовый или XML-файл, содержащий адреса страниц, которые необходимо индексировать. 25 <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://site.ru/</loc> <lastmod>2015-10-12</lastmod> <changefreq>monthly</changefreq> <priority>0.9</priority> </url> </urlset>
  • 25. Ошибки при работе с Sitemap -  Файл на другом сайте -  Установленный редирект, -  Отсутствие служебной информации, например, <?xml version="1.0" encoding="UTF-8"?> 26
  • 26. Sitemap Валидатор в Яндекс.Вебмастере: https://webmaster.yandex.ru/sitemaptest.xml Стандарт Sitemap: http://www.sitemaps.org/ru/ Помощь вебмастеру: https://yandex.ru/support/webmaster/indexing-options/sitemap.xml 27
  • 27. Зеркала сайта Один сайт по нескольким адресам http://www.site.ru http://site.ru https://site.ru http://сайт.рф Чтобы объединить сайты в группу и выбрать главный адрес, они должны содержать идентичный контент. 28
  • 28. Зеркала сайта Зачем? -  Перенос сайта на новый адрес с сохранением характеристик старого адреса -  Наличие дополнительных адресов для пользователей 29
  • 29. Зеркала сайта 1.  Директива Host в robots.txt 2.  «Главное зеркало» в Яндекс.Вебмастере 3.  Серверное перенаправление на главное зеркало 30
  • 30. Зеркала сайта 31 А В ГЛАВНОЕ ЗЕРКАЛО НЕГЛАВНОЕ ЗЕРКАЛО перенаправление
  • 32. Ошибки при работе с зеркалами -  Разное содержимое на сайтах -  Переезд сайта в раздел другого -  Запрет на индексирование одного из зеркал, его недоступность -  Противоречивые указания 33
  • 35. AJAX site.ru/#blog site.ru/#!blog site.ru/#!blog site.ru/?_escaped_fragment_=blog site.ru/blog <meta name="fragment" content="!"> site.ru/blog site.ru/blog?_escaped_fragment_= 36
  • 36. Версии на других языках 37 -  Открыть локализованную версию для робота, -  Использовать атрибут hreflang: <link rel="alternate" hreflang=”ru-ru" href="http://site.ru/ru-ru/"> <link rel="alternate" hreflang="tr-tr" href="http://site.ru/tr-tr/"> <link rel="alternate" hreflang=”en-us" href="http://site.ru/en-us/"> <link rel="alternate" hreflang="x-default" href="http://site.ru/" />
  • 38. Дубли страниц Дубли – несколько страниц одного сайта, содержащие идентичный контент. -  Один товар в двух категориях: site.ru/tort и site.ru/cat/tort , -  Со слэшом и без: site.ru/tort и site.ru/tort/ , -  Страницы с произвольными параметрами: site.ru/tort?1234 39
  • 39. Дубли страниц К каким проблемам приводят: - Робот начинает посещать множество ненужных страниц вместо индексирования корректных адресов, - Робот может включать в выдачу только одну страницу на своё усмотрение. 40
  • 40. Дубли страниц Как исправить: -  Атрибут rel="canonical” тега <link>, -  301 редирект , -  Disallow в robots.txt . 41
  • 41. Использование HTTP-кодов -  HTTP-404 на удалённых страницах -  Заглушка с HTTP-503 при недоступности -  Использование HTTP-301 редиректа при переезде страниц внутри сайта 42
  • 42. Проверка и актуализация robots.txt -  Проверка логов сервера и закрытие служебных страниц -  Crawl-delay без необходимости 43
  • 44. Полезные ссылки -  Помощь вебмастеру: https://yandex.ru/support/webmaster/for-webmasters/contents.xml -  Блог: http://webmaster.ya.ru -  Блог Платона Щукина: http://platon.ya.ru -  Яндекс.Вебмастер: https://webmaster.yandex.ru 45
  • 46. Вопросы Как ускорить процесс склейки доменов при смене доменного имени и настройке редиректа? Если сайт переходит на новый домен, то как изменится индексирование сайта? И если изменится, то как сделать так, чтобы показатели быстрее стали прежними? Как грамотно поменять главное зеркало сайта с www.site.ru на site.ru или site2.ru ? Какое зеркало предпочтительнее? 47
  • 47. Переезд сайта 1.  Сделать сайты полными зеркалами (идентичный контент по всем адресам) 2.  Делаем оба сайта доступными для робота 3.  Убедиться, что сайты известны нашему роботу 4.  Указываем директиву Host в robots.txt всех сайтов 5.  Ждём склейки (от 1-2 месяцев и более) 6.  Установка редиректа 48
  • 48. Вопросы 1). Минимальная и максимальная скорость индексирования сайта? 2). Возможно ли как-то повлиять на скорость индексирования? 3). Как кол-во страниц в индексе влияет на ранжирование? К примеру в индексе 20 000, а в поиске 1000, как тут быть и стоит ли удалять не нужные страницы из индекса? 4). Основываясь на случае из пункта 3, будет ли затруднена индексация новых страниц? 49
  • 49. Вопросы Расскажите  пожалуйста,  как  правильно  организовать  пагинация   листинга  каталога,  что  бы  в  поисковой  системе  не  возникло   дублей  страниц,  но  при  этом  поисковая  система  понимала,  что   ассортимент  большой?   Relcanonical?  Не  заполнять  метатеги?  Закрывать  страницы   noindex?   50
  • 50. Вопросы В каталоге интернет-магазина есть категория товаров, отличающихся друг от друга несколькими техническими характеристиками и ценой, внешний вид и текст описания - одинаковы. Товары представлены отдельными карточками. Вопрос: Будут ли такие карточки признаны дублями? Если да, то что нужно сделать, чтобы карточки таких товаров расценивались роботом как отдельные страницы? 51
  • 51. Вопросы Как избежать индексирования всех возможных вариантов фильтров и отборов товаров в интернет магазине и попадания в индекс десятков тысяч страниц? И как это влияет на ранжирование, нужно ли с этим бороться? 52
  • 54. Вопросы 55 Карточка товаров в интернет-магазине имеет несколько табов (Описание, Чертежи, Документация, Каталоги), написанных на Java Script. Будет ли при этом корректно индексироваться содержание табов?
  • 55. Вопросы 56 - Проверка ответа сервера: https://webmaster.yandex.ru/server-response.xml - Поиск вида: