SlideShare a Scribd company logo
Алгоритмы аннотирования, 
влияние на сниппеты 
Станислав Поломарь 
webit
План доклада 
• Задача по управлению сниппетами 
• Гипотезы для проверки 
– Яндекс (Ромип) ‘2008 
– Яндекс/Emory (SIGIR) ‘2013 
– Итоговый список 
• Результаты проверки на тестовой коллекции 
• Результаты подтверждения на реальной коллекции 
– Подсветки, синонимы 
• Итоговые рекомендации 
– Рекомендуемые приемы 
– Итого 
– Интересные примеры 
• Данные по CTR 
• Быстроботная примесь
Зачем и что требуется от управления? 
• Трафик из выдачи = Показы * CTR 
• CTR = F (позиции, кликабельность сниппета) 
• Кликабельность сниппета: 
– Читабельность 
– Точность ответа 
– Размер 
– Заметность
Основные пути по управлению 
• Использовать документированные возможности по 
форматам от поисковых систем 
• Конструировать и пытаться влиять на нужные 
фрагменты 
• Использовать недокументированные возможности 
по форматам от поисковых систем 
• Предоставить поисковым системам самим все 
решать
Гипотезы для проверки 
• Алгоритмы контекстно-зависимого 
аннотирования Яндекса на РОМИП-2008 
Опорная пара - два наименее частотных слова из пересечения слов 
запроса и предложения.
Гипотезы для проверки 
• «Алгоритмы контекстно-зависимого 
аннотирования Яндекса на РОМИП-2008» 
– Полное вхождение 
– Точное вхождение 
– Близость к началу предложения 
– В предложении есть слова с высоким IDF 
– Размер фрагмента примерно 150 символов
Гипотезы для проверки 
• «Improving Search Result Summaries by Using 
Searcher Behavior Data» 
F (фрагмента) = K * F_пф + (1 – K) * F_текст
Гипотезы для проверки
Гипотезы для проверки 
• По итогам: 
– Полное вхождение 
– Точное вхождение 
– Близость к началу предложения 
– Максимизация IDF на фрагмент и на слово из фрагмента 
– Близость к началу содержания страницы 
– Размер фрагмента примерно 150 символов 
– Отсутствие избыточного кол-ва пунктуации / кол-во слов с 
заглавной буквы 
• А также: 
– Вес тега meta description 
– Влияние подсветок (топонимы, синонимы и остальное)
Тестовая коллекция 
• Сравним полное/точное vs неполное 
вхождение 
– Тестовые фрагменты не обладают большинством 
остальных признаков, кроме вхождения. 
1. Ожидаемо везде выигрывает полное у неполного 
(Яндекс) 
2. В случае наличия в description полного, а в 
документе неполного – берется description 
(Яндекс)
Тестовая коллекция 
• Сравним группу начало 
предложения/документа vs IDF 
– Тестовые фрагменты содержат точное вхождение 
и, соответственно, набор из сравниваемых 
признаков. Остальными признаками не обладают. 
1. В почти 80% случаях выигрывает 1ая группа 
(Яндекс) 
2. Сравнение внутри первой группы требует 
отдельной выборки
Тестовая коллекция 
• Сравним начало документа vs начало 
предложения 
– Тестовые фрагменты содержат точное 
вхождение и, соответственно, набор из 
сравниваемых признаков. Остальными 
признаками не обладают. 
1. В 3/4 случаев выигрывает начало документа 
2. В п.1 входили документы, где фрагмент 
обладал обоими признаками
Реальная коллекция 
• Измерим позицию начала сниппета 
относительно кол-во слов в документе 
– Выкидываем внутри BODY все теги, стили, скрипты 
и пр. Меню и т.п. остается. Считаем размер общий 
и позицию начала фрагмента из сниппета. 
1. Средняя позиция начало - 49%. С учетом меню % 
несколько ниже, но не сильно. 
2. Метрика не учитывает возможности наличия 
вхождений только в конце документа. 
3. Метрика не учитывает другие сильные признаки, 
которые рассмотрим далее.
Реальная коллекция
Реальная коллекция 
• Размер сниппета (Яндекс)
Реальная коллекция 
• Размер сниппета (Яндекс)
Тестовая коллекция 
• Сравним «вес» meta description для Яндекс 
и Гугл 
– Тестовые фрагменты предложение с точных 
вхождением в тексте и аналогичное, но с 1 
изменением в description . 
1. Во всех случаях Яндекс выбрал текст, Гугл - 
description.
Реальная коллекция 
• Яндекс - в 2% случаев взят description 
– В большинстве из этих случаев нет полного 
вхождения в текст 
– Яндекс смело комбинирует description и текст в 
сниппетах 
• Гугл – в 60% случаев взят description
Рекомендации №1 
• Яндекс 
– Точное/полное вхождение 
– Начало документа и предложения 
– Размер фрагмента зависит от длины запросов (от 
120-160 символов до 180-200) 
– Про description можно не очень переживать 
• Гугл 
– Максимальное использование description 
– «Раскрашиваем» вволю по спец символам 
(http://saney.ru/tools/google-snippets-generator.html)
Тестовая коллекция 
• Сравним наличие слов из подсветки vs без них 
– Тестовые фрагменты содержат точное вхождение и 
да/нет слова из подсветки. В ряде случае устроим 
соревнование с началом документа. 
1. В большинстве использовались самые частные 
подсветки (топоним, купить, основной синоним и 
т.п.). 
2. Практически во всех случаях выиграли 
фрагменты со словами из подсветки (причем 
обыгрывая даже конкурентов из начала 
документа)
Реальная коллекция 
• Наличие подсветки в документе vs сниппет 
– В 90% пар запрос-документ есть хоть одна 
подсветка в тексте (head не в счет) 
– В 72% есть хоть одна подсветка в сниппете (без 
заголовка) 
1. В 80% случаев, когда слова из подсветки есть в 
тексте, они есть и в аннотации (в рамках 1 
варианта). 
2. Яндекс однозначно любит слова из подсветки, 
особенно топонимы и синонимы.
Реальная коллекция 
• Подсветки статистика
Реальная коллекция 
• Подсветки лидеры
Реальная коллекция 
• Синонимы и оператор nosyn 
– Убирает подсветки 
– Видимо отключает ранжирование
Реальная коллекция 
• Собираем подсветки с nosyn 
– Порядка 30% подсветок приходится на синонимы
Полезные приемы 
• Убрать описание ЯК, Дмоз 
<meta name="robots" content="noyaca"/> и <meta name="robots" 
content="noodp"/> 
• Использовать спец символы 
• Использовать Яндекс.Адреса для внутренних страниц
Полезные приемы 
• Использовать Товары и цены / Товарные сниппеты 
– Применять те же приемы 
– Использовать для любых карточек/разделов 
продукции**
Полезные приемы 
• Товары и цены 
– Фрагмент из description ранжируется с 
повышенным весом**
Рекомендации Итого (Яндекс) 
• Точное/полное вхождение 
• В начале документа и предложения 
• Размер фрагмента зависит от длины запросов (от 120-160 символов до 
180-200) 
• Использование слов из подсветки (в первую очередь топонимы и 
синонимы) 
• Отключить ЯК/Дмоз 
• Description для подстраховки и Гугла 
• Использовать все стандартные инструменты по расширениям и 
микроразметке 
• Подключить Товары и цены, где особое внимание уделить description 
• Подключить Товарные сниппеты, подход к description тот же 
• Использование спец символов (ко всем соответствующим пунктам)
Интересные примеры 
• Склейка цены из Товарных сниппетов и текста 
• Влияние синонима
Интересные примеры 
• Делаем список в сниппете 
• Зачем в заголовок брать title?
Интересные примеры 
• Цветные сниппеты 
• Нет подходящего фрагмента – возьму description
CTR (Яндекс)
CTR (Яндекс)
CTR (Гугл)
CTR (Гугл)
Быстроботная примесь 
• Статья про свежесть и запуск быстроботной 
примеси в 2011 году - Recency Ranking by 
Diversification of Result Set 
https://drive.google.com/file/d/0B3oTghWSSP4kejA1Z05DamRJeUk/view?usp=sharing 
• Наблюдения: 
– По факту на сейчас потребность свежести >0 для большинства запросов 
– Краулинговый ранк видимо не очень большой по умолчанию (у поддоменов 
отдельный) 
– Для ранжирования и аннотации во многом также как в большом поиске 
– Документ из базы быстробота получает возможность появится в большой выдаче 
только после набора определенного ранка 
– Дата появления документа = дата 1ой индексации 
– Дата в сохраненке = дата последнего захода ББ
Быстроботная примесь
ВОПРОСЫ? 
• Поломарь Станислав 
– stas@webit.ru / https://fb.com/stas.polomar 
• webit 
– Решает задачи бизнеса в Интернет на http://webit.ru

More Related Content

PPTX
Как построить SEO CRM (Sempro 15)
PPTX
Оптимизация по полочкам (Неделя Байнета 15)
PPTX
Доклад MAD conference
PPTX
Станислав Поломарь, Webit,
PPTX
Мониторинг поискового здоровья бизнеса
PPTX
Cемантика измерение и аналитика (Data Driven Seo)
PPTX
Аналитика для трафиковых проектов (РИФ 2016)
PPTX
Текстовое ранжирование и тз на копирайтинг
Как построить SEO CRM (Sempro 15)
Оптимизация по полочкам (Неделя Байнета 15)
Доклад MAD conference
Станислав Поломарь, Webit,
Мониторинг поискового здоровья бизнеса
Cемантика измерение и аналитика (Data Driven Seo)
Аналитика для трафиковых проектов (РИФ 2016)
Текстовое ранжирование и тз на копирайтинг

What's hot (20)

PPTX
Аналитика поведенческих фатокров (BDD 15)
PPTX
Стас Поломарь. 10 задач по SEO, с решением
PPTX
Аналитика поискового продвижения (SmartFox)
PDF
Фишки из патентов Google
PDF
SEO тренды в Google 2017
PPTX
«SEO CONF 2015» 20 актуальных работ по SEO в 2015 году
PDF
Инсайты из Яндекс.Метрики - AllintopConf 2017
PDF
Никулин Павел. Machine learning для текстового анализа
PDF
Трудов Алексей. Как поисковые системы учитывают и оценивают возраст страницы
PPTX
Seo upgrade - аналитика накрутки пф
PPTX
Seo коучинг 6.0 [пиксель плюс] - снятие ручных санкций за переоптимизацию
PPTX
Алгоритм составления ядра сайта. Модуль 12
PPTX
Конференция Smart fox как продвинуть сайт из топ-20 в топ-10 поисковой системы
PPTX
Seo практикум 3.0 - продвижение коммерческого портала в яндексе и google
PPTX
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
PPTX
Поисковая аналитика DDS-2 (2016)
PPTX
Современная автоматизация работ в SEO: кластеризация запросов, текстовый анал...
PPTX
Продвижение сайтов в 2016: нюансы и нововведения
PPTX
Вебинар: Оптимизация контента, которая понравится поисковым системам
PDF
Рабочие и нерабочие seo-стратегии
Аналитика поведенческих фатокров (BDD 15)
Стас Поломарь. 10 задач по SEO, с решением
Аналитика поискового продвижения (SmartFox)
Фишки из патентов Google
SEO тренды в Google 2017
«SEO CONF 2015» 20 актуальных работ по SEO в 2015 году
Инсайты из Яндекс.Метрики - AllintopConf 2017
Никулин Павел. Machine learning для текстового анализа
Трудов Алексей. Как поисковые системы учитывают и оценивают возраст страницы
Seo upgrade - аналитика накрутки пф
Seo коучинг 6.0 [пиксель плюс] - снятие ручных санкций за переоптимизацию
Алгоритм составления ядра сайта. Модуль 12
Конференция Smart fox как продвинуть сайт из топ-20 в топ-10 поисковой системы
Seo практикум 3.0 - продвижение коммерческого портала в яндексе и google
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
Поисковая аналитика DDS-2 (2016)
Современная автоматизация работ в SEO: кластеризация запросов, текстовый анал...
Продвижение сайтов в 2016: нюансы и нововведения
Вебинар: Оптимизация контента, которая понравится поисковым системам
Рабочие и нерабочие seo-стратегии
Ad

Viewers also liked (12)

PPTX
SEO жизнь на примере лидеров ecommerce (Cybermarketing 2016)
PPTX
SEO итоги 2015 (Smartfox)
PPTX
Поведенческие факторы Гугл (Sempro 16)
PPTX
Метрики и сценарии работы с анализом видимости проектов
PPTX
Минусинкс. Первые итоги (SmartFox)
PPTX
Учет поведения, мобильности и яндекс.бандит (Optimization-16)Optimization16 t...
PPTX
10 задача по SEO с решением (BDD17)
PPTX
Анализ поисковой видимости (Неделя Байнета 17)
PPTX
Аналитика поведенческих факторов Яндекс/Гугл
PPTX
Вводная в SEO ТопЭксперт
PPTX
Многорукие бандиты Яндекса (Optimization-15)
PPTX
Работа с контентными проектами (Optimization-16)
SEO жизнь на примере лидеров ecommerce (Cybermarketing 2016)
SEO итоги 2015 (Smartfox)
Поведенческие факторы Гугл (Sempro 16)
Метрики и сценарии работы с анализом видимости проектов
Минусинкс. Первые итоги (SmartFox)
Учет поведения, мобильности и яндекс.бандит (Optimization-16)Optimization16 t...
10 задача по SEO с решением (BDD17)
Анализ поисковой видимости (Неделя Байнета 17)
Аналитика поведенческих факторов Яндекс/Гугл
Вводная в SEO ТопЭксперт
Многорукие бандиты Яндекса (Optimization-15)
Работа с контентными проектами (Optimization-16)
Ad

Similar to Алгоритмы аннотирования, влияние на сниппеты (IBC 14) (20)

PPTX
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
PPTX
Текстовые факторы ранжирования: принцип работы ПС и практические инструкции
PPTX
Презентация SEO - все что нужно знать про поисковую оптимизацию сайта
PPTX
автоматическое аннотирование новостного потока
PPTX
Стас Поломарь. 10 задач по SEO, с решением #bdd2017
PDF
Рэшад Бакиров. Тематичность страницы и сайта как фактор ранжирования
PDF
20120226 information retrieval raskovalov_lecture03-04
PPTX
Основы текстовой оптимизации
PPTX
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
PPT
Правила хорошего SEO тона в Frontend разработке
PPTX
Usability и SEO. Юрий Грановский
PPTX
Практические аспекты разработки ПО #3
PPTX
SEO-Audit seo summit websarafan 2016
PDF
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
PPT
Авиком
PPTX
Комплексный подход к SEO-копирайтингу в 2018 году
PPTX
Дмитрий Петренко. SEO трафик в конкурентных нишах под БУРЖ. Инструменты, мето...
PPTX
Unit tests
PPT
PPT
Seo Drupal 6
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Текстовые факторы ранжирования: принцип работы ПС и практические инструкции
Презентация SEO - все что нужно знать про поисковую оптимизацию сайта
автоматическое аннотирование новостного потока
Стас Поломарь. 10 задач по SEO, с решением #bdd2017
Рэшад Бакиров. Тематичность страницы и сайта как фактор ранжирования
20120226 information retrieval raskovalov_lecture03-04
Основы текстовой оптимизации
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
Правила хорошего SEO тона в Frontend разработке
Usability и SEO. Юрий Грановский
Практические аспекты разработки ПО #3
SEO-Audit seo summit websarafan 2016
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
Авиком
Комплексный подход к SEO-копирайтингу в 2018 году
Дмитрий Петренко. SEO трафик в конкурентных нишах под БУРЖ. Инструменты, мето...
Unit tests
Seo Drupal 6

Алгоритмы аннотирования, влияние на сниппеты (IBC 14)

  • 1. Алгоритмы аннотирования, влияние на сниппеты Станислав Поломарь webit
  • 2. План доклада • Задача по управлению сниппетами • Гипотезы для проверки – Яндекс (Ромип) ‘2008 – Яндекс/Emory (SIGIR) ‘2013 – Итоговый список • Результаты проверки на тестовой коллекции • Результаты подтверждения на реальной коллекции – Подсветки, синонимы • Итоговые рекомендации – Рекомендуемые приемы – Итого – Интересные примеры • Данные по CTR • Быстроботная примесь
  • 3. Зачем и что требуется от управления? • Трафик из выдачи = Показы * CTR • CTR = F (позиции, кликабельность сниппета) • Кликабельность сниппета: – Читабельность – Точность ответа – Размер – Заметность
  • 4. Основные пути по управлению • Использовать документированные возможности по форматам от поисковых систем • Конструировать и пытаться влиять на нужные фрагменты • Использовать недокументированные возможности по форматам от поисковых систем • Предоставить поисковым системам самим все решать
  • 5. Гипотезы для проверки • Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008 Опорная пара - два наименее частотных слова из пересечения слов запроса и предложения.
  • 6. Гипотезы для проверки • «Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008» – Полное вхождение – Точное вхождение – Близость к началу предложения – В предложении есть слова с высоким IDF – Размер фрагмента примерно 150 символов
  • 7. Гипотезы для проверки • «Improving Search Result Summaries by Using Searcher Behavior Data» F (фрагмента) = K * F_пф + (1 – K) * F_текст
  • 9. Гипотезы для проверки • По итогам: – Полное вхождение – Точное вхождение – Близость к началу предложения – Максимизация IDF на фрагмент и на слово из фрагмента – Близость к началу содержания страницы – Размер фрагмента примерно 150 символов – Отсутствие избыточного кол-ва пунктуации / кол-во слов с заглавной буквы • А также: – Вес тега meta description – Влияние подсветок (топонимы, синонимы и остальное)
  • 10. Тестовая коллекция • Сравним полное/точное vs неполное вхождение – Тестовые фрагменты не обладают большинством остальных признаков, кроме вхождения. 1. Ожидаемо везде выигрывает полное у неполного (Яндекс) 2. В случае наличия в description полного, а в документе неполного – берется description (Яндекс)
  • 11. Тестовая коллекция • Сравним группу начало предложения/документа vs IDF – Тестовые фрагменты содержат точное вхождение и, соответственно, набор из сравниваемых признаков. Остальными признаками не обладают. 1. В почти 80% случаях выигрывает 1ая группа (Яндекс) 2. Сравнение внутри первой группы требует отдельной выборки
  • 12. Тестовая коллекция • Сравним начало документа vs начало предложения – Тестовые фрагменты содержат точное вхождение и, соответственно, набор из сравниваемых признаков. Остальными признаками не обладают. 1. В 3/4 случаев выигрывает начало документа 2. В п.1 входили документы, где фрагмент обладал обоими признаками
  • 13. Реальная коллекция • Измерим позицию начала сниппета относительно кол-во слов в документе – Выкидываем внутри BODY все теги, стили, скрипты и пр. Меню и т.п. остается. Считаем размер общий и позицию начала фрагмента из сниппета. 1. Средняя позиция начало - 49%. С учетом меню % несколько ниже, но не сильно. 2. Метрика не учитывает возможности наличия вхождений только в конце документа. 3. Метрика не учитывает другие сильные признаки, которые рассмотрим далее.
  • 15. Реальная коллекция • Размер сниппета (Яндекс)
  • 16. Реальная коллекция • Размер сниппета (Яндекс)
  • 17. Тестовая коллекция • Сравним «вес» meta description для Яндекс и Гугл – Тестовые фрагменты предложение с точных вхождением в тексте и аналогичное, но с 1 изменением в description . 1. Во всех случаях Яндекс выбрал текст, Гугл - description.
  • 18. Реальная коллекция • Яндекс - в 2% случаев взят description – В большинстве из этих случаев нет полного вхождения в текст – Яндекс смело комбинирует description и текст в сниппетах • Гугл – в 60% случаев взят description
  • 19. Рекомендации №1 • Яндекс – Точное/полное вхождение – Начало документа и предложения – Размер фрагмента зависит от длины запросов (от 120-160 символов до 180-200) – Про description можно не очень переживать • Гугл – Максимальное использование description – «Раскрашиваем» вволю по спец символам (http://saney.ru/tools/google-snippets-generator.html)
  • 20. Тестовая коллекция • Сравним наличие слов из подсветки vs без них – Тестовые фрагменты содержат точное вхождение и да/нет слова из подсветки. В ряде случае устроим соревнование с началом документа. 1. В большинстве использовались самые частные подсветки (топоним, купить, основной синоним и т.п.). 2. Практически во всех случаях выиграли фрагменты со словами из подсветки (причем обыгрывая даже конкурентов из начала документа)
  • 21. Реальная коллекция • Наличие подсветки в документе vs сниппет – В 90% пар запрос-документ есть хоть одна подсветка в тексте (head не в счет) – В 72% есть хоть одна подсветка в сниппете (без заголовка) 1. В 80% случаев, когда слова из подсветки есть в тексте, они есть и в аннотации (в рамках 1 варианта). 2. Яндекс однозначно любит слова из подсветки, особенно топонимы и синонимы.
  • 22. Реальная коллекция • Подсветки статистика
  • 23. Реальная коллекция • Подсветки лидеры
  • 24. Реальная коллекция • Синонимы и оператор nosyn – Убирает подсветки – Видимо отключает ранжирование
  • 25. Реальная коллекция • Собираем подсветки с nosyn – Порядка 30% подсветок приходится на синонимы
  • 26. Полезные приемы • Убрать описание ЯК, Дмоз <meta name="robots" content="noyaca"/> и <meta name="robots" content="noodp"/> • Использовать спец символы • Использовать Яндекс.Адреса для внутренних страниц
  • 27. Полезные приемы • Использовать Товары и цены / Товарные сниппеты – Применять те же приемы – Использовать для любых карточек/разделов продукции**
  • 28. Полезные приемы • Товары и цены – Фрагмент из description ранжируется с повышенным весом**
  • 29. Рекомендации Итого (Яндекс) • Точное/полное вхождение • В начале документа и предложения • Размер фрагмента зависит от длины запросов (от 120-160 символов до 180-200) • Использование слов из подсветки (в первую очередь топонимы и синонимы) • Отключить ЯК/Дмоз • Description для подстраховки и Гугла • Использовать все стандартные инструменты по расширениям и микроразметке • Подключить Товары и цены, где особое внимание уделить description • Подключить Товарные сниппеты, подход к description тот же • Использование спец символов (ко всем соответствующим пунктам)
  • 30. Интересные примеры • Склейка цены из Товарных сниппетов и текста • Влияние синонима
  • 31. Интересные примеры • Делаем список в сниппете • Зачем в заголовок брать title?
  • 32. Интересные примеры • Цветные сниппеты • Нет подходящего фрагмента – возьму description
  • 37. Быстроботная примесь • Статья про свежесть и запуск быстроботной примеси в 2011 году - Recency Ranking by Diversification of Result Set https://drive.google.com/file/d/0B3oTghWSSP4kejA1Z05DamRJeUk/view?usp=sharing • Наблюдения: – По факту на сейчас потребность свежести >0 для большинства запросов – Краулинговый ранк видимо не очень большой по умолчанию (у поддоменов отдельный) – Для ранжирования и аннотации во многом также как в большом поиске – Документ из базы быстробота получает возможность появится в большой выдаче только после набора определенного ранка – Дата появления документа = дата 1ой индексации – Дата в сохраненке = дата последнего захода ББ
  • 39. ВОПРОСЫ? • Поломарь Станислав – stas@webit.ru / https://fb.com/stas.polomar • webit – Решает задачи бизнеса в Интернет на http://webit.ru