Меню

Настройки для индексации роботами



Настройка robots.txt для индексации и продвижения сайта

Продуманная до мелочей настройка корневого файла robots.txt – это один из важнейших этапов подготовки сайта к дальнейшему поисковому продвижению. Индексации предполагает посещение продвигаемых страниц роботами любых поисковых систем, оценивающими качество оптимизации, контента и юзабилити. По итогам этого процесса формируется список поисковой выдачи, а затем происходит ранжирование.

Чтобы ускорить индексацию, придется устранить технические ошибки и уделить внимание качественному выполнению on-page SEO, опираясь на действующие алгоритмы.

Что такое robots.txt?

Роботы современных поисковых систем представляют собой утилиты, созданные с учетом действующих требований к выполнению оптимизации страниц. Сайты, нацеленные на быстрое продвижение, должны использовать различные настройки, позволяющие привлечь подобных ботов. Для ускорения индексации требуется техническая и поисковая оптимизация, а результаты ранжирования зависят от наличия адаптивного интерфейса, качественного контента и вызывающего доверие ссылочного профиля.

Любые мероприятия по продвижению будут бесполезными, если оптимизатор проигнорирует настройку содержимого корневого каталога, в частности robots.txt играет решающую роль на стадии привлечения поисковых сканеров. Указанная здесь информация по своей сути является инструкций для индексации или использовании запрета на проверку отдельных страниц.

Причины применения robots.txt:

  1. Нежелание индексироваться в поисковиках.
  2. Скрытие содержимого от поисковых сканеров.
  3. Установка ограничений на индексирование.
  4. Снижение уровня нагрузки на медленные сервера.

Вебмастера по совершенно разным причинам сохраняют некоторые файлы, страницы и каталоги веб-ресурсов вне зоны досягаемости основных поисковых систем. В частности, некоторые сайты разрешают сканирование только домашних страниц. Умышленное использование стандарта исключений для любых роботов предполагает настройку конфигурации с возможностью повлиять на перечень элементов наполнения сайта, попадающих в поисковый индекс.

Причиной отказа от ранжирования зачастую является содержимое конкретных страницы, о котором не должны узнать посторонние лица. В итоге на добавление исключении влияет нежелание находиться в актуальных базах данных поисковых систем. Профессионально выполненная настройка robots.txt позволит ощутимо снизить предельные показатели нагрузки на устаревшие сервера.

Предпосылки к тщательной проверке robots.txt:

  1. Снижение скорости индексации или игнорирование роботами отдельных веб-страниц.
  2. Осуществление внутренней оптимизации и подготовка к процессу продвижения сайта.
  3. Выпадение из индекса и возникновение ощутимых проблем с ранжированием.
  4. Отток аудитории, снижение трафика или слишком медленный прирост посещаемости.
  5. Выполнение планового веб-аудита и проверка текущих технических параметров сайта.

Файл с инструкциями для поисковых и новостных роботов обычно настраивается на стадии on-page SEO. Вебмастер первым делом проверяет конфигурацию robots.txt в экстренных случаях при возникновении ощутимых проблем с показателями индексации, ранжирования и посещаемости. Порой достаточно внести незначительные изменения в конфигурацию файла, чтобы гарантировать продвижение или скрыть отдельные страницы от сканеров поисковых систем.

Как грамотно настроить robots.txt?

Сохраненный файл robots.txt – компонент протокола исключений для любых роботов, сообщающий об отказе от индексирования перечисленных каталогов или веб-страниц. Внести изменения в настройки можно на любой стадии продвижения. Для создания файла обычно используются простейшие текстовые редакторы за исключением Word.

Настройка ограничения доступа к содержимому сайта выполняется с помощью использования нескольких команд (директив), которые контролируют процесс привлечения поисковых роботов. Конфигурация сформируется на основе активного применения команды «User-agent», после которой нужно ввести имя сетевого робота или звездочку «*».

Популярные директивы robots.txt:

  1. Allow – разрешить индексирование конкретных файлов, папок или сайта целиком.
  2. Host – выбрать подходящее зеркало сайта для последующей выполнения индексации.
  3. Disallow – запретить индексирование всех или отдельных компонентов сайта: Directory – не допускать индексацию выбранных папок и их содержимого. Directory/file.html – отказать в индексировании файла из выбранной папки. Images – игнорировать изображения в процессе выполнения индексации.

Определить поисковую систему, для которой будет закрыт доступ к сайту, позволяет директива «User-agent». В одном поле указываются роботы, которые должны следовать указанным инструкциям. Ограничиться можно названием системы (Yandex, Google) или конкретного бота (YandexBot, Googlebot). Чтобы запретить индексацию для всех новостных и поисковых машин, после команды «User-agent» нужно добавить символ «*» (звездочка).

Рекомендации по заполнению robots.txt:

  1. Изучение синтаксиса, в частности символов.
  2. Правильное написание команд.
  3. Проверка разделов и файлов.
  4. Использование нестандартных директив.

Изначально применение robots.txt позволяло блокировать доступ лишь к отдельным html-документам. Однако в настоящее время поисковые системы оценивают не только размещенный контент, но и внешний вид страниц, поэтому робот должен иметь доступ ко всем ресурсам сайта, включая стили, сценарии, шрифты и изображения.

Эксперты настоятельно рекомендую избегать блокировки компонентов верстки, поскольку попадание под действие исключений для индексации составных частей пользовательского интерфейса может отрицательно повлиять на позиционирование.

Важно! Применение robots.txt иногда не позволяет избежать индексации. Проблемы часто возникают со страницами, на которые ведут обратные или внутренние ссылки. Созданные в процессе перелинковки элементы навигации ускоряют индексацию, поэтому скрывать отдельные компоненты сайта приходится за счет метатегов.

Популярные метатеги для управления процессом индексирования:

  • noindex – отказ от индексирования.
  • nofollow – запрет на переход по ссылкам.
  • noarchive – отказ от архивирования в кеше.

Скрытый файл robots.txt играет важную роль на стадии активного поискового продвижения. Управлять процессом индексации можно благодаря правильной настройке конфигурации этого компонента корневого каталога. Например, запрет на привлечение сканеров поисковой системы часто устанавливается во время модернизации веб-ресурса.

Поскольку современные алгоритмы нацелены на ускорение этапа индексации, разработчикам сайтов приходится умышленно замедлять этот процесс. Использование команды «Disallow» позволяет вносить изменения в содержимое станиц, не беспокоясь о том, что размещенные и неподготовленные к продвижению элементы будут проиндексированы.

Как robots.txt влияет на продвижение сайта?

Продуманная до мелочей настройка файла для последующего ограничения доступа роботам к актуальному содержимому на действующем http-сервере, как правило, позволяет контролировать процесс продвижения. Огромное влияние robots.txt на ранжирование подтверждается в официальных рекомендациях для вебмастеров Google и Yandex.

Блокировка свободного доступа к сканированию компонентов или сайта целиком перед индексированием позволяет исключить отдельные URL-адреса со списка поисковой выдачи. Высокие позиции на странице SERP будут недоступны для частично и полностью заблокированных веб-площадок.

Читайте также:  Настройка ntp клиента debian

В процессе продвижения грамотная настройка robots.txt позволит:

  1. Скрыть страницы, папки и файлы с секретной информацией пользователей или владельцев сайта.
  2. Удалить из списка для индексации страницы с результатами поиска и формами отправки информации.
  3. Привлечь поисковых роботов к определенным папкам, файлам и страницам с помощью команды «Allow».
  4. Отказаться от сканирования определённого содержимого путем размещения директивы «Disallow».
  5. Выбрать для ранжирования оригинальные страницы, избавившись от риска попадания зеркал сайта в SERP.
  6. Применить файл sitemap.xml для сохранения проиндексированных и готовых к индексации URL-адресов.
  7. Использовать параметр «Crawl-delay» для установки оптимальных временных промежутков между загрузкой страниц.
  8. Избежать дублирование контента с помощью грамотной настройки функции «Clean-param».

Важно! Зафиксированы случаи, когда отсутствие robots.txt интерпретировалось поисковыми роботами в качестве ошибки сервера. Столкнувшиеся с подобной проблемой оптимизаторы сетуют на некорректные результаты индексации. В отдельных случаях отмечается также удаление целых сайтов из результатов поиска.

Основной опцией robots.txt при продвижении веб-ресурсов будет направление поисковых сканеров на готовую страницу sitemap, где хранится база данных проиндексированных и новых страниц. Изучая информацию из этого каталога, робот поисковой системы существенно ускорит процесс проверки обновленных разделов и папок.

Настройка sitemap.xml выглядит следующим образом:

  1. Разрешается доступ для ботов всех поисковых систем посредством добавления директивы «User-agent: *».
  2. Снимаются любые запреты на последующую индексацию каталога путем применения команды «Allow: /catalog».
  3. Игнорируется параметр ограничения доступа к текущему содержимому сайта с помощью директивы «Disallow: /».
  4. Задается путь к файлу за счет использования строки «Sitemap: https://выбранный домен/sitemap.xml».

Настройка стандарта исключений для современных поисковых роботов – это один из этапов технической оптимизации. Удачная конфигурация robots.txt не просто ускорит индексацию, но и позволит с легкостью управлять доступом к содержимому страниц.

Применение команды «Host», например, обеспечит устранение из списка поисковой выдачи зеркал продвигаемых сайтов, а использование опции «Crawl-delay» защитит сервер от перегрузки или DDoS-атак.

Источник

Файл robots.txt — подчини себе Yandex и Google

Robots — это обыкновенный текстовой файл (.txt), который располагается в корне сайта наряду c index.php и другими системными файлами. Его можно загрузить через FTP или создать в файловом менеджере у хост-провайдера. Создается данный файл как обыкновенный текстовой документ с самым простым форматом — TXT. Далее файлу присваивается имя ROBOTS. Выглядит это следующим образом:

(robots.txt в корневой папке WordPress)

После создание самого файла нужно убедиться, что он доступен по ссылке ваш домен/robots.txt. Именно по этому адресу поисковая система будет искать данный файл.

В большинстве систем управления сайтами роботс присутствует по умолчанию, однако зачастую он настроен не полностью или совсем пуст. В любом случае, нам придется его править, так как для 95% проектов шаблонный вариант не подойдет.

Зачем robots.txt в SEO?

Первое, на что обращает внимание оптимизатор при анализе/начале продвижения сайта — это роботс. Именно в нем располагаются все главные инструкции, которые касаются действий индексирующего робота. Именно в robots.txt мы исключаем из поиска страницы, прописываем пути к карте сайта, определяем главной зеркало сайта, а так же вносим другие важные инструкции.

Ошибки в директивах могут привести к полному исключению сайта из индекса. Отнестись к настройкам данного файла нужно осознано и очень серьезно, от этого будет зависеть будущий органический трафик.

Создаем robots самостоятельно

Сам процесс создания файла до безобразия прост. Необходимо просто создать текстовой документ, назвав его «robots». После этого, подключившись через FTP соединение, загрузить в корневую папку Вашего сайта. Обязательно проверьте, что бы роботс был доступен по адресу ваш домен/robots.txt. Не допускается наличие вложений, к примеру ваш домен/page/robots.txt.

Если Вы пользуетесь web ftp — файловым менеджером, который доступен в панели управления у любого хост-провайдера, то файл можно создать прямо там.

В итоге, у нас получается пустой роботс. Все инструкции мы будем вписывать вручную. Как это сделать, мы опишем ниже.

Используем online генераторы

Если создание своими руками это не для Вас, то существует множество online генераторов, которые помогут в этом. Но нужно помнить, что никакой генератор не сможет без Вас исключить из поиска весь «мусор» и не добавит главное зеркало, если Вы не знаете какое оно. Данный вариант подойдет лишь тем, кто не хочет писать рутинные повторяющиеся для большинства сайтов инструкции.

Сгенерированный онлайн роботс нужно будет в любом случае править «руками», поэтому без знаний синтаксиса и основ Вам не обойтись и в этом случае.

Используем готовые шаблоны

В Интернете есть множество шаблонов для распространенных CMS, таких как WordPress, Joomla!, MODx и т.д. От онлайн генераторов они отличаются только тем, что сам текстовой файл Вам нужно будет сделать самостоятельно. Шаблон позволяет не писать большинство стандартных директив, однако он не гарантирует правильную и полную настройку для Вашего ресурса. При использовании шаблонов так же нужны знания.

Синтаксис robots.txt

Использование правильного синтаксиса при настройке — это основа всего. Пропущенная запятая, слэш, звездочка или проблем могут «сбить» всю настройку. Безусловно, есть системы проверки файла, однако без знания синтаксиса они все равно не помогу. Мы по порядку рассмотрим все возможные инструкции, которые применяются при настройке robots.txt. Сначала самые популярные.

Обращение к индексирующему роботу

Любой файл robots начинается с директивы User-agent:, которая указывает для какой поисковой системы или для какого робота приведены инструкции ниже. Пример использования:

Строка 1 — Инструкции для всех роботов Яндекса
Строка 2 — Инструкции для основного индексирующего робота Яндекса
Строка 3 — Инструкции для основного индексирующего робота Google
Яндекс и Гугл имеют не один и даже не два робота. Действиями каждого можно управлять в нашем robots.txt. Давайте рассмотрим, какие бывают роботы и зачем они нужны.

Читайте также:  Настройка хада холдем менеджер 2 для турниров

Роботы Yandex

Название Описание Предназначение
YandexBot Основной индексирующий робот Отвечает за основную органическую выдачу Яндекса.
YandexDirect Работ контекстной рекламы Оценивает сайты с точки зрения расположения на них контекстных объявлений.
YandexDirectDyn Так же робот контекста Отличается от предыдущего тем, что работает с динамическими баннерами.
YandexMedia Индексация мультимедийных данных. Отвечает, загружает и оценивает все, что связано с мультимедийными данными.
YandexImages Индексация изображений Отвечает за раздел Яндекса «Картинки»
YaDirectFetcher Так же робот Яндекс Директ Его особенность в том, что он интерпретирует файл robots особым образом. Подробнее о нем можно прочесть у Яндекса.
YandexBlogs Индексация блогов Данный робот отвечает за посты, комментарии, ответы и т.д.
YandexNews Новостной робот Отвечает за раздел «Новости». Индексирует все, что связано с периодикой.
YandexPagechecker Робот микроразметки Данный робот отвечает за индексацию и распознание микроразметки сайта.
YandexMetrika Робот Яндекс Метрики Тут все и так ясно.
YandexMarket Робот Яндекс Маркета Отвечает за индексацию товаров, описаний, цен и всего того, что относится к Маркету.
YandexCalendar Робот Календаря Отвечает за индексацию всего, что связано с Яндекс Календарем.

Роботы Google

Название Описание Предназначение
Googlebot (Googlebot) Основной индексирующий роботом Google. Индексирует основной текстовой контент страницы. Отвечает за основную органическую выдачу. Запрет приведет к полному отсутствия сайта в поиске.
Googlebot-News (Googlebot News) Новостной робот. Отвечает за индексирование сайта в новостях. Запрет приведет к отсутствию сайта в разделе «Новости»
Googlebot-Image (Googlebot Images) Индексация изображений. Отвечает за графический контент сайта. Запрет приведет к отсутствию сайта в выдаче в разделе «Изображения»
Googlebot-Video (Googlebot Video) Индексация видео файлов. Отвечает за видео контент. Запрет приведет к отсутствию сайта в выдаче в разделе «Видео»
Googlebot (Google Smartphone) Робот для смартфонов. Основной индексирующий робот для мобильных устройств.
Mediapartners-Google (Google Mobile AdSense) Робот мобильной контекстной рекламы Индексирует и оценивает сайт с целью размещения релевантных мобильных объявлений.
Mediapartners-Google (Google AdSense) Робот контекстной рекламы Индексирует и оценивает сайт с целью размещения релевантных объявлений.
AdsBot-Google (Google AdsBot) Проверка качества страницы. Отвечает за качество целевой страницы — контент, скорость загрузки, навигация и т.д.
AdsBot-Google-Mobile-Apps Робот Google для приложений Сканирование для мобильных приложений. Оценивает качество так же, как и предыдущий робот AdsBot

Обычно robots.txt настраивается для всех роботов Яндекса и Гугла сразу. Очень редко приходится делать отдельные настройки для каждого конкретного краулера. Однако это возможно.

Другие поисковые системы, такие как Bing, Mail, Rambler, так же индексируют сайт и обращаются к robots.txt, однако мы не будем заострять на них внимание. Про менее популярные поисковики мы напишем отдельную статью.

Запрет индексации Disallow

Без сомнения самая популярная директива. Именно при помощи disallow страницы исключаются из индекса. Disallow — буквально означает запрет на индексацию страницы, раздела, файла или группы страниц (при помощи маски). Рассмотрим пример:

Строка 1 — запрет на индексацию всего раздела wp-admin
Строка 2 — запрет на индексацию подраздела plugins
Строка 3 — запрет на индексацию изображения в папке img
Строка 4 — запрет индексации документа
Строка 5 — запрет на индексацию trackback в любой папке на 1 уровень
Строка 6 — запрет на индексацию не только /my, но и /folder/my или /foldermy

Данная директива поддерживает маски, о которых мы подробнее напишем ниже.
После Disallow в обязательном порядке ставится пробел, а вот в конце строки пробела быть не должно. Так же, допускается написание комментария в одной строке с директивой через пробел после символа «#», однако это не рекомендуется.

Указание нескольких каталогов в одной инструкции не допускается!

Разрешение индексации Allow

Обратная Disallow директива Allow разрешает индексацию конкретного раздела. Заходить на Ваш сайт или нет решает поисковая система, но данная директива ей это позволяет. Обычно Allow не применяется, так как поисковая система старается индексировать весь материал сайта, который может быть полезен человеку.

Пример использования Allow

Строка 1 — разрешает индексацию всего каталога /img/
Строка 2 — разрешает индексацию документа
Строка 3 — разрешает индексацию страницы
Строка 4 — разрешает индексацию по маске *my

Данная директива поддерживает и подчиняется всем тем же правилам, которые справедливы для Disallow.

Директива host robots.txt

Данная директива позволяет обозначить главное зеркало сайта. Обычно, зеркала отличаются наличием или отсутствием www. Данная директива применяется в каждом robots и учитывается большинством поисковых систем.

Если вы не пропишите главное зеркало сайта через host, Яндекс сообщит Вам об этом в Вебмастере.

Не знаете главное зеркало сайта? Определить довольно просто. Вбейте в поиск Яндекса адрес своего сайта и посмотрите выдачу. Если перед доменом присутствует www, то значит главное зеркало у вас с www.

Если же сайт еще не участвует в поиске, то в Яндекс Вебмастере в разделе «Переезд сайта» Вы можете задать главное зеркало самостоятельно.

Sitemap.xml в robots.txt

Данную директиву желательно иметь в каждом robots.txt, так как ее используют yandex, google, а так же все основные поисковые системы. Директива представляет из себя ссылку на файл sitemap.xml в котором содержатся все страницы, которые предназначены для индексирования. Так же в sitemap указываются приоритеты и даты изменения.

О том, как правильно создавать sitemap.xml мы напишем чуть позже.

Использование директивы Clean-param

Очень полезная, но мало кем применяющаяся директива. Clean-param позволяет описать динамические части URL, которые не меняют содержимое страницы. Такими динамическими частями могут быть:

  • Идентификаторы сессий;
  • Идентификаторы пользователей;
  • Различные индивидуальные префиксы не меняющие содержимое;
  • Другие подобные элементы.

Clean-param позволяет поисковым системам не загружать один и тот же материал многократно, что делает обход сайта роботом намного эффективнее.

Объясним на примере. Предположим, что для определения с какого сайта перешел пользователь мы взяли параметр site. Данный параметр будет меняться в зависимости от ресурса, но контент страницы будет одним и тем же.

Читайте также:  Push and pull bitrix настройка

Все три ссылки разные, но они отдают одинаковое содержимое страницы, поэтому индексирующий робот загрузит 3 копии контента. Что бы этого избежать пропишем следующие директивы:

В данном случае робот Яндекса либо сведет все страницы к одному варианту, либо проиндексирует ссылку без параметра. Если такая конечно есть.

Использование директивы Crawl-delay

Довольно редко используемая директива, которая позволяет задать роботу минимальный промежуток между загружаемыми страницами. Crawl-delay применяется, когда сервер нагружен и не успевает отвечать на запросы. Промежуток задается в секундах. К примеру:

В данном случае таймаут будет 3 секунды. Кстати, стоит отметить, что Яндекс поддерживает и не целые значения в данной директиве. К примеру, 0.4 секунды.

Комментарии в robots.txt

Хороший robots.txt всегда пишется с комментариями. Это упростит работу Вам и поможет будущим специалистам.

Что бы написать комментарий, который будет игнорировать робот поисковой системы, необходимо поставить символ «#». К примеру:

Так же возможно, но не желательно, использовать комментарий в одной строке с инструкцией.

На данный момент никаких технических запретов по написанию комментария в одной строке с инструкцией нету, однако это считается плохим тоном.

Маски в robots.txt

Применение масок в robots.txt не только упрощает работу, но зачастую просто необходимо. Напомним, маска — это условная запись, которая содержит в себе имена нескольких файлов или папок. Маски применяются для групповых операций с файлами/папками. Предположим, что у нас есть список файлов в папке /documents/

Среди этих файлов есть презентации в формате pdf. Мы не хотим, что бы их сканировал робот, поэтому исключаем из поиска.

Мы можем перечислять все файлы формата .pdf «в ручную»

А можем сделать простую маску *.pdf и скрыть все файлы в одной инструкции.

Удобно, не правда ли?
Маски создаются при помощи спецсимвола «*». Он обозначает любую последовательность символов, в том числе и пробел. Примеры использования:

Стоит отметить, что по умолчанию спецсимвол «*» добавляется в конце каждой инструкции, которую Вы прописываете. То есть,

То есть, мы исключаем все, что находится в папке /wp-admin, а так же /wp-admin.html, /wp-admin.pdf и т.д. Для того, что бы этого не происходило необходимо в конце инструкции поставить другой спецсимвол — «$».

В таком случае, мы уже не запрещаем файлы /wp-admin.html, /wp-admin.pdf и т.д

Как правильно настроить robots.txt?

С синтаксисом robots.txt мы разобрались выше, поэтому сейчас напишем как правильно настроить данный файл. Если для популярных CMS, таких как WordPress и Joomla!, уже есть готовые robots, то для самописного движка или редкой СУ Вам придется все настраивать вручную.

(Даже несмотря на наличие готовых robots.txt редактировать и удалять «уникальный мусор» Вам придется и в ВордПресс. Поэтому этот раздел будет полезен и для владельцев сайтов на ТОПовых CMS)

Что нужно исключать из индекса?

А.) В первую очередь из индекса исключаются дубликаты страниц в любом виде. Страница на сайте должна быть доступна только по одному адресу. То есть, при обращении к ресурсу робот должен получать по каждому URL уникальный контент.

Зачастую дубликаты появляются у систем управления сайтом при создании страниц. К примеру, одна и та же страница может быть доступна по техническому адресу /?p=391&preview=true и одновременно с этим иметь ЧПУ. Так же дубли могут возникать при работе с динамическими ссылками.

Всех их необходимо при помощи масок исключать из индекса.

Б.) Все страницы, которые имеют не уникальный контент, желательно убрать из индекса еще до того, как это сделает поисковая система.

В.) Из индекса должны быть исключены все страницы, которые используются при работе сценариев. К примеру, страница «Спасибо, сообщение отправлено!».

Г.) Желательно исключить все страницы, которые имеют индикаторы сессий

Д.) В обязательном порядке из индекса должны быть исключены все файлы вашей cms. Это файлы панели администрации, различных баз, тем, шаблонов и т.д.

Е.) Пустые страницы и разделы, «не нужный» пользователям контент, результаты поиска и работы калькулятора так же должны быть недоступны роботу.

«Держа в чистоте» Ваш индекс Вы упрощаете жизнь и себе и индексирующему роботу.

Что нужно разрешать индексировать?

Да по сути все, что не запрещено. Есть только один нюанс. Поисковые системы по умолчанию индексируют любой полезный контент Вашего сайта, поэтому использовать директиву Allow в 90% случаев не нужно.

Корректный файл sitemap.xml и качественная перелинковка дадут гарантию, что все «нужные» страницы Вашего сайта будут проиндексированы.

Обязательны ли директивы host и sitemap?

Да, данные директивы обязательны. Прописать их не составит труда, но они гарантируют, что робот точно найдет sitemap.xml, и будет «знать» главное зеркало сайта.

Для каких поисковиков настраивать?

Инструкции файла robots.txt понимают все популярные поисковые системы. Если различий в инструкциях нету, то Вы можете прописать User-agent: * (Все директивы для всех поисковиков).

Однако, если Вы укажите инструкции для конкретного робота, к примеру Yandex, то все другие директивы Яндексом будут проигнорированы.

Нужны ли мне директивы Crawl-delay и Clean-param?

Если Вы используете динамические ссылки или же передаете параметры в URL, то Вам скорее всего понадобиться Clean-param, дабы не вводить робота в заблуждение. Использование данной директивы мы описали выше. Данная директива поможет Вам избежать ненужных дубликатов в поиске, что очень важно.

Использование Crawl-delay зависит исключительно от Вашего хостинга. Если Вы чувствуете, что сервер уже не справляется запросами, то желательно увеличить время межу ними.

Проверяем свой robots.txt

После настройки файла его необходимо проверить. Сделать это возможно через Ваш Вебмастер в разделе «Инструменты» -> «Анализ robots.txt»

Но нужно понимать, что данный онлайн инструмент сможет лишь найти синтаксическую ошибку. Он никак не убережет Вас от лишней исключенной страницы, а так же от мусора в выдаче.

Источник

Adblock
detector