Меню

Настройка robot txt для modx



[Modx Evo] SEO настройки robots.txt

Изначально в modx существует такая вещь, как повтор страниц, например

это одна и та же страница

Необходимые действия для оптимизации сайта:

  1. Включаем ЧПУ в конфигурации
  2. В корень сайта заливаем файл robots.txt с таким внутренним содержанием:

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Disallow: /?
Disallow: /*?
Host: yoursite.ru
Sitemap: http://yoursite.ru/sitemap.xml

таким путем мы исключаем из индексирования страницы первого типа.

  • (вместо этого пункта советую сделать пункт 4) Для исключения страниц остальных типов необходимо отредактировать файл /manager/includes/document.parser.class.inc.php
  • Где то около 1077 строки найдите код

    и затем введите

    preg_match(‘/[0-9]*/’, $this->documentIdentifier, $res);
    asort($res);
    if (intval($res[0])>0) <
    if (!preg_match(‘/\/[0-9]<1,>/’, ($this->makeUrl($res[0], », », ‘full’)))) <
    header (‘HTTP/1.1 301 Moved Permanently’);
    header(«Location: «.($this->makeUrl($res[0], », », ‘full’)));
    >
    >

    должен получиться такой вот файл

    4. его надо делать вместо пункта 3.

    Существует такой вот милый и удобный плагин SEO Strict URLs 1.0.1. http://modx.com/extras/package/seostricturls это его официальная страница.

    Скачиваем код, создаем в админке новый плагин (Элементы – Управление элементами – Плагины), назовем его SEOStrict, в поле кода вставляем скаченный код.

    Затем перейдите на вкладку КОНФИГУРАЦИЯ, там в окне Конфигурация плагина вставим :

    Edit document links (редактировать ссылки документа) – При включенном параметре(1) все ссылки будут проверены и изменены на единственно верные. Например, ссылки на главную страницу вида http://site.com/index.htm будут заменены на строгое http://site.com/.

    Rewrite containers as folders (перезаписывать контейнеры как папки) – Если не отключить, то в УРЛе всех документов имеющих дочерние ресурсы будет добавлен символ слеш «/» в конце.

    Check for empty container when rewriting (проверить пустой контейнер при перезаписи)

    Enable manual overrides (включить ручной отмен) – Чтобы подключать к конкретной странице ручные значения из TV параметра «seoOverride» потребуется выставить здесь единицу.

    Override TV name (имя TV параметра для ручного отмена) – по умолчанию seoOverride.

    Затем переходим на вкладку «Системные события». И проставляем галочки напротив строк OnWebPageInit и OnWebPagePrerender.

    И последнее, создаем TV с именем seoOverride. Тип ввода: DropDown List Menu. Управление элементами – Параметры (TV) – Новый параметр (TV)

    В поле возможные значения :

    Disabled==-1||Base Name==0||Append Extension==1||Folder==2

    Значение по умолчанию: -1 (минус один). Делаем его доступным для всех шаблонов и сохраняем.

    Disabled – заблокировано ручное изменение URL для данной страницы.

    Base Name – указывать в адресе страницы только псевдоним без суффикса. Например, псевдоним страницы у нас sitemap.xml. Если включено автоматическое добавление суффикса, то мы получим адрес этой страницы – http://sitemap.xml.html. Назначив же для этого документа значение Base Name, мы отключим суффикс и получим адрес страницы http://sitemap.xml.

    Append Extension – добавить расширение. Разрешить MODx добавлять автоматически суффикс (.html или .htm). Противоположно предыдущему параметру.

    Источник

    Правильный robots.txt для MODx CMS

    Приветствую вас на своём сайте. С вами снова добрый дед-сеошник.

    Читайте также:  Вернуть браузер к начальным настройкам

    Сегодня речь пойдёт о том, как составлять правильный файл robots.txt (он же «роботс») для CMS MODx Revo (Revolution) и Evo (Evolution). В этих CMS тоже существует проблема дублей, пусть и не очень существенная; тем более закрыть эти дубли от индексации при помощи robots.txt не составит абсолютно никаких проблем.

    Для начала, не забываем включить ЧПУ в настройках сайта.

    Составляем robots.txt для MODx Evo

    User-agent: *
    Disallow: /assets/cache/
    Disallow: /assets/docs/
    Disallow: /assets/export/
    Disallow: /assets/import/
    Disallow: /assets/modules/
    Disallow: /assets/plugins/
    Disallow: /assets/snippets/
    Disallow: /install/
    Disallow: /manager/
    Disallow: /?
    Disallow: /*?
    Disallow: /index.php
    Host: endseo.ru
    Sitemap: http://endseo.ru/sitemap.xml

    Теперь robots.txt для MODx Revo

    User-agent: *
    Disallow: /manager/
    Disallow: /assets/components/
    Disallow: /core/
    Disallow: /connectors/
    Disallow: /index.php
    Disallow: *?
    Host: endseo.ru
    Sitemap: http://endseo.ru/sitemap.xml

    Некоторые советы по поводу составления «роботс» для CMS MODx

    • index.php — это дубль главной страницы сайта
    • с помощью *? мы удаляем дубли для всех страниц
    • Sitemap желательно не указывать в файле robots.txt, потому существуют не очень хорошие боты, которые таким образом парсят ваши сайты, используя эту директиву. Для нормальных поисковых систем карту сайта можно, при желании, загрузить через панель вебмастера. Но и это не так важно.

    С вами был дедушка-сеошник, читайте блог и подписывайтесь на обновления.

    Источник

    Создание и настройка robots.txt для MODX Revolution

    После создания файла sitemap.xml самое время сказать поисковым роботам, где нужно и где не нужно искать на нашем сервере (в том числе тот же sitemap.xml). Создание файла robots.txt для этих нужд при использовании MODX Revolution, в целом, не сильно отличается от прочих случаев. Однако, мы можем упростить поисковым роботам жизнь, если учтём в robots.txt каталоги этой CMS.

    Самый простой и универсальный способ создания файла robots.txt это создать его непосредственно на своём компьютере, а затем загрузить в корень сайта. Просто откройте текстовый редактор, создайте файл с именем robots и задайте ему расширение txt.

    Другой способ создать robots.txt для MODX Revolution — создать его непосредственно из «админки». Сразу скажу, что «универсального» или «правильного» файла robots.txt не существует. Вы наполняете его в соответствии с вашими потребностями. Ниже я приведу пример такого файла и прокомментирую его содержимое.

    Первая строчка ( User-agent: * ) говорит нам о том, что настройки применяются ко всем поисковым роботам.

    Строки, начинающиеся с Disallow , запрещают индексирование указанных каталогов. Какие каталоги мы закрыли?

    cgi-bin — папка для CGI-скриптов, может содержать файлы конфигурации;

    manager — каталог админ-панели MODX;

    assets/components — каталог с дополнениями;

    core — каталог ядра CMS;

    connectors — каталог точек входа для AJAX-запросов;

    index.php — дубль главной страницы сайта;

    Ну а *? поможет избавиться от дублей страниц.

    Отметим, что даже если вы не собираетесь ничего закрывать, оставьте в файле строку

    Дело в том, что инструкция Disallow является обязательной в robots.txt, и без неё робот может «не понять» файл.

    Читайте также:  Gsm alarm настройка номеров

    Строки, которые начинаются с Allow , открывают доступ к определенным частям сайта. На самом деле, поисковый робот сканирует всё, что не помечено Disallow , но что делать, если нужно открыть доступ к определенным файлам или подкаталогам в закрытом каталоге? Тогда и используется Allow . Так, хотя мы и закрыли доступ к папке core, но разрешаем сканирование изображений в /core/cache/phpthumb/.

    Директива Host нужна для поискового робота Яндекса. Если вы используете протокол HTTPS, то URL сайта в этой строке нужно указать с ним. При использовании HTTP протокол указывать не нужно. Однако, в свете последних событий, использование директивы Host выглядит не обязательным.

    Источник

    Правильный robots.txt для REVO?

    Комментарии: 28

    У них конфиг заточенный под их проект
    В частности у них есть каталог /inc/ и каталог /sub/
    Также clean-parametr применяется, который не везде нужен.

    Короче этот конфиг не универсален
    Ниже предлагаю свой.

    Вариант 1:
    — вынести директории за пределы доступной с браузера области (тогда robots.txt можно вообще не трогать)

    Вариант 2:
    — создать папку с нейтральным названием, допустим, system (и закрыть к ней доступ через robots.txt)
    — засунуть в нее переименованные manager, connectors

    Нет, не обязательно. Достаточно перенести директории и прописать новые пути в следующих файлах:

    (manager и connectors, соответственно будут расположены там, где вы их разместили)

    и закрыть к ней доступ через robots.txt

    Зачем ее вообще закрывать в роботсе?

    Самый простой вариант: переименовать manager и connectors, а в роботсе закрывать только те дериктории которые по умолчанию разрешены для индексации но их надо закрыть!

    Например необходимо закрыть от индексации новости, тогда:
    Disallow: /news/
    И тд.
    Зачем служебные каталоги закрывать которые и так закрыты ума не приложу))

    Источник

    robots.txt для MODx

    В MODx существует проблема дублей, пусть и не очень существенная, тем более закрыть эти дубли от индексации при помощи robots.txt не составит абсолютно никаких проблем.

    robots.txt для MODx Evo и Revo

    Cоставляем необходимый для правильной индексации сайта файл robots.txt (он же «роботс») для CMS MODx Revo (Revolution) и Evo (Evolution).

    В этих CMS тоже существует проблема дублей, пусть и не очень существенная, тем более закрыть эти дубли от индексации при помощи robots.txt не составит абсолютно никаких проблем.

    Для начала, не забываем включить ЧПУ в настройках сайта.

    robots.txt для MODx Evo

    User-agent: *
    Disallow: /assets/cache/
    Disallow: /assets/docs/
    Disallow: /assets/export/
    Disallow: /assets/import/
    Disallow: /assets/modules/
    Disallow: /assets/plugins/
    Disallow: /assets/snippets/
    Disallow: /install/
    Disallow: /manager/
    Disallow: /?
    Disallow: /*?
    Disallow: /index.php

    robots.txt для MODx Revo

    User-agent: *
    Disallow: /manager/
    Disallow: /assets/components/
    Disallow: /core/
    Disallow: /connectors/
    Disallow: /index.php
    Disallow: *?

    Советы по поводу составления «роботс» для CMS MODx

    • index.php — это дубль главной страницы сайта
    • с помощью *? мы удаляем дубли для всех страниц
    • Sitemap желательно не указывать в файле robots.txt, потому существуют не очень хорошие боты, которые таким образом парсят ваши сайты, используя эту директиву.
      Для нормальных поисковых систем карту сайта можно, при желании, загрузить через панель вебмастера. Но и это не так важно .
    Читайте также:  Настройка триколор антенны во владикавказе

    Комментарии (6)

    > В MODx существует проблема дублей
    Это проблема разработчика, а не MODX.

    > Sitemap желательно не указывать в файле robots.txt, потому существуют не очень хорошие боты, которые таким образом парсят ваши сайты, используя эту директиву.
    Во-первых, это проблема не сайта, а выбора хостинга.
    Во-вторых, расположение карты сайта по этому адресу де факто стало стандартом, поэтому ботам нет смысла смотреть robots.txt, чтобы узнать расположение карты сайта.
    В-третьих, таким же образом «не очень хорошие» боты могут парсить сайт, не используя карту сайта.

    зачем эти папки указывать?

    ИМХО это лишнее,
    на эти папки ссылок с сайта нет и сервер 403 ошибку выдаёт.

    на сколько целесообразно использовать? тут вопросы

    1) Целесообразно открывать картинки, CSS и JS для индексации, Гугл прямо на это указывает. Но речь идет о стилях и яваскриптах фронтэнда, и совершенно ни к чему открывать для индексации *.js и *.css админки.

    2) Слова ТС о том, что дескать распарсят сайт по сайтмэпу — ерунда. Кому надо — и так распарсят, да кстати и пусть парсят, особенно если каноникал указывать для страниц в формате full.

    Сайтмэп нужно указывать в роботсе, так как это ещё один «путеводитель» для роботов ПС, которым пренебрегать не стоит.

    3) А насчет дублей со знаками вопроса — это действительно проблема разраба.

    4) Вот про эту строку Disallow: /install/ вообще не пойму — зачем она кочует из сборки в сборку. Ведь install мы удаляем после установки…

    Источник

    MODx: начальная SEO оптимизация вашего сайта

    CMS MODx имеет большую популярность среди разработчиков и как следствие SEO специалистам приходится с ней работать. Сложностей в продвижении сайтов на MODx нет, если при старте сделать правильную SEO оптимизацию проекта.

    Первый этап

    SEO оптимизация начинается с закрытия различных дублей на проекте

    robots.txt для MODx evolution

    robots.txt для MODx revolution

    Установка Яндекс Метрики или Google Analytics в MODX

    Самый простой и легкий вариант — это просто установить счетчик. Код счетчика необходимо поставить в шаблон layout.tpl

    Настройка ЧПУ в MODx

    «Система» (System ) –> «Настройки системы» (System settings) –> выбираем «Дружественные URL» (Friendly URL):

    Выбираем следующие значения:

    • автоматически генирировать псевдоним – ставим «Нет»;
    • использовать дружественные URL – «Да»;
    • использовать вложенные урлы – «Да».

    Потом установите «дополнение Translit» (modx.com/extras/package/translit)

    .htaccess для MODX revolution

    Что важно для этой CMS? Для директории “public_html“ :

    Сайт с www или без www в MODX через .htaccess

    Для поисковых систем важно, чтобы была одна версия сайта. Какая из них вам по душе — выбирайте сами, но правильнее бы без www:

    Источник

    Adblock
    detector