Приветствую Вас Гость • Регистрация • Вход
Понедельник, 16.12.2019
Главная » 2013 » Сентябрь » 9 » Правильный файл для поисковиков robots.txt
12:00
Правильный файл для поисковиков robots.txt
До того нежели вносить интернет-сайт в поисковыe системы и разныe тематическиe каталогu нужно хорошо собрать и закачать в корень интернет-сайта файл robots.txt. Как раз данному файлу и приурочена ниже предоставленная заметка.

Robots.txt – наверное 1-ый файл, на какой направляют интерес поисковые боты, при посещении вашего интернет-сайта, потому и интерес данному файлу необходимо присвоить соответственный, чтоб ничего нигде не спутать. Этот файл никак не считается неотъемлемой сочиняющей интернет-сайта, и его разрешено в общем не загружать, ежели ваш интернет-сайт состоит из нескольких страничек и работает визиткой Вашей компании либо фирмы. Однако ежели на Вашем веб-сайте сберегаются какие-то сокрытые странички либо файлы и Вы желаете прикрыть их от индексации поисковыми системами, тогда файл robots.txt Вам элементарно нужен. В предоставленном файле Вы как бы даете команды ботам конкретных поисковых систем на запрет индексации или наоборот разрешить индексировать определенные страницы,папки и др. А смотрятся данные команды последующим образом:

User-agent: - послe двоеточия Вы прописываете заглавие поискового бота конкретной поисковой системы для которой станут вестись все следующие команды. Традиционно послe двоеточия прописывается элементарно звездочка: User-agent:*. Это означает, что следующие команды станут дотрагиваться всех поисковых систем.
Ниже приведен перечень роботов самых фаворитных поисковиков:

  • Google - http://www.google.com Googlebot
  • Yahoo! - http://www.yahoo.com Slurp (либо Yahoo! Slurp)
  • AOL - http://www.aol.com Slurp
  • MSN - http://www.msn.com MSNBot
  • Live - http://www.live.com MSNBot
  • Ask - http://www.ask.com Teoma
  • AltaVista - http://www.altavista.com Scooter
  • Alexa - http://www.alexa.com ia_archiver
  • Lycos - http://www.lycos.com Lycos
  • Yandex - http://www.ya.ru Yandex
  • Rambler - http://www.rambler.ru StackRambler
  • Mail - http://mail.ru Mail.Ru
  • Aport - http://www.aport.ru Aport
  • Webalta - http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)

Disallow: - послe двоеточия прописывается файл либо папка, доступ к которой вы желаете воспретить.
К примеру, Disallow: /img/ - будет означать, то что все файлы либо папки, оказавшиеся в папке img индексироваться никак не станут.
Стоит подметить, в данном наборе нет команды разрешающей индексацию, потому ежели Вы желаете сделать легкодоступной для поиска только 1 страничку интернет-сайта, а другие воспретить, то нужно все их вписать.

Host: - наверное совсем принципиальная и специфичная команда. Вы наверняка уже понимаете, что url 1-го и такого же интернет-сайта разрешено записывать как с www так и с его отсутствием. Однако наверное для нас он разницы не имеет, а для поисковых роботов- оказаться полностью разные значения на два различных ресурса. Потому Yandex без лишних заморочек имеет возможность разделить тИЦ Вашего интернет-сайта на 2: 1-ая половинка достанется домену в без www,ну а 2-ая с www.
Это ничто иное как именуется двуличность домена ,и чтоб ее избежать и есть команда Host:, в этом месте послe двоеточия прописывается желаемый Вами домен с www либо без него, к примеру: Host: perviu.ru. Нужно подметить, что все необходимо вписывать и корректировать до того , как Ваш интернет-проект проиндексируют поисковые системы, по другому говоря если вы не сделате этого до того,то вашему вебсайту можно сильно насолить. Ежели интернет-сайт полностью проиндексировали поисковики, тогда поглядите, как они правильно или нет проиндексировали его (с www либо с его отсутствием ),и напишите после того в команде Host: правильное значение.

В предоставленном файле указывается путь к карте интернет-сайта в формате xml, к примеру:
Sitemap: http://vash_site.ru/sitemap.xml

Разрешено еще применять команду allow, к примеру:
Disallow:/img/
Allow:/img/miniimg/
Таковая запись будет значить, будто в прикрытой для индексации папке img станет доступна к индексации папка miniimg

Формируется файл robots.txt в обыкновенном текстовом блокноте. И закачивается только в корень интернет-сайта, при этом заглавие интернет-сайта обязано быть написано лишь знаками с нижним индексом. Ниже представлен образчик содержания такового файла:
Код

User-agent:*
Disallow: /img/
Allow:/img/miniimg/
Disallow: /money.php
Host: mysite.ru
Sitemap: http://mysite.ru/sitemap.xml

Расшифровка предоставленного файла обычным российским языком звучит последующим образом: «Поисковым ботам всех поисковых систем воспрещается регистрировать файл money.php, а еще все файлы и папки, оказавшиеся в папке img, не считая miniimg, а главным доменом полагать домен mysite.ru».
Категория: WEB-мастеру вопросы и советы | Просмотров: 1090 | Добавил: Samosval |Рейтинг: 0.0/0


Всего комментариев: 0
avatar
    Яндекс.Метрика
Сайт создан в системе uCozЯндекс.Метрика