Запретить индексацию части url
На сайте адреса типа
https : //site.zone/news/***/day/12 Как в robots.txt запретить индексацию страниц начиная с DAY, всё что перед ним должно индексироваться? Помогите пожалуйста добавлено через 22 минуты Вроде так: Код HTML:
User-Agent: * |
Disallow: /news/*/day
а вообще тест через гугл вебмастерс. |
А вообще Гугл Вебмастер, говорит, что нельзя запрещать страницы через Robots.txt, т.к. если есть ссылки на сайте на эти страницы, то они всё равно будут показываться в поиске. А NoIndex на таких страницах Гугл не воспримет, т.к. запрещена индексация в Robots.txt.
|
Код:
Disallow: */day* Цитата:
|
Цитата:
Цитата:
Цитата:
|
Мне кажется, что гугловцы лукавят, так ни одна страница или раздел или группа страниц явно запрещенная в роботсе к индексирования на моих сайтах - не была проиндексирована.
Например, страницы профилей пользователей и т. д. Хотя я иногда не ограничиваюсь запретами в роботсе, но и программно средствами движка скрываю нужное от ботов. Но, например, у меня на сайтах, есть свои уникальные страницы 404, созданные не движком, а вручную. На них стоит запрет для просмотра ботами только в роботсе и более нигде. В поиске их нет до сих пор. Для ботов ПС верно следующее утверждение: Если на чужом сайте стоит ссылка на страницу на вашем сайте, индексирование которой запрещено в роботсе, то ссылка будет проиндексирована, а вот страница по ссылке - нет. Означать это будет следующее: Ссылка на страницу и заголовок страницы попадут в выдачу, а содержимое страницы - нет. И будет стоять приписка вроде такой: "Владелец сайта скрыл содержимое этой страницы". Если есть возможно скрыть содержимое с помощью тегов - то можно использовать и их. Только вот при этом есть вероятность, что и ссылка на страницу и ее заголовок все равно проиндексируются, если ссылка на эту страницу где-то прописана, куда боты имеют свободный доступ. добавлено через 3 минуты То есть в общем, максимум что будет в выдаче это, пример: Пластиковые окна заказать онлайн в Москве Владелец сайта скрыл содержимое этой страницы |
Гугл индексирует всё, до чего только может дотянуться. Даже JavaScript парсит, гад! Закрытое в роботс.txt он просто не покажет в выдаче и (возможно) не будет учитывать его содержимое.
Зачем пытаетесь закрыться от индексации? Если для закрытия дублей, то лучше ещё использовать canonical на исходную страницу. |
Закрытие страниц, которые актуальны только в течение 4 дней текущего месяца. И проиндексированные в этом месяце теряют смыл в поиске через 4 дня. После этого 27 дней они нерабочие.
|
В дублях можно еще прописать для гугла теги ноиндекс и нофоллоу. В мета. Их он точно учтет.
|
Текущее время: 00:50. Часовой пояс GMT +4. |
Powered by vBulletin® Version 3.8.4
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Техническая поддержка — DevArt.PRO. Перевод: zCarot.