DomenForum.net - Запретить индексацию части url

DomenForum.net (https://domenforum.net/index.php)

- Программирование (https://domenforum.net/forumdisplay.php?f=26)

- - Запретить индексацию части url (https://domenforum.net/showthread.php?t=219336)

Запретить индексацию части url

На сайте адреса типа

https : //site.zone/news/***/day/12

Как в robots.txt запретить индексацию страниц начиная с DAY, всё что перед ним должно индексироваться?
Помогите пожалуйста

добавлено через 22 минуты
Вроде так:

Код HTML:

User-Agent: *

Disallow: *day*

Disallow: /news/*/day
а вообще тест через гугл вебмастерс.

А вообще Гугл Вебмастер, говорит, что нельзя запрещать страницы через Robots.txt, т.к. если есть ссылки на сайте на эти страницы, то они всё равно будут показываться в поиске. А NoIndex на таких страницах Гугл не воспримет, т.к. запрещена индексация в Robots.txt.

Код:

Disallow: */day*

добавлено через 1 минуту

Цитата:

Сообщение от Port_Artur (Сообщение 1479250)

если есть ссылки на сайте на эти страницы, то они всё равно будут показываться в поиске.

Не будут. Гуглоботы выполняются все директивы роботса в точности.

Цитата:

Сообщение от sharkson (Сообщение 1479255)

Не будут. Гуглоботы выполняются все директивы роботса в точности.

Гугл думает по другому:
https://support.google.com/webmaster..._by_robots_txt

Цитата:

Проиндексировано, несмотря на блокировку в файле robots.txt. Страница была проиндексирована, несмотря на блокировку файлом robots.txt (Google всегда следует предписаниям этого файла, однако если на других сайтах есть ссылки на вашу страницу, то robots.txt не поможет). Этот статус установлен, так как мы не уверены, что вы хотите удалить страницу из результатов поиска. Если ваше намерение именно таково, файл robots.txt не является корректным способом избежать индексирования. Чтобы страница не индексировалась, необходимо использовать тег noindex или запретить анонимный доступ к ней. С помощью специального инструмента можно понять, какое именно правило блокирует страницу. Из-за файла robots.txt страница может не самым оптимальным образом показываться в результатах поиска. Если вы не хотите удалять страницу из результатов поиска, измените файл robots.txt.

https://support.google.com/webmaster...ed-but-indexed

Цитата:

Страница, заблокированная для поисковых роботов, все же может быть обработана, если на других сайтах есть ссылки на нее
Googlebot не будет напрямую индексировать контент, указанный в файле robots.txt, однако сможет найти страницы с ним по ссылкам с других сайтов. Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на страницу, могут появиться в результатах поиска Google. Чтобы исключить появление URL в результатах поиска Google, необходимо защитить файлы на сервере паролем или использовать метатеги с директивами по индексированию (либо полностью удалить страницу).

Мне кажется, что гугловцы лукавят, так ни одна страница или раздел или группа страниц явно запрещенная в роботсе к индексирования на моих сайтах - не была проиндексирована.

Например, страницы профилей пользователей и т. д. Хотя я иногда не ограничиваюсь запретами в роботсе, но и программно средствами движка скрываю нужное от ботов.

Но, например, у меня на сайтах, есть свои уникальные страницы 404, созданные не движком, а вручную. На них стоит запрет для просмотра ботами только в роботсе и более нигде.

В поиске их нет до сих пор.

Для ботов ПС верно следующее утверждение:

Если на чужом сайте стоит ссылка на страницу на вашем сайте, индексирование которой запрещено в роботсе, то ссылка будет проиндексирована, а вот страница по ссылке - нет.
Означать это будет следующее:

Ссылка на страницу и заголовок страницы попадут в выдачу, а содержимое страницы - нет. И будет стоять приписка вроде такой: "Владелец сайта скрыл содержимое этой страницы".

Если есть возможно скрыть содержимое с помощью тегов - то можно использовать и их. Только вот при этом есть вероятность, что и ссылка на страницу и ее заголовок все равно проиндексируются, если ссылка на эту страницу где-то прописана, куда боты имеют свободный доступ.

добавлено через 3 минуты
То есть в общем, максимум что будет в выдаче это, пример:

Пластиковые окна заказать онлайн в Москве
http://exampe.com/..../....html
Владелец сайта скрыл содержимое этой страницы

Гугл индексирует всё, до чего только может дотянуться. Даже JavaScript парсит, гад! Закрытое в роботс.txt он просто не покажет в выдаче и (возможно) не будет учитывать его содержимое.

Зачем пытаетесь закрыться от индексации? Если для закрытия дублей, то лучше ещё использовать canonical на исходную страницу.

Закрытие страниц, которые актуальны только в течение 4 дней текущего месяца. И проиндексированные в этом месяце теряют смыл в поиске через 4 дня. После этого 27 дней они нерабочие.

В дублях можно еще прописать для гугла теги ноиндекс и нофоллоу. В мета. Их он точно учтет.