DomenForum.net

DomenForum.net (https://domenforum.net/index.php)
-   Программирование (https://domenforum.net/forumdisplay.php?f=26)
-   -   Запретить индексацию части url (https://domenforum.net/showthread.php?t=219336)

Port_Artur 23.01.2019 08:59

Запретить индексацию части url
 
На сайте адреса типа

https : //site.zone/news/***/day/12

Как в robots.txt запретить индексацию страниц начиная с DAY, всё что перед ним должно индексироваться?
Помогите пожалуйста

добавлено через 22 минуты
Вроде так:

Код HTML:

User-Agent: *
Disallow: *day*


CDesign 03.02.2019 18:59

Disallow: /news/*/day
а вообще тест через гугл вебмастерс.

Port_Artur 04.02.2019 23:03

А вообще Гугл Вебмастер, говорит, что нельзя запрещать страницы через Robots.txt, т.к. если есть ссылки на сайте на эти страницы, то они всё равно будут показываться в поиске. А NoIndex на таких страницах Гугл не воспримет, т.к. запрещена индексация в Robots.txt.

sharkson 05.02.2019 04:24

Код:

Disallow: */day*
добавлено через 1 минуту
Цитата:

Сообщение от Port_Artur (Сообщение 1479250)
если есть ссылки на сайте на эти страницы, то они всё равно будут показываться в поиске.

Не будут. Гуглоботы выполняются все директивы роботса в точности.

Port_Artur 05.02.2019 09:32

Цитата:

Сообщение от sharkson (Сообщение 1479255)
Не будут. Гуглоботы выполняются все директивы роботса в точности.

Гугл думает по другому:
https://support.google.com/webmaster..._by_robots_txt
Цитата:

Проиндексировано, несмотря на блокировку в файле robots.txt. Страница была проиндексирована, несмотря на блокировку файлом robots.txt (Google всегда следует предписаниям этого файла, однако если на других сайтах есть ссылки на вашу страницу, то robots.txt не поможет). Этот статус установлен, так как мы не уверены, что вы хотите удалить страницу из результатов поиска. Если ваше намерение именно таково, файл robots.txt не является корректным способом избежать индексирования. Чтобы страница не индексировалась, необходимо использовать тег noindex или запретить анонимный доступ к ней. С помощью специального инструмента можно понять, какое именно правило блокирует страницу. Из-за файла robots.txt страница может не самым оптимальным образом показываться в результатах поиска. Если вы не хотите удалять страницу из результатов поиска, измените файл robots.txt.
https://support.google.com/webmaster...ed-but-indexed
Цитата:

Страница, заблокированная для поисковых роботов, все же может быть обработана, если на других сайтах есть ссылки на нее
Googlebot не будет напрямую индексировать контент, указанный в файле robots.txt, однако сможет найти страницы с ним по ссылкам с других сайтов. Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на страницу, могут появиться в результатах поиска Google. Чтобы исключить появление URL в результатах поиска Google, необходимо защитить файлы на сервере паролем или использовать метатеги с директивами по индексированию (либо полностью удалить страницу).

sharkson 05.02.2019 19:40

Мне кажется, что гугловцы лукавят, так ни одна страница или раздел или группа страниц явно запрещенная в роботсе к индексирования на моих сайтах - не была проиндексирована.

Например, страницы профилей пользователей и т. д. Хотя я иногда не ограничиваюсь запретами в роботсе, но и программно средствами движка скрываю нужное от ботов.

Но, например, у меня на сайтах, есть свои уникальные страницы 404, созданные не движком, а вручную. На них стоит запрет для просмотра ботами только в роботсе и более нигде.

В поиске их нет до сих пор.

Для ботов ПС верно следующее утверждение:

Если на чужом сайте стоит ссылка на страницу на вашем сайте, индексирование которой запрещено в роботсе, то ссылка будет проиндексирована, а вот страница по ссылке - нет.
Означать это будет следующее:

Ссылка на страницу и заголовок страницы попадут в выдачу, а содержимое страницы - нет. И будет стоять приписка вроде такой: "Владелец сайта скрыл содержимое этой страницы".

Если есть возможно скрыть содержимое с помощью тегов - то можно использовать и их. Только вот при этом есть вероятность, что и ссылка на страницу и ее заголовок все равно проиндексируются, если ссылка на эту страницу где-то прописана, куда боты имеют свободный доступ.

добавлено через 3 минуты
То есть в общем, максимум что будет в выдаче это, пример:

Пластиковые окна заказать онлайн в Москве
http://exampe.com/..../....html
Владелец сайта скрыл содержимое этой страницы

pegs 13.02.2019 12:08

Гугл индексирует всё, до чего только может дотянуться. Даже JavaScript парсит, гад! Закрытое в роботс.txt он просто не покажет в выдаче и (возможно) не будет учитывать его содержимое.

Зачем пытаетесь закрыться от индексации? Если для закрытия дублей, то лучше ещё использовать canonical на исходную страницу.

Port_Artur 13.02.2019 12:24

Закрытие страниц, которые актуальны только в течение 4 дней текущего месяца. И проиндексированные в этом месяце теряют смыл в поиске через 4 дня. После этого 27 дней они нерабочие.

sharkson 13.02.2019 22:38

В дублях можно еще прописать для гугла теги ноиндекс и нофоллоу. В мета. Их он точно учтет.


Текущее время: 00:50. Часовой пояс GMT +4.

Powered by vBulletin® Version 3.8.4
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Техническая поддержка — DevArt.PRO. Перевод: zCarot.