Быстрый переход |
|
Программирование PHP, Perl, HTML, XHTML, CSS, JavaScript, MySQL и другие языки кодирования. |
|
Опции темы |
Сегодня | |||||
|
23.01.2019, 08:59 | #1 | |||
Реноме:
1556
|
Запретить индексацию части url
На сайте адреса типа
https : //site.zone/news/***/day/12 Как в robots.txt запретить индексацию страниц начиная с DAY, всё что перед ним должно индексироваться? Помогите пожалуйста добавлено через 22 минуты Вроде так: Код HTML:
User-Agent: * Disallow: *day*
__________________
Последний раз редактировалось Port_Artur; 23.01.2019 в 09:21. Причина: Добавлено сообщение |
|||
04.02.2019, 23:03 | #3 | |||
Реноме:
1556
|
А вообще Гугл Вебмастер, говорит, что нельзя запрещать страницы через Robots.txt, т.к. если есть ссылки на сайте на эти страницы, то они всё равно будут показываться в поиске. А NoIndex на таких страницах Гугл не воспримет, т.к. запрещена индексация в Robots.txt.
__________________
|
|||
05.02.2019, 04:24 | #4 | |||
|
Код:
Disallow: */day* Не будут. Гуглоботы выполняются все директивы роботса в точности. Последний раз редактировалось sharkson; 05.02.2019 в 04:25. Причина: Добавлено сообщение |
|||
05.02.2019, 09:32 | #5 | |||
Реноме:
1556
|
Гугл думает по другому:
Проиндексировано, несмотря на блокировку в файле robots.txt. Страница была проиндексирована, несмотря на блокировку файлом robots.txt (Google всегда следует предписаниям этого файла, однако если на других сайтах есть ссылки на вашу страницу, то robots.txt не поможет). Этот статус установлен, так как мы не уверены, что вы хотите удалить страницу из результатов поиска. Если ваше намерение именно таково, файл robots.txt не является корректным способом избежать индексирования. Чтобы страница не индексировалась, необходимо использовать тег noindex или запретить анонимный доступ к ней. С помощью специального инструмента можно понять, какое именно правило блокирует страницу. Из-за файла robots.txt страница может не самым оптимальным образом показываться в результатах поиска. Если вы не хотите удалять страницу из результатов поиска, измените файл robots.txt.
Страница, заблокированная для поисковых роботов, все же может быть обработана, если на других сайтах есть ссылки на нее
Googlebot не будет напрямую индексировать контент, указанный в файле robots.txt, однако сможет найти страницы с ним по ссылкам с других сайтов. Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на страницу, могут появиться в результатах поиска Google. Чтобы исключить появление URL в результатах поиска Google, необходимо защитить файлы на сервере паролем или использовать метатеги с директивами по индексированию (либо полностью удалить страницу).
__________________
|
|||
05.02.2019, 19:40 | #6 | |||
|
Мне кажется, что гугловцы лукавят, так ни одна страница или раздел или группа страниц явно запрещенная в роботсе к индексирования на моих сайтах - не была проиндексирована.
Например, страницы профилей пользователей и т. д. Хотя я иногда не ограничиваюсь запретами в роботсе, но и программно средствами движка скрываю нужное от ботов. Но, например, у меня на сайтах, есть свои уникальные страницы 404, созданные не движком, а вручную. На них стоит запрет для просмотра ботами только в роботсе и более нигде. В поиске их нет до сих пор. Для ботов ПС верно следующее утверждение: Если на чужом сайте стоит ссылка на страницу на вашем сайте, индексирование которой запрещено в роботсе, то ссылка будет проиндексирована, а вот страница по ссылке - нет. Означать это будет следующее: Ссылка на страницу и заголовок страницы попадут в выдачу, а содержимое страницы - нет. И будет стоять приписка вроде такой: "Владелец сайта скрыл содержимое этой страницы". Если есть возможно скрыть содержимое с помощью тегов - то можно использовать и их. Только вот при этом есть вероятность, что и ссылка на страницу и ее заголовок все равно проиндексируются, если ссылка на эту страницу где-то прописана, куда боты имеют свободный доступ. добавлено через 3 минуты То есть в общем, максимум что будет в выдаче это, пример: Пластиковые окна заказать онлайн в Москве Владелец сайта скрыл содержимое этой страницы Последний раз редактировалось sharkson; 05.02.2019 в 19:44. Причина: Добавлено сообщение |
|||
13.02.2019, 12:08 | #7 | |||
Реноме:
1909
|
Гугл индексирует всё, до чего только может дотянуться. Даже JavaScript парсит, гад! Закрытое в роботс.txt он просто не покажет в выдаче и (возможно) не будет учитывать его содержимое.
Зачем пытаетесь закрыться от индексации? Если для закрытия дублей, то лучше ещё использовать canonical на исходную страницу.
__________________
|
|||
13.02.2019, 12:24 | #8 | |||
Реноме:
1556
|
Закрытие страниц, которые актуальны только в течение 4 дней текущего месяца. И проиндексированные в этом месяце теряют смыл в поиске через 4 дня. После этого 27 дней они нерабочие.
__________________
|
|||
Реклама | |
Здесь присутствуют: 1 (пользователей: 0 , гостей: 1) | |
|
|