Нередки случаи, когда Google успевает проиндексировать ваш промежуточный сайт (он же промежуточный сервер/сервер разработки/сервер тестирования/сайт отладки). Поэтому нужно тщательно их блокировать из поисковых систем и открывать их тем, кому нужен доступ.
Джон Мюллер из Google опубликовал в Google+ обзор, как удалить отладочный сервер из Google, а затем поделился способом, как лучше заблокировать его в будущем.
Итак, если эти серверы обнаружили, что Google проиндексировал их контент, самый быстрый способ удалить контент – через Google Search Console. Это означает, что вам нужно проверить URL-адрес промежуточного уровня с помощью Google Search Console, но это достаточно долго, пока вы не выполните метод удаления контента. После этого нужно закрыть сайт от внешнего мира: Самый быстрый способ удалить промежуточный сайт из поиска - удалить его с помощью Search Console. Для этого вам необходимо подтвердить право собственности с помощью Search Console (по иронии судьбы, это означает, что вам, вероятно, придется снова сделать его доступным для поисковых систем или выяснить DNS-проверку, что не так уж часто, но также и не так сложно ). Оттуда вы можете сделать запрос на удаление сайта, который выведет все имя хоста из поиска Google в течение 90 дней. В течение этого времени вы можете доделать свои работы и заблокировать промежуточный сайт от поиска.
Затем Джон поделился советами, как заблокировать доступ к серверу (т.е. заблокировать на стороне сервера HTTP-аутентификаию или список IP-адресов):
Моя рекомендация для промежуточных сайтов заключается в блокировании доступа на стороне сервера либо с помощью серверной / HTTP-аутентификации, либо с помощью белого списка IP-адресов (IP-адреса могут меняться, и это блокирует использование инструментов из дома и т.д., Так что это стоит быть осторожным, пользоваться белым, а не черным списком).
Джон сообщил, что не любит другие альтернативы по следующим причинам:
Использование блокировки индексирования при помощи атрибута noindex означает, что страницы должны быть доступны (открыты для конкурентов, скраперов и т.д.).
Использование robots.txt означает, что вам нужно помнить об изменении файла robots.txt при переходе с этапа тестирования на производство (другой источник общих проблем) и может привести к индексированию URL без их содержимого (URL-адреса, заблокированные роботами .txt могут быть проиндексирован, даже если их содержимое не известно).
Джон дал более подробные советы на Google+, добавив, что для URL-адресов не требуется повторное сканирование в течение нескольких месяцев, поэтому, если вы добавляете какой-либо блок на уровне URL-адреса, то может потребоваться полтора года или больше для полной обработки всех URL-адресов. «Запрос на удаление сайта дает вам больше времени, и вы можете отправить еще один запрос, если понадобится его продлить», - сказал он.