Не для кого не секрет, что сегодня в Интернете можно найти практически любую информацию. Главное, это правильно сформулировать запрос к поисковой машине. Наряду с добропорядочными пользователями (вроде нас с вами ;) этим незатейливым методом пользуются злоумышленники, для поиска паролей, номеров кредитных карт, конфиденциальных данных и, наконец, уязвимых сценариев. Стоит также отметить, что в последнее время эту же технологию начали активно использовать вирусы (вспомним недавнюю эпидемию червя, выискивающего и заражающего форумы на популярном движке phpBB). Что придаёт ещё большую актуальность проблеме. С целью как-то повлиять на сложившуюся ситуацию, разработчиками поисковых систем предпринимаются попытки заблокировать некоторые из наиболее часто используемых злоумышленниками (вирусами) запросов. Однако, по понятным причинам (всё заблокировать невозможно), < face="Arial">< size="2">в чёрные списки (временно либо навсегда) попадает лишь их незначительная часть. А остальные запросы продолжают использоваться для совершения противоправных действий. Учитывая всё вышесказанное, < face="Arial">< size="2">складывается ситуация, когда спасение утопающих становится делом рук самих утопающих. Только в данном случае в роли утопающих будут выступать веб-мастера хранящие на своих сайтах конфиденциальную информацию и не желающие, чтобы она была найдена посторонними. С целью помочь последним тьфу, т.е. предпоследним =) и была написана данная статья, пускай она послужит, своего рода, спасательным кругом для них. Итак, прежде чем приступить к решению нашей основной задачи, давайте разберёмся, каким образом поисковыми системами осуществляется сбор информации о ресурсах в сети. Сбор информации поисковыми системами Любая поисковая система представляет из себя огромное хранилище информации, собираемой специальными роботами - так называемыми пауками-ползунами (Spiders). < face="Arial">< size="2">Говоря голосом ведущего передачи "В мире животных" =) - эти забавные зверюшки переходят с одного узла всемирной паутины на другой (для перехода используются адреса найденные на странице и в частности гиперссылки), собирая данные о каждом из них. Затем возвращаются на свой сервер и передают ему эту информацию. Там данные приводятся в надлежащий вид и заносятся в базу данных, после чего информация может быть найдена с помощью поисковой системы. Разумеется, алгоритм индексации (т.е. занесения в БД) каждой отдельно взятой поисковой машины несколько отличается от остальных . Но данный принцип остаётся неизменным для всех. Защита информации от индексации поисковиками Теперь, когда мы знаем, как ведёт себя поисковик при индексации нашего сайта давайте вернёмся к основному вопросу этой статьи - как же всё-таки обезопасить конфиденциальные данные на своём веб-сайте от индексации поисковыми системами? Ниже я приведу некоторые из известных мне методов. Метод "номер раз" – скрываем URL Для того, чтобы находящийся на вашем сайте ресурс (файл либо каталог) не был проиндексирован поисковиками, его адрес (url) не должен значиться ни в одном доступном поисковым машинам документе, он также не должен быть начальной страницей сайта и нежелательно, чтобы он являлся "индексным" (выдаваемом по умолчанию) в каком-либо каталоге. Этих условий в принципе достаточно. Однако, при определённом стечении обстоятельств с первым условием могут возникнуть "накладки". Так как во время работы с конфиденциальным ресурсом его адрес, каким-то образом может случайно "засветиться" на странице доступной поисковику. Например, если этот визит зафиксирует система статистики... Поэтому я рекомендую ознакомиться < face="Arial">< size="2">со следующим , более надёжным способом. Метод два - Meta тэги и файл robots.txt Специально для управления поведением пауков на вашем сайте в HTML'е предусмотрен параметр Meta тэга - ROBOTS. Который может принимать значения: index/noindex - индексировать, не индексировать соответственно; follow/nofollow - < size="2" face="Arial">следовать, не следовать. Например так: ... ... ... ... В данном случае паук проиндексирует страницу, но дальше по ссылкам не пойдёт. Для тех же целей, служит файл robots.txt, располагающийся в корне веб-сайта. Обычно он используется для указания членистоногим, куда соваться не следует. Например, чтобы не один паук не залезал в каталоги "cgi-bin" и "admin" нам следует заполнить файл robots.txt < size="2" face="Arial">так: User-Agent: * Disallow: /cgi-bin/ Disallow: /admin/ !!! Будьте крайне осторожны и внимательны, заполняя файл "robots.txt"! Указывая адреса ресурсов, убедитесь, что права доступа к ним установлены надлежащим образом (см. ниже)!!! Дело в том, что данный файл на самом деле является «палкой о двух концах». С одной стороны в нём вы указываете поисковикам, куда лезть не следует, а с другой, сообщайте злоумышленникам, < face="Arial">< size="2">куда бы залезть не помешало ;) Метод 3 - Права доступа К сожалению, не все поисковые системы смотрят на описанные в пунке 2 механизмы (основные смотрят, но всё же ...). Поэтому самым надёжным способом для укрытия конфиденциальных данных от поисковых машин (кстати говоря и не только от них :) является ограничение доступа к таким данным неавторизированным пользователям, т.е. пользователям, которые не ввели "логин" и пароль соответствующим образом. В самом распространённом на сегодняшний день веб-сервере - Apache для этих целей служит файл .htaccess . Например, чтобы ограничить доступ таким пользователям к содержимому каталога "/admin/", в этом каталоге необходимо разместить следующий файл ".htaccess": AuthUserFile полный_путь_к_каталогу/admin/.htpasswd AuthType Basic AuthName "Название закрываемого ресурса" require valid-user Обратите внимание: полный_путь_к_каталогу это не универсальный локатор ресурсов (URL), < size="2" face="Arial">а путь к директории на сервере. .htpasswd - файл содержащий список имён пользователей в системе (login'ы) и соответствующие MD5- < face="Arial">< size="2">хэши паролей. Содержимое ".htpasswd" выглядит примерно так: pupkin:MgFw1vnaW/tJk abc-it:mWaquosh.OY3w john:EMt8amknyuYD2 Для создания и заполнения файлов ".htpasswd" вы можете использовать одну из многочисленных бесплатно распространяемых специализированных программ (можно найти версии как для Unix, так и для Windows, < face="Arial">< size="2">используя всё те же поисковые системы ;). Заключение Как вы видите, методов защиты конфиденциальной информации от индексации в поисковых системах довольно много. В этой статье я перечислил лишь некоторые известные мне варианты. Если вы можете предложить какие-либо ещё, не стесняйтесь, напишите мне об этом. В любом случае буду рад увидеть ваши отзывы (даже если они не будут положительными) На этом разрешите откланяться!
Источник: http://1komp.info/ |