16/07/2007 08:00

Как (и с кем) ты потерял невинность, а также другие интересные подробности, которые поисковики знают о тебе

БД, в которой хранятся все ваши тайны

Что если бы существовала эдакая гигантская база данных, где бы хранились все ваши тайны: какие-нибудь смущающие медицинские факты, или, например, то, что вы до сих пор думаете о своей школьной подружке? Держитесь за стул – такое хранилище данных есть! И про вас там тоже написано, если вы делали запросы на какие-то щекотливые темы.

Вообще, все поисковые сервисы, среди которых Google, Yahoo, Microsoft Live Search, записывают и сохраняют в своих необъятных размеров БД все, что вводится в строку поиска, кроме того, еще и точное время и дату, когда это произошло, ваш IP-адрес, а также уникальный идентификационный номер Cookies, который (пока вы его не удалите) позволяет поисковику «узнавать» компьютер, с которого осуществляется поиск, даже если он был переподключен к сети.

Microsoft Live Search плюс ко всему записывает, какого типа был поиск – по изображениям, в сети и т. п., а Google – еще и распознает браузер с языком. А если пройти по ссылке, то он запишет и ее, и ассоциирует с вашим IP-адресом.

Срок хранения подобной информации у всех поисковиков разный. Google, например, недавно заявила, что по прошествии полутора лет логи поиска становятся анонимными: часть IP-адреса будет удаляться, а cookies, соответствующие запросам – намеренно запутываться. У AOL LCC подобные данные хранятся не более месяца. А что касается Microsoft и Yahoo, то эти компании пока не спешат делиться секретами своей поисковой политики.

Другими словами, если бы кто-то захотел получить список IP-адресов, с которых задавался тот или иной вопрос, то чисто теоретически компании-владельцы поисковых сервисов могли бы без проблем его предоставить.

Не парься будь счастлив?

Не парься – будь счастлив?

Кто-то говорит, что не о чем беспокоиться, так с этими записями невозможно связать ваше имя или электронный адрес. Однако, по словам Тома Темплтона (Tom Templeton) – председателя правления правозащитной организации Electronic Frontier Foundation – если пользователь зарегистрировался на поисковом сервере, и завел там себе почту, блог, блокнот и т. п., то связь вполне реально можно проследить.
А Yahoo и Microsoft получают существенно больше информации: при регистрации пользователю задается множество вопросов, в которые включаются не только имя и e-mail, но также и место работы, род занятий, семейное положение и даже количество детей.

Если же верить менеджеру по связям с общественностью корпорации Microsoft Уитни Берк (Whitney Burk), то «нельзя говорить о систематическом сборе информации о поисковых запросах и персональных данных пользователя». Представители Google в свою очередь тоже говорят, что эти типы данных хранятся отдельно.

И, все-таки, если придерживаться мнения Темплтона, то объединить их не составит большого труда. Он подчеркивает, что не знает точно, как спроектированы поисковые системы, но для большинства типичных движков при обладании нужным уровнем доступа и знаний существует много разных способов пройти от собственно запросов до персональной информации. А, учитывая, что в этой информации могут содержаться разного рода медицинские предписания, религиозные и политические взгляды, то вряд ли многие буду-то в восторге от того, что это можно узнать.

Дэнни Салливан (Danny Sullivan) – главный редактор блога Search Engine Land, посвященного поисковым сервисам, считает, что даже если пользователь не оставлял никаких данных о себе, сам по себе IP-адрес может многое рассказать, и с его помощью можно узнать название интернет-провайдера и местоположение компьютера, с которого вводился запрос. Инернет-провайдер может в принципе дать информацию об учетной записи, с которой обращались в указанное время по определенному адресу.

В прошлом году репортеры газеты New York Times трубили о том, что для того, чтобы добыть данные пользователя, не нужен был даже IP-адрес: AOL выложила 500 тысяч анонимных поисковых логов. Дальнейшее установление личности стало совсем простым  - достаточно было посмотреть на специфику поиска того или иного пользователя.
(Если кому-то интересно, что полмиллиона людей искало в прошлом году, можно пройти вот по этой ссылке)

Правительство тоже во всем этом замешано!

Если все это кажется вам подозрительным, и что за всеми идет тотальная слежка, то вы не одиноки! Рядовые пользователи, группы защиты интересов потребителей, государственные службы по всему миру обеспокоены тем, какое количество приватной информации становится известно поисковым сервисам, и что они могут с ней сделать. За последние месяцы Google и шагу не могла ступить, не вызвав подозрений.

Некоторые группы по защите прав потребителей подали жалобу в Федеральную службу торговли США из-за того, что Google приобрела корпорацию DoubleClick.

Данная сделка дала Google возможность еще глубже анализировать сетевое поведение людей, ведь теперь компания может отслеживать не только поисковые запросы, но и входы на сайты. И когда Google сделала релиз своей службы History, которая позволяет просматривать историю своих поисковых запросов и входов на сайты, некоторые обозреватели, такие как ветеран блоггинга Энил Дэш (Anil Dash) назвали ее «потрясающей» и в то же время «страшной».

«С релизом Web History, особенно в свете недавнего приобретения и заявлений, Google переступила черту, за которой обычные пользователи превращаются в скептиков и параноиков, вместо энтузиастов», - пишет Дэш в своем блоге.

Толки вокруг онлайновых поисковых систем подогревались еще и тем, что в начале 2006 года Министерство юстиции США потребовало от Google, Yahoo, Microsoft и AOL раскрыть списки поисковых запросов совершенных за неделю.
AOL, Microsoft и Yahoo открыли какую-то часть запрашиваемой информации, а вот Google отказалась. Хотя Google тем самым создала неплохой прецедент, «правительства могут делать то, с чем компаниям спорить сложно», - говорит Крис Шерман (Chris Sherman) – главный редактор Search Engine Land, имея в виду правительство Китая, которое требует от Yahoo выдачи имени пользователя, пишущего в сетевой форум.

«С правительством США пока все не так страшно, но за последние несколько лет власти использовали свои возможности для получения подобной информации, особенно это касается перемены политического климата», - считает Темплтон. Например, он указывает на возросшие полномочия в связи с принятием Закона о патриотизме 2001 года (законодательный акт, расширяющий полномочия федерального правительства США по расследованию террористической деятельности и преследованию лиц, подозреваемых в такой деятельности). «Вот о чем нам стоит беспокоиться больше чем раньше».

Хотя, конечно, кто-то в правительстве «за», а не «против» усиления безопасности сетевой информации. Например, конгрессмен США Эдвард Марки (Edward Markey) внес законопроект об обязательном уничтожении владельцами веб-сайтов (не только поисковиков) устаревшей информации, содержащей персональные данный пользователей.

Но, по словам Темплтона, кроме правительственных рычагов, есть и другие способы заполучить личные данные, например с помощью работников поисковых компаний. «Всем известна история самой большой базы данных, завершившаяся тем, что коррумпированные служащие продавали доступ к персональной информации, - продолжает он, - кто-то может кого-то подкупить, чтобы завладеть, к примеру, чьими-нибудь налоговыми декларациями».

А если серьезно?

А если серьезно?

Все это порождает вопрос: а зачем компаниям-владельцам поисковиков хранить всю эту информацию? Представители Google называют три причины: это может помочь компании улучшить свои сервисы, повысить безопасность и избавить от жульничества, и дают официальные обязательства надежно хранить эти данные. Они также заявляют, что с помощью этой информации легко определить, как часто пользователя удовлетворяет первые результаты поиска, и как часто ему приходится просматривать список дальше. Кроме того, с помощью этих логов легко подсчитать сколько раз реклама привлекала чье-то внимание, и соответственно подсчитать прибыль.

В своем блоге Салливан рассуждает проще: «Google хорошо разбирается в персонализации. Очень и очень хорошо. Для Google сближение с пользователями – это большой шаг вперед сразу по многим направлениям. И в 2007 году компания, во что бы то ни стало, будет двигаться тем же курсом.
Чем больше Google узнает о своих пользователях, тем больше компания сможет им дать, в том числе и более избирательную рекламу.
Но главное назначение персонализации – это еще один шаг на пути к лучшим результатам поиска».

Темплтон задается вопросом, так ли необходимо этим компаниям так долго хранить столь обширную базу данных: «Мы не раз указывали Google на то, что они хранят слишком много информации». В то время как такие люди как Салливан отдают должное решению Google ограничить срок хранения логов полутора годами. Он считает, что отследить какой бы то ни было запрос станет практически невозможно.

Но, по мнению Темплтона полное уничтожение информации было бы намного лучше: «В истории немало примеров, когда люди думали, что могли надежно защитить или удалить информацию, но другие находили способ ее восстановить. Чтобы быть уверенным в полной анонимности необходимо разорвать связь между IP-адресом и поисковыми запросами».

На что Салливан отвечает, что если кому-то необходимо удалить эту информацию, он может сделать это лично. У функции Web History есть и свои плюсы – пользователь знает, какая информация о нем хранится в базе данных, и удалить ее или нет – решает только он сам.

Это верно и для сервиса Yahoo MyWeb: история поиска хранится на сервере, только если такая функция включена.

В свете повышенного внимания к безопасности личных данных пользователя, «поисковые» компании заявляют, что принимаются меры для повышения уровня анонимности. Google встроит защиту данных не только в поисковую систему, но и в другие свои сервисы, включая шифрование «Off the record» для программы Google Talk, а также функции «Pause» и «Lock Search» для Google Desktop. Кроме того, от Google поступила информация, что будут предприняты меры для упрощения понимания политики безопасности на их сайте.

Microsoft в свою очередь рапортует об активном сотрудничестве с организациями по защите информации по всему миру в области пользовательских данных.
Берк считает, что «универсальной, правильной политики безопасности не существует, однако Microsoft будет продолжать активно взаимодействовать с защитниками персональной информации и целыми организациями».

В заключении Шерман сказал, что решать, стоит ли доверять компаниям-владельцам поисковых сервисов или нет – это личное дело каждого. «Каждый должен выбрать: либо я доверяю им, и поиск становится более комфортным, либо не доверяю, и моя личность никак не связана с моими запросами». Он также отметил, что эти вопросы почти не касаются Google, так как, по его мнению, эта компания принимает серьезные меры относительно безопасности данных пользователя: «Внутри Google вам не дадут пройти туда, где хранится пользовательская информация. В компании такой уровень безопасности, что доступ к персональным данным имеют лишь несколько человек».

Однако для Темплтона всего этого недостаточно: «Даже если люди пытаются делать свою работу хорошо, информация все равно каким-то путем просачивается. Если данные где-то хранятся, значит туда можно получить доступ, и их можно оттуда извлечь».

Шерман добавляет, что персональная информация хранится не только в поисковых системах. «Ваш провайдер знает о вас больше, чем любой поисковик – не только то, что вы искали, но и на какие сайт заходили».

А Салливан в своем блоге пишет: «Google, может быть, и делает логи анонимными, а вот делает ли это ваш провайдер?»

Cyberstyle.ru по материалам Сomputerworld.com

Комментарии: