В августе 2016 года правительство Австралии опубликовало «анонимизированный» набор данных, включающий медицинские платежные записи, в том числе рецепты и учет операций, почти трех миллионов человек.
Имена и другие идентификационные характеристики из записей были удалены ради защиты конфиденциальности, но эта мера оказалась не очень эффективной. Исследователи из Мельбурнского университета вскоре обнаружили, что установить личности людей без их согласия и узнать всю историю болезней довольно легко. Они просто сопоставили имеющиеся данные с другими общедоступными сведеньями: сообщениями о рождении детей у знаменитостей или проведении операций у спортсменов.
Власти убрали данные со своего сайта, но к тому моменту интернет-пользователи успели скачать их 1500 раз.
По хлебным крошкам
Этот кошмар для частной жизни служит одним из многих примеров, когда личности людей восстанавливаются по безобидным «деидентифицированным» фрагментам информации. И ситуация отнюдь не улучшается. Ведь все больше времени мы проводим в Интернете, разбрасывая цифровые «хлебные крошки», по которым нас можно выследить.
В 2017-м году немецкие ученые смогли идентифицировать людей по их «анонимным» действиям в браузере. Ранее в этом месяце исследователи из Университетского колледжа Лондона продемонстрировали, что могут определять отдельных пользователей Twitter, руководствуясь метаданными, связанными с их твитами. Фитнес-приложение Polar раскрыло адреса домов, а в некоторых случаях имена солдат и шпионов.
«Приятно делать вид, что восстановить личности людей трудно, но это легко. То, что мы сделали, по силам любому первокурснику, изучающему теорию анализа и обработки данных», – сказала Ванесса Тиг, один из исследователей Мельбурнского университета.
И ведь проблема отнюдь не нова. Австралийские власти в упомянутом случае фактически прошли по тому же пути, что и комиссия по коллективному страхованию штата Массачусетс еще в 1996-м году. Тогда она опубликовала «анонимизированные» данные о посещении больниц госслужащими. Очевидные идентификаторы, вроде имен, адресов и номеров социального страхования были удалены, а губернатор Ульям Уэлд заверил общественность: конфиденциальность пациентов защищена.
Можно делать вид, что раскрыть тайну личности сложно, но это не так
Латания Суини, которая изучала компьютерные науки, а затем стала главным специалистом по технологиям в Федеральной торговой комиссии, показала, что он глубоко заблуждался. Она нашла медицинские данные самого губернатора. Для этого Суини использовала почтовый индекс и дату рождения Уэлда, взятые из списка избирателей, и знание о том, что он посещал больницу в определенный день после того, как ему поплохело во время публичной церемонии. Полученные сведенья она отправила в офис Уэлда.
Позднее Суини показала, что 87% населения Соединенных Штатов могут быть однозначно идентифицированы по их дате рождения, полу и пятизначному почтовому индексу.
Скажи мне, где ты, и я скажу, кто ты
С развитием технологий возросли и возможности по установлению личности. Так, 5 лет назад специалист по компьютерной защите Ив-Александр де Монтджой продемонстрировал, что людей можно идентифицировать по поведенческим закономерностям, выявленным на основе данных о местоположении мобильных телефонов.
В течение 15 месяцев он анализировал базу данных, содержащую информацию о приблизительном местоположении 1,5 миллионов аппаратов, определенном по сотовым вышкам. В итоге он выяснил, что личности до 95% владельцев телефонов можно установить по четырем единицам наблюдения, связанным с местом и временем. Примерно в 50% случаев хватит и двух единиц.
Причем, получить их не так уж сложно. Достаточно общедоступной информации о домашнем и рабочем адресе и постов в Twitter, сопровожденных геометками.
«Данные о местоположении – как отпечаток пальца. Это часть информации, которая, вероятно, будет существовать в широком диапазоне наборов данных и потенциально может использоваться как глобальный идентификатор», – говорит де Монтджой.
Если дело касается работающих людей, то это просто мечта сталкера.
«Вы передвигаетесь между домом и работой по довольно простым схемам. Обычно человек живет по адресу A и работает по адресу B», – рассказывает Анна Джонстон, директор консалтинговой компании Salinger Privacy.
Данные о местоположении – это как отпечатки пальцев
Данные о местоположении могут порождать и другие риски. Например, публичная карта, опубликованная фитнес-приложением Strava, непреднамеренно создала угрозу национальной безопасности, поскольку выдала локации и перемещения служащих секретных военных баз.
Карты на стол
В 2015 году де Монтджой показал, что можно выловить владельца кредитной карты из моря «анонимизированных» оплат, просто зная некоторое количество покупок, совершенных этим человеком.
Вооружившись только названиями и расположением магазинов, в которых осуществлялись приобретения, а также приблизительными датами и суммами платежей, де Монтджой смог определить личности 94% людей, просмотрев только три транзакции.
Как видно, примеров того, что невозможно анонимизировать данные уровня единичной записи (отдельных лиц), вне зависимости от того, насколько они отредактированы, хватает.
«Возможно, раньше это работало, но больше нет», – подчеркивает де Монтджой.
В руках человека имеется крайне мало инструментов, чтобы защитить себя от вторжения в частную жизнь. Можно уменьшить личную «дорожку из хлебных крошек», платя только наличными и выбросив мобильный телефон, но это не особо практично.
«Если вы хотите быть активным членом общества, у вас нет возможности ограничить объем данных, который высасываются из вас, до ощутимого уровня», — считает специалист по безопасности Крис Викери.
На фоне того, что людей так просто идентифицировать, обещания компаний не передавать личную информацию бессмысленны, а осознанный выбор о предоставлении информированного согласия является сложной задачей. Более того, существуют фирмы, которые специализируются на объединении сведений о пользователях из разных источников для создания виртуальных досье и применения глубинного анализа данных для различных форм влияния.
«Все сводится к хорошему регулированию и надлежащему исполнению», – говорит де Монтджой, добавляя, что европейский Общий регламент защиты данных – это «шаг в правильном направлении».
«Одним из недостатков законодательства о конфиденциальности является то, что оно возлагает слишком большую ответственность на потребителей в условиях, когда они недостаточно хорошо разбираются в рисках, – считает Джонстон. – Гораздо большую юридическую ответственность следует возложить на хранителей данных (правительство, исследователей и компании)».
Де Монтджой остается оптимистом.
«Конфиденциальность не умерла, – полагает он. – Она нужна нам, и мы ее добьемся».