Археология интернета

Историки будущего, года эдак 2061, вполне вероятно захотят узнать, как родилась и как жила мировая сеть Интернет в самом начале своего существования. И те, кто считают, что с эпохой цифры пришла абсолютная точность и ясность - что, откуда и куда, - глубоко заблуждаются.

Интернет в будущем

Если сейчас специалисты восстанавливают прошлое по каким-то крошечным, порой не всегда явным следам, то у их последователей будет совершенно другая проблема — как осмыслить все это громадное наследие цифровой информации? Многим сейчас знакома такая ситуация: фотографии хранятся в компьютере в куче, все никак руки не дойдут разобрать, остальная информация также разбросана по всему жесткому диску в беспорядке или в порядке, понятном только самому пользователю. То же самое наблюдается и в Интернете. Отсутствие системности, помноженное на анонимность и использование никнеймов совершенно не облегчает работу будущим археологам. Все эти HTML, MP3- и JPG-файлы, которые формируют современный веб, скорее всего, останутся читаемыми еще очень долго. Но определить их первоначальное происхождение и подлинность — задача не из легких. Ведь кто знает, сколько раз эти данные дублировались, редактировались, аннотировались и изменялись.

Для защиты своих файлов мы часто дублируем их, сохраняем резервные копии, высылаем себе на почту или выкладываем в общий доступ. К тому же файлы часто бродят с компьютера на компьютер, и все эти действия вносят различные изменения в них, что остается невидимым для простых пользователей. И это палка о двух концах. Их распространение будет проще проследить, но установить создателя того или иного файла будет практически невозможно.

С помощью математического метода хеширования сравнивать файлы может быть проще, но этот метод не всегда хорошо работает с различными типами файлов. Например, сжатие фотографии приведет к изменению хэш-суммы, но по сути не повлечет изменения итогового контента изображения.

А тексты? Может, хотя бы с ними будет проще? Никак нет. Анонимные комментарии, обновления статусов, записи в блогах не улучшают ситуацию. Можно, конечно, научным анализом выяснить словарный запас, длину предложений, структуру, ошибки, но для этого нужны большие куски текста. Хотя, правда, исследователи из Гренобля утверждают, что можно определить пользователя только по его никнейму. Да и с возрастом манера письма меняется. Один из самых известных примеров тому — Агата Кристи. Сейчас есть и сайты, которые могут провести простейший анализ текста, а еще и прояснить, на какого писателя похожа ваша манера оставлять глубокомысленные записи в блогах и комментариях. Вот только если ради эксперимента ввести текст любого известного автора, сайты-анализаторы очень редко угадывают его авторство. Разобрать, каким вы были человеком, могли бы помочь системы семантического анализа, но сами создатели подобных систем говорят о том, что они довольно субъективны. Любую информацию о человеке можно представить разными способами, так что и этот способ «цифровых раскопок» может серьезно исказить отображение нашего бытия.

В общем, вырисовывается такая картина, что работа будущих «цифровых» археологов будет не намного легче, чем у их коллег в настоящем времени. Громадные объемы информации могут совершенно не помочь в составлении описания интернет-бытия на рубеже XX-XXI веков. И только догадки о том, кто был, а кто только казался…