02.06.2021

Архивирование веб-сайтов


Архивирование веб-сайтов — процесс сохранения текущей версии сайта в архиве для последующих исследований историками и обществом. Как правило, для архивирования используется специальное программное обеспечение — веб-сканер.

Крупнейшей компанией в мире в области архивирования интернета является «Internet Archive». С 2001 года работает Международный семинар архивирования интернета (The International Web Archiving Workshop), который позволяет обмениваться опытом. С 2003 года открыт Международный консорциум сохранения интернета (International Internet Preservation Consortium), которые занимаются разработкой стандартов и курируют разработку инструментов с открытым исходным кодом.

Предпосылки

Сайты в интернете могут исчезнуть по ряду разных причин. Материалы сайтов изменяются с течением времени — текст может быть переписан или удалён. Срок аренды доменного имени или самого сервера может истечь, сайт может быть закрыт из-за недостатка финансирования и т. д. В связи с этим актуальна проблема сохранения версий сайта. Существует несколько сервисов, ведущих архивацию на постоянной основе.

Собираемая информация

Веб-сканер призван в первую очередь сохранить текстовое наполнение сайта, но, в зависимости от конфигурации, сканер может сохранять html-разметку, таблицы стилей, динамические скрипты, изображения и видео.

Помимо содержания к архиву записываются метаданные о собранных ресурсах. MIME-типы, длина содержания, время и дата архивирования, доменное имя и адрес страницы, и т. п. Эти данные используются для навигации, а также полезны для установления подлинности и происхождения.

Методы сбора

Существует несколько способов архивирования интернета, ниже описана часть из них.

Удалённый сбор

Метод веб-архивирования отдельных сайтов, автоматизирующий сбор веб-страниц.

Примеры веб-сканеров для персональных компьютеров:

  • Heretrix
  • HTTrack
  • Wget

Онлайн-сервисы веб-сканеров:

  • Wayback Machine
  • WebCite

Метод веб-паука

Метод веб-архивирования, которым пользуются поисковые системы при индексации сайтов. Суть способа в том, что паук сканирует документ на предмет гиперссылок и добавляет каждую в очередь, архивирует сайт и переходит по следующей ссылке в очереди.

Архивирование баз данных

Метод веб-архивирования, который основан на архивированию основного содержания сайта из базы данных.

Таким образом работают системы DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии, соответственно. Первая программа позволяет, используя реляционную базу данных, отображать информацию в виде XML-схемы; вторая программа позволяет запомнить оригинальное оформление сайта, соответственно создавая точную копию.

Архивирование транзакциями

Метод архивирования, который сохраняет данные, пересылаемые между веб-сервером и клиентом. Используется, как правило, для доказательств содержания, которое было предоставлено на самом деле в определённую дату. Такое программное обеспечение может потребоваться организациям, которые нуждаются в документировании информации такого типа.

Такое ПО, как правило, просто перехватывает все HTTP-запросы и ответы, фильтруя дубликаты ответов.

Проблемы архивирования

Сканеры

Для веб-архивов, которые полагаются на веб-сканеры, имеются следующие проблемы:

  • Сайт может запретить для просмотра часть сайта как для веб-сканера, так и для пользователей.
  • Часть сайта может быть скрыта в deep Web.
  • Ловушки для сборщиков (Crawler traps), например, генерируемые календари и телефонные списки, могут привести к чрезвычайно большому или бесконечному количеству страниц.
  • За время обхода сайта уже обойдённые страницы могут измениться.

Однако, технологии сбора способны выдавать в результате страницы с полностью работоспособными ссылками.

Общие ограничения

Иногда администратор сайта настраивает сервер так, что тот выдает нормальные документы лишь пользователям обычных браузеров, но генерирует иные данные для ботов, архиваторов, пауков и т. п. автоматических программ. Это делается с целью обмана поисковых систем или же для увеличения пропускной способности канала, чтобы веб-сервер выдавал пригодный для просмотра материал для устройства и не скачивал ничего лишнего.

Веб-архив сталкивается и с юридическими проблемами. Сохранённый в нём документ может оказаться объектом интеллектуальной собственности, и правообладатель может потребовать удалить его. В других случаях веб-архив может подвергнуться преследованию со стороны какого-либо государства. Правовой основой (поводом) такого преследования обычно выступает законодательство об охране приватности либо о запрете распространения информации. Если архив находится в другой стране, юридическая процедура, ведущая к блокировке сайта, может пройти без ведома и участия владельца ресурса, и он теряет возможность защищаться и опротестовывать решение (если такая возможность предусмотрена).

Аспекты архивирования

Веб-архивирование, как и любой другой вид деятельности, имеет юридические аспекты, которые необходимо учитывать в работе:

  • Сертификация в надёжности и целостности содержания веб-архива.
  • Сбор проверяемых веб-активов.
  • Предоставление поиска и извлечения из массива данных.
  • Сопоставимость содержания коллекции

Ниже представлен набор инструментов, который использует Консорциум по архивированию интернета

  • Heretrix — архивация.
  • NutchWAX — поиск коллекции.
  • Открытый исходный код «Wayback Machine» — поиск и навигация.
  • Web Curator Tool — выбор и управление.

Другие инструменты с открытым исходным кодом для манипуляций над веб-архивами:

  • WARC-инструменты — для программного создания, чтения, анализа и управления веб-архивами.

Просто бесплатное ПО:

  • Инструменты поиска Google — для полнотекстового поиска.
  • WSDK — набор утилит, Erlang-модулей для создания WARC-архива.

Компании, архивирующие интернет

Архив Интернета

В 1996 году была основана некоммерческая организация «Internet Archive». Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики. Размер архива на 2019 год — более 45 петабайт; еженедельно добавляется около 20 терабайт. На начало 2009 года он содержал 85 миллиардов веб-страниц., в мае 2014 года — 400 миллиардов. Сервер Архива расположен в Сан-Франциско, зеркала — в Новой Александрийской библиотеке и Амстердаме. С 2007 года Архив имеет юридический статус библиотеки. Основной веб-сервис архива — The Wayback Machine. Содержание веб-страниц фиксируется с временным промежутком c помощью бота. Таким образом, можно посмотреть, как выглядела та или иная страница раньше, даже если она больше не существует по старому адресу.

В июне 2015 года сайт был заблокирован на территории России по решению Генпрокуратуры РФ за архивы страниц, признанных содержащими экстремистскую информацию, позднее был исключён из реестра.

WebCite

«WebCite» — интернет-сервис, который выполняет архивирование веб-страниц по запросу. Впоследствии на заархивированную страницу можно сослаться через url. Пользователи имеют возможность получить архивную страницу в любой момент и без ограничений, и при этом неважен статус и состояние оригинальной веб-страницы, с которой была сделана архивная копия. В отличие от Архива Интернета, WebCite не использует веб-краулеров для автоматической архивации всех подряд веб-страниц. WebCite архивирует страницы только по прямому запросу пользователя. WebCite архивирует весь контент на странице — HTML, PDF, таблицы стилей, JavaScript и изображения. WebCite также архивирует метаданные о архивируемых ресурсах, такие как время доступа, MIME-тип и длину контента. Эти метаданные полезны для установления аутентичности и происхождения архивированных данных. Пилотный выпуск сервиса был выпущен в 1998 году, возрождён в 2003.

По состоянию на 2013 год проект испытывает финансовые трудности и проводит сбор средств, чтобы избежать вынужденного закрытия.

Peeep.us

Сервис peeep.us позволяет сохранить копию страницы по запросу пользования, в том числе и из авторизованной зоны, которая потом доступна по сокращённому URL. Реализован на Google App Engine.

Сервис peeep.us, в отличие от ряда других аналогичных сервисов, получает данные на клиентской стороне — то есть, не обращается напрямую к сайту, а сохраняет то содержимое сайта, которое видно пользователю. Это может использоваться для того, чтобы можно было поделиться с другими людьми содержимым закрытого для посторонних ресурса.

Таким образом, peeep.us не подтверждает, что по указанному адресу в указанный момент времени действительно было доступно заархивированное содержимое. Он подтверждает лишь то, что у инициировавшего архивацию по указанному адресу в указанный момент времени подгружалось заархивированное содержимое. Таким образом, Peeep.us нельзя использовать для доказательства того, что когда-то на сайте была какая-то информация, которую потом намеренно удалили (и вообще для каких-либо доказательств). Сервис может хранить данные «практически вечно», однако оставляет за собой право удалять контент, к которому никто не обращался в течение месяца.

Возможность загрузки произвольных файлов делает сервис привлекальным для хостинга вирусов, из-за чего peeep.us регулярно попадаёт в чёрные списки браузеров.

Archive.today

Сервис archive.today (ранее archive.is) позволяет сохранять основной HTML-текст веб-страницы, все изображения, стили, фреймы и используемые шрифты, в том числе страницы с Веб 2.0-сайтов, например с Твиттер.

Веб-гётаку

Японский сервис megalodon.jp действует с 2006 года. Следует указаниям robots.txt.

Поисковые системы

Поисковики собирают страницы интернета для выполнения своего основного предназначения, и многие из них заодно дают доступ к недавно сохранённым копиям, представляя собой поверхностный во временном смысле архив.

Офлайн-браузеры

Для частного архива можно использовать один из офлайн-браузеров, которые специально спроектированы на преимущественную работу в офлайн-режиме — создании локальных копий веб-страниц и сайтов.


Похожие новости:

GeoCities

GeoCities
GeoCities — служба бесплатного веб-хостинга, созданная в 1994 году. В настоящее время принадлежит «Yahoo!». В 2009 году Yahoo! прекратила регистрацию новых сайтов, 26 октября 2009 года сайт был

Internet Information Services

Internet Information Services
IIS (Internet Information Services, до версии 5.1 — Internet Information Server) — проприетарный набор серверов для нескольких служб Интернета от компании Microsoft. IIS распространяется с Windows

Общий домен верхнего уровня

Общий домен верхнего уровня
gTLD (англ. generic Top-Level Domain — Общий домен верхнего уровня) — домен верхнего уровня, созданный для сегментации адресов электронных ресурсов определённого класса организаций либо сообществ.

Как приобрести vps хостинг в России у провайдера "REG.RU"?

Как приобрести vps хостинг в России у провайдера "REG.RU"?
Хостинг – площадка, предназначенная для размещения сайтов, веб-приложений, мультимедийных файлов, документов и т.д. В Рунете под соответствующим понятием чаще всего понимается либо поделенные особым
Комментариев пока еще нет. Вы можете стать первым!

Добавить комментарий!

Ваше Имя:
Ваш E-Mail:
Введите два слова, показанных на изображении: *
Популярные новости
Все о гидроизоляции фундамента
Все о гидроизоляции фундамента
Дожди, грунтовые и паводковые воды, а также воды, вытекающие из сетей водопровода, канализации и...
«Строительный дом» поставляет на рынок песок
«Строительный дом» поставляет на рынок песок
Строительный песок – это особый вид заполнителя, который отличается исключительными прочностными...
Трансформаторы напряжения
Трансформаторы напряжения
Трансформатор напряжения (ТН) предназначен для преобразования высоковольтного тока линий...
Все новости