Интернет

Сохранение цифрового наследия. Использование цифрового и фактического материала Что значит цифровой материал

Бюллетень Высшего аттестационного комитета Российской Федерации. 1995. - № 1 (январь). - С. 5-6.

4.2. Представление табличного материала

Цифровой материал, когда его много или когда имеется необходимость в сопоставлении и выводе определенных закономерностей, оформляют в диссертации в виде таблиц.

Таблица представляет собой такой способ подачи информации, при котором цифровой или текстовой материал группируется в колонки, отграниченные одна от другой вертикальными и горизонтальными линейками.

По содержанию таблицы делятся на аналитические и неаналитические. Аналитические таблицы являются результатом обработки и анализа цифровых показателей. Как правило, после таких таблиц делается обобщение в качестве нового (выводного) знания, которое вводится в текст слоями: "таблица позволяет сделать вывод, что...", "из таблицы видно, что...", "таблица позволит заключить, что..." и т.н. Часто такие таблицы дают возможность выявить и сформулировать определенные закономерности.

В неаналитических таблицах помещаются, как правило, необработанные статистические данные, необходимые лишь для информации или констатации.

Обычно таблица состоит из следующих элементов: порядкового номера и тематического заголовка, боковика, заголовков вертикальных граф (головки), горизонтальных и вертикальных граф (основной части, т.е. в прографке).

Логика построения таблицы должна быть такова, что ее логический субъект, или подлежащее (обозначение тех предметов, которые в ней характеризуются), должен быть расположен в бо ковике, или в головке, или в них обоих, но не в прографке, а логический предмет таблицы, или сказуемое (т.е. данные, которыми характеризуется подлежащее), - в прографке, но не в головке или боковике. Каждый заголовок над графой должен относиться ко всем данным в этой графе, а каждый заголовок строки в боковине - ко всем данным этой строки.

Заголовок каждой графы в головке таблицы должен быть по возможности кратким. Следует устранять повторы тематического заголовка в заголовках граф; устранять ярус с указанием единицы измерения, перенося ее в тематический заголовок; выносить в объединяющие заголовки повторяющиеся слова.

Боковик, как и головка, должен быть лаконичным. Повторяющиеся слова следует выносить в объединяющие рубрики; общие для всех заголовков боковика слова помещают в заголовок над боковиком. После заголовков боковика знаки препинания не ставят.

В прографке все повторяющиеся элементы, относящиеся ко всей таблице, выносят в тематический заголовок или в заголовок графы; однородные числовые данные располагают так, чтобы их классы совпадали; неоднородные данные помещают каждое в красную строку; кавычки используют только вместо одинаковых слов, которые стоят одно под другим.

Основные заголовки в самой таблице пишут с прописной буквы. Подчиненные заголовки пишутся двояко: со строчной буквы, если они грамматически связаны с главным заголовком, и с прописной буквы - если такой связи нет. Заголовки (как подчиненные, так и главные) должны быть максимально точными и простыми. В них не должно быть повторяющихся слов или размерностей.

Следует избегать вертикальной графы "номер по порядку", в большинстве случаев не нужной. Весьма осторожно нужно обращаться и с вертикальной графой "Примечание". Такая графа допустима лишь в тех случаях, когда она содержит данные, относящиеся к большинству строя таблиц.

Все таблицы, если их несколько, нумеруют арабскими цифрами в пределах всего текста. Над правым верхним углом таблицы помещают надпись "Таблица..." с указанием порядкового номера таблицы (например "Таблица 4") без значка № перед цифрой и точки после нее. Если в тексте диссертации только одна таблица, то номер ей не присваивается и слово "таблица" не пишут. Таблицы снабжают тематическими заголовками, которые располагают посередине страницы и пишут с прописной буквы без точки на конце.

При переносе таблицы на следующую страницу головку таблицы следует повторить и над ней поместить слова "Продолжение таблицы 5". Если головка громоздкая, допускается ее не повторять. В этом случае пронумеровывают графы и повторяют их нумерацию на следующей странице. Заголовок таблицы не повторяют.

Все приводимые в таблицах данные должны быть достоверны, однородны и сопоставимы, в основе их группировки должны лежать существенные признаки.

Не допускается помещать в текст диссертации без ссылки па источник те таблицы, данные которых уже были опубликованы в печати.

Довольно часто аспиранты - авторы кандидатских диссертаций - приводят цифровой материал в таблицах, когда его удобнее поместить в тексте. Такие таблицы производят неблагоприятное впечатление и свидетельствуют о неумении обращаться с табличным материалом. Поэтому перед тем как помещать какой-то материал в виде таблицы, следует решить, нельзя ли представить его в обычной текстовой форме.

Цифровой материал в тексте работы, как правило, оформляют в виде таблиц. Таблицы применяют для лучшей наглядности и удобства сравнения показателей, а также сопоставимости инфор­мации, полученной из разных источников. Построение и оформ­ление табличных материалов должно соответствовать стандартам Унифицированной системы документации (УСД). Существуют рекомендации по оформлению таблиц.

194) По возможности таблицу следует составлять небольшой по размеру, легко обозримой. Иногда целесообразно вместо одной большой таблицы построить несколько органически связанных между собой таблиц.

195) Общий заголовок таблицы должен кратко выражать ее основ­ное содержание. В нем обычно указываются время, территория, к которым относятся данные, единица измерения, если она высту­пает единой для всей совокупности. Следует ясно излагать заго­ловки строк. Слова в таблице желательно писать полностью, при­меняя только общепринятые сокращения. При отсутствии общей единицы измерения в каждой графе проставляется своя единица измерения.

196) Строки подлежащего и графы сказуемого допускается распо­лагать в виде частных слагаемых с последующим подытожива­нием по каждому из них. При неполном объеме единиц изуча­емой совокупности или отсутствии исходных данных все слагае­мые сначала показываются в строке «общие итоги», а потом, пос­ле пояснения, в строке «в том числе» перечисляют наиболее важ­ные их составляющие части.

197) Числовые данные заносятся в одном и том же формате с одинаковым значением разрядов (одинаковым количеством зна­чащих цифр). При этом разряды числа одной строки обязатель­но располагаются под разрядами другой.

Оформление составных частей таблицы имеет свои особенности. Название таблицы должно отражать ее содержание, быть точным и кратким. Название следует помещать по центру над таблицей.

Заголовки граф таблицы начинают с прописных букв, а подза­головки - со строчных, если они составляют одно предложение с заголовком. Подзаголовки, имеющие самостоятельное значение, пишут с прописной буквы. В конце заголовков и подзаголовков таблиц знаки препинания не ставят. Заголовки указывают в един­ственном числе. Диагональное деление головки таблицы не до­пускается. Графу «№ п/п» в таблицу можно не включать. При

необходимости нумерации показателей, параметров или других данных порядковые номера указывают в боковике таблицы пе­ред их наименованием. Нумерация граф таблицы арабскими цифрами допускается в тех случаях, когда в тексте работы име­ются ссылки на них, при делении таблицы на части, а также при переносе части таблицы на следующую страницу. Если цифровые данные в графах таблицы выражены в различных единицах, то их указывают в заголовке каждой графы. Если все параметры, размещенные в таблице, выражены в одной и той же единице, сокращенное обозначение единицы помещают над таблицей.


Таблицы слева, справа и снизу, как правило, ограничиваются линиями. Горизонтальные и вертикальные линии, разграничиваю­щие строки таблицы, допускается не проводить, если их отсутствие не затрудняет пользование таблицей. Головка таблицы должна быть отделена линией от остальной части таблицы. Высота строк таб­лицы должна быть не менее 8 мм. Слова «более», «не более», «ме­нее», «не менее», «в пределах» следует помещать рядом с наимено­ванием соответствующего параметра в боковике таблицы или в заголовке графы. Если цифровые данные в таблице не приводятся, то в графе ставится прочерк. Заголовки граф записывают, как правило, параллельно строкам таблицы. При необходимости допус­кается перпендикулярное расположение заголовков граф.

Если строки или графы таблицы выходят за формат страницы, ее делят на части, помещая одну часть под другой или рядом, при этом в каждой части таблицы повторяют ее головку или боковик. Слово «Таблица», заголовок и порядковый номер таблицы указы­вают один раз над первой частью таблицы, над последующими частями пишут слово «Продолжение» или, например, «Продолже­ние таблицы 2». При делении таблицы на части обозначение еди­ницы физической величины следует поместить над каждой частью. Если в конце страницы таблица прерывается и ее продолжение будет на следующей странице, то в первой части таблицы нижнюю горизонтальную линию, ограничивающую таблицу, не проводят.

Если в таблице применяется наименование показателя, предель­ная величина ^оторого ограничивается, то перед ограничивающими.словами ставится запятая, например: «стоимость, тыс. руб., не более».

В названии, головке и боковике таблицы следует использовать минимальное количество аббревиатур, даже если они оговорены в перечне применяемых сокращений. Текст, повторяющийся в стро­ках одной и той же графы и состоящий из однотипных слов, чередующихся с цифрами, заменяют кавычками. Если повторяю­

щийся текст состоит из двух и более слов, при первом повторе­нии его заменяют словами «то же», а далее - кавычками. Если последующая фраза является частью предыдущей, то допускается заменить ее словом «то же» и добавлять дополнительные сведе­ния. Повторяющиеся цифры, математические записи, знаки №, %, символы кавычками не заменяются.

На все таблицы должны быть ссылки в тексте работы. Поря­док оформления по тексту ссылок на таблицы такой же, как и оформление ссылок на иллюстрации. Таблица, в зависимости от ее размера, помещается под текстом, в котором впервые дана ссылка на нее, или на следующей странице. Если таблица содержит зна­чительно больше данных, чем читатель может охватить взглядом, такую таблицу следует поместить в приложении. Допускается размещение таблицы вдоль длинной стороны листа. Нумерация таб­лиц осуществляется аналогично нумерации иллюстраций.

При наличии в работе небольшого по объему цифрового мате­риала оформление таблицы нецелесообразно. Такой материал сле­дует давать текстом, располагая цифровые данные в виде колонок.

Изобретение относится к технологии представления сигналов. Техническим результатом является расширение функциональных возможностей. Система формирования компактного описания цифровых материалов содержит модуль получения, выполненный с возможностью получения цифрового материала, модуль сегментации, выполненный с возможностью разбиения упомянутого материала на множество областей, модуль вычисления, выполненный с возможностью формирования векторов характеристик для каждой области из упомянутого множества, причем векторы характеристик вычисляют на основе инвариантностей матриц, включающих в себя сингулярное разложение, модуль вывода, выполненный с возможностью формирования выходного результата, используя комбинацию вычисленных векторов характеристик, при этом выходной результат формирует вектор хэш-значений для этого цифрового материала, где вектор хэш-значений является компактным представлением цифрового материала, таким образом идентифицируя цифровой материал на основе упомянутого компактного представления. 2 н. и 7 з.п. ф-лы, 3 ил.

Рисунки к патенту РФ 2387006

Область техники, к которой относится изобретение

Это изобретение в целом относится к технологии представления сигналов.

Уровень техники

Цифровые материалы часто распространяются потребителям по частным и общедоступным сетям - таким как интранет или Интернет. В дополнение, эти материалы распространяются потребителям посредством фиксированных считываемых компьютером носителей, таких как компакт-диск (CD-ROM), универсальный цифровой диск (DVD), магнитная дискета или жесткий магнитный диск (например, предварительно загруженный жесткий диск).

К сожалению, для человека относительно легко пиратски использовать исходный цифровой контент (содержимое) цифрового материала за счет и в убыток владельцам этого контента, которые включают в себя автора этого контента, издателя, разработчика, дистрибьютора и т.д. Основанные на контенте отрасли производства (например, развлечения, музыка, фильмы, программное обеспечение и т.д.), которые производят и распределяют контент, измучены постоянными потерями доходов из-за цифрового пиратства.

"Цифровые материалы" является общим обозначением, используемым в настоящей заявке для обозначения электронным образом хранимого или передаваемого контента (содержимого). Примеры цифровых материалов включают в себя изображения, аудиоклипы, видео, мультимедийную информацию, программное обеспечение и данные. В зависимости от контекста цифровые материалы могут также быть названы "цифровой сигнал", "сигнал контента", "цифровой поток битов", "мультимедийный сигнал", "цифровой объект", "объект", "сигнал" и тому подобное.

В дополнение, цифровые материалы часто хранятся в массивных базах данных - или структурированных или неструктурированных. По мере роста этих баз данных возрастает нужда в рационализованной категоризации и идентификации материалов.

Хэширование

Технологии хэширования используются для многих целей. Среди этих целей - защита прав владельцев контента и повышение скорости поиска/доступа к базам данных. Технологии хэширования используются во многих областях, таких как управление базами данных, запрашивание, криптография и многих других сферах, включающих в себя большие объемы необработанных данных.

Вообще, технология хэширования отображает (преобразует) большой блок необработанных данных в относительно малый и структурированный набор идентификаторов. Эти идентификаторы также называются "хэш-значениями" или просто "хэш". Посредством введения специальной структуры и порядка в необработанные данные функция хэширования значительно уменьшает размер необработанных данных в меньшее (и обычно более управляемое) представление.

Ограничения обычного хэширования

Технологии обычного хэширования используются для многих видов данных. Эти технологии имеют хорошие характеристики и хорошо поняты. К сожалению, цифровые материалы с визуальным и/или аудиоконтентом представляют уникальный набор особенностей, не встречающихся в других цифровых данных. Это имеет место в основном из-за того уникального факта, что контент таких материалов подлежит перцепциальной оценке (оценке посредством восприятия) людьми-наблюдателями. Обычно перцепциальная оценка является визуальной и/или слуховой.

Например, предположим, что содержимое двух цифровых материалов является в действительности разным, но только с точки зрения восприятия это несущественно. Человек-наблюдатель может рассматривать это содержимое двух цифровых материалов как подобные друг другу. Однако даже перцепциально несущественные различия в свойствах содержимого (такие как цвет, высота звука, интенсивность, фаза) между двумя цифровыми материалами имеют результатом два материала (продукта), представляющиеся существенно различными в цифровой области.

Таким образом, при использовании функции обычного хэширования слегка измененная версия цифрового материала генерирует значительно отличающееся хэш-значение в сравнении с хэш-значением исходного цифрового материала, даже хотя этот цифровой материал по существу идентичен (т.е. с точки зрения восприятия такой же) для человека-наблюдателя.

Человек-наблюдатель достаточно толерантен к определенным изменениям в цифровых материалах. Например, человеческие уши менее чувствительны к изменениям компонентов аудиосигнала в некоторых частотных диапазонах, чем компонентов в других частотных диапазонах.

Эта толерантность человека может эксплуатироваться (пиратами) в нелегальных или беспринципных целях. Например, пират может использовать передовые технологии аудиообработки, чтобы удалить уведомления об авторском праве или вставленные водяные знаки из аудиосигнала без воспринимаемого изменения качества аудиосигнала.

Такие злоумышленные изменения цифровых материалов называются "атаками" и имеют результатом изменения в области данных. К сожалению, человек-наблюдатель не способен ощущать эти изменения, позволяя пиратам успешно распространять неавторизованные копии незаконным способом.

Хотя человек-наблюдатель толерантен к таким малым (т.е. невоспринимаемым) изменениям, наблюдатель цифровой информации - в форме технологии обычного хэширования - не толерантен. Традиционные технологии хэширования мало помогают идентификации общего содержимого исходного цифрового материала и пиратской копии такого материала, потому что хэширование оригинала и пиратской копии приводит к сильно различающимся хэш-значениям. Это справедливо, даже хотя оба они являются перцепциально идентичными (т.е. представляются одинаковыми человеку-наблюдателю).

Применения технологий хэширования

Существуют многие и различные применения технологий хэширования. Некоторые включают в себя антипиратство, категоризацию контента, распознавание контента, вставку водяных знаков, основанное на контенте генерирование ключей и синхронизацию в аудио- и видеопотоках.

Технологии хэширования могут использоваться для поиска в Web-сети цифровых материалов, подозреваемых в том, что они являются пиратскими. В дополнение, технологии хэширования используются для основанного на контенте генерирования ключей сигнала. Эти ключи используются вместо или в дополнение к секретным ключам. Функции хэширования также могут быть использованы для синхронизации входных сигналов. Примеры таких сигналов включают в себя видео- или мультимедийные сигналы. Технология хэширования должна быть быстрой, если синхронизация выполняется в реальном времени.

Сущность изобретения

Описываемое в настоящей заявке является реализацией, которая дает новое представление цифрового материала (такого как изображение) в новой определенной области представления. В частности, эти представления в этой новой области основаны на инвариантностях матриц. В некоторых реализациях эти инвариантности матриц могут, например, в значительной степени использовать сингулярное разложение (SVD).

Краткое описание чертежей

Аналогичные ссылочные позиции используются на всех чертежах для ссылки на аналогичные элементы и признаки.

Фиг.1 - блок-схема, показывающая описываемую методологическую реализацию.

Фиг.2 - блок-схема описываемой реализации.

Фиг.3 - пример компьютерной операционной среды, допускающей (полную или частичную) реализацию по меньшей мере одного описываемого варианта осуществления.

Подробное описание

В последующем описании конкретные числа, материалы и конфигурации излагаются с целью объяснения, чтобы обеспечить полное понимание настоящего изобретения. Однако специалисту очевидно, что настоящее изобретение может быть осуществлено на практике без этих специальных иллюстративных деталей. В других случаях хорошо известные признаки опущены или упрощены, чтобы сделать ясным описание иллюстративных реализаций настоящего изобретения и тем самым лучше пояснить настоящее изобретение. Более того, для легкости понимания некоторые этапы способа выделены в качестве отдельных этапов; однако эти отдельно выделенные этапы не должны быть истолкованы как необходимо зависящие от порядка в их выполнении.

Нижеследующее описание раскрывает одну или более иллюстративных реализаций Представления Цифровых Материалов, основанного на Инвариантностях Матриц, которые содержат элементы, перечисленные в прилагаемой формуле изобретения. Эти реализации описаны с такими подробностями, чтобы соответствовать предписанным требованиям к описанию, возможности реализации и раскрытию представляющегося наилучшим способа осуществления изобретения. Однако не предполагается, что само это описание ограничивает объем этого патента.

Описанные ниже иллюстративные реализации являются примерами. Эти иллюстративные реализации не ограничивают объем заявленного настоящего изобретения; скорее, настоящее изобретение может также быть воплощено и реализовано другими путями в связи с другими современными или будущими технологиями.

Один пример воплощения Представления Цифровых Материалов, основанного на инвариантностях матриц, может быть назван "иллюстративное средство представления материалов".

При упоминании рандомизации следует понимать, что эта рандомизация выполняется посредством генератора (например, RC4) псевдослучайных чисел, начальное число которого является секретным ключом (k), где этот ключ противнику неизвестен.

Введение

Одна или более иллюстративных реализаций этого изобретения, описанные ниже, могут быть реализованы (полностью или частично) на компьютерных системах и компьютерных сетях, подобных той, что показана на фиг.3. Хотя реализации могут иметь много применений, криптосистемы, авторизация и безопасность являются примерами конкретных применений.

Иллюстративное средство представления материалов выводит векторы робастных характеристик цифровых материалов из псевдослучайно выбранных квазиглобальных областей этих материалов посредством инвариантностей матриц. Такие области могут (но не должны) быть перекрывающимися.

В отличие от обычных подходов, вычисления в иллюстративном средстве представления материалов основываются на инвариантностях матриц (таких как те, что основаны на сингулярном разложении (SVD)). SVD компоненты охватывают существенные характеристики цифровых материалов.

Квазиглобальные характеристики

Квазиглобальные характеристики являются представителями (типичными представлениями) общих характеристик группы или коллекции индивидуальных элементов. Например, они могут быть статистиками или признаками "областей" (т.е. "сегментов"). Квазиглобальные характеристики не являются представителями (представлениями) индивидуальных локальных характеристик индивидуальных элементов; скорее они являются представителями перцепциального (воспринимаемого) контента группы (например, сегментов) как целого.

Квазиглобальные характеристики могут быть определены (заданы) посредством математического или статистического представления группы. Например, это может быть среднее цветовых значений всех пикселей в группе. Следовательно, такие квазиглобальные характеристики могут также называться "статистическими характеристиками". Локальные характеристики не представляют робастных статистических характеристик.

Обозначения

Ниже заглавные буквы (например, A, B, C) представляют матрицы, строчные буквы с векторной нотацией (например, ~a, ~b, ~c) представляют векторы-столбцы, а строчные буквы представляют скаляры (например, a, b, c). Секретный ключ представлен посредством k.

Здесь используются следующие математические определения:

Двумерное представление цифровых материалов размера n x n.

Единичная матрица размера n x n.

- матрица, которая представляет i-ую псевдослучайную область (например, прямоугольник размера m x m), взятую из цифровых материалов.

Транспонирование матрицы А.

Норма Фробенуса матрицы A, определенная как

где a k,l является элементом A в строке k и столбце l.

Эрмитово сопряженная матрица для матрицы A. Отметим, что A H =A L для вещественных матриц.

L 2 норма вектора, которая определена как

где является k-ым элементом ~ .

- матрица DCT преобразования размера m для 1-мерных сигналов длины m. Отметим, что 2-мерное DCT преобразование матрицы I (размер m x m) определяется как

- матрица DWT преобразования размера m для 1-мерных сигналов длины m. Отметим, что 2-мерное DWT преобразование матрицы I (размер m x m) определяется как

Вес Хемминга бинарного вектора ~a.

SVD матрицы определяется как:

Ортогональные собственные векторы матрицы AA H (и в общем случае могут не быть уникальными (однозначными)). называются левыми сингулярными векторами A.

Ортогональные собственные векторы матрицы A H A (и в общем случае могут не быть уникальными). называются правыми сингулярными векторами A.

- : Диагональная вещественная матрица размера m x m, где i-ый диагональный элемент, a i , называется i-ым сингулярным значением. Без потери общности можно предполагать, что

Сингулярное разложение(SVD)

Иллюстративное средство представления материалов захватывает сущность геометрической информации, в то же время обеспечивает уменьшение размерности. SVD имеет некоторые доказуемые свойства оптимальности: "лучшая" меньшей размерности (скажем K-мерная) аппроксимация матрицы (скажем ранга N, N>=K) в смысле нормы Фробенуса обеспечивается первыми K сингулярными векторами и соответствующими сингулярными значениями.

Существо квазиглобальных свойств и геометрическая информация цифровых материалов (таких как изображения) компактно охватываются значащими компонентами SVD таких материалов. Такие компоненты приблизительно инвариантны при намеренных или ненамеренных возмущениях до тех пор пока интересующие цифровые материалы не изменены перцепциально слишком сильно.

Посредством иллюстративного средства представления материалов SVD применяется к псевдослучайно выбранным квазиглобальным областям изображений в основном по причинам безопасности. SVD компоненты, полученные из этих областей, точно представляют всеобъемлющие свойства цифровых материалов и обладают подходящими свойствами робастности, в то же время обеспечивая разумную безопасность до тех пор пока используется достаточное количество и размер областей.

Обычным выбором были DCT (дискретное косинусное преобразование) и DWT (дискретное вэйвлет-преобразование http://www.multitran.ru/c/m.exe?a=sa&t=1230948_1_2&sc=134). При использовании DCT и DWT цифровые материалы проецируются в фиксированный набор фиксированных базисных векторов. Доказано, что DCT/DWT являются в общем эффективными для применения обработки обычных материалов.

Вместо преобразований DCT/DWT-типа с фиксированным базисом иллюстративное средство представления материалов использует сингулярное разложение (SVD). В случае SVD иллюстративное средство представления материалов выбирает оптимальные базисные векторы в смысле L 2 нормы (см. уравнение (1) ниже). Более того, для заданной матрицы ее SVD единственно. В качестве аналогии, если цифровой материал представлен вектором в некотором пространстве векторов высокой размерности, то сингулярные векторы дают информацию об оптимальном направлении по отношению к материалу в смысле уравнения (1), в то время как сингулярные значения дают информацию о расстоянии вдоль этого направления. Следовательно, сингулярные векторы, которые соответствуют большим сингулярным векторам, естественно подвержены любой атаке масштабирования и другим малым модификациям обычной обработки сигналов.

Используя SVD разложение, цифровые материалы могут рассматриваться как двумерная поверхность в трехмерном пространстве. Когда DCT-подобные преобразования применяются к цифровому материалу (или поверхности), информация о любом особенно отличительном (следовательно, важном) геометрическом свойстве цифрового материала распределяется по всем коэффициентам.

Например, изображение может иметь поверхность с сильными пиками (например, очень яркие фрагменты на темном фоне), которые должны быть распределены по всем преобразованиям в случае DCT. Используя SVD, иллюстративное средство представления материалов сохраняет как величину этих важных свойств (в сингулярных значениях), так и их местоположение и геометрию в сингулярных векторах. Следовательно, комбинация наибольших левого и правого сингулярных векторов (т.е. тех, которые соответствуют наибольшим сингулярным значениям) охватывает важные геометрические свойства в изображении в смысле L 2 нормы.

Свойства SVD

Ниже описаны математические свойства SVD. Пусть является SVD для А. Тогда

1) Левые сингулярные векторы являются ортогональным базисом для пространства столбцов A.

2) Правые сингулярные векторы являются ортогональным базисом для пространства строк A.

где и

где являются сингулярными значениями, соответствующие сингулярные векторы.

Хэширование

Хэш-функции, используемой иллюстративным средством представления материалов, передают входные значения - цифровой материал (такой как изображение) I и секретный ключ k. Эта хэш-функция формирует короткий вектор из множества мощности 2 k . Желательно, чтобы перцепциальное хэш-значение было с высокой вероятностью идентично для всех перцепциально сходных цифровых материалов. Также желательно, чтобы два перцепциально различных цифровых материала с высокой вероятностью формировали несвязанные хэш-значения. Такая хэш-функция является преобразованием "много в один". С другой стороны, для большинства применений может быть достаточно иметь приблизительно сходные (соответственно различные) хэш-значения для перцепциально сходных (соответственно различных) входных значений с высокой вероятностью, т.е. эта хэш-функция может проявлять постепенное изменение.

Требования для такой хэш-функции заданы в виде:

1) Рандомизация: Для любого данного входного значения его хэш-значение должно быть приблизительно равномерно распределено между всеми возможными выходными значениями. Мера вероятности задается секретным ключом.

2) Попарная независимость: Выходные хэш-значения для двух перцепциально различных цифровых материалов должны быть с высокой вероятностью независимы, где вероятностное пространство задается секретным ключом.

3) Инвариантность: Для всех возможных приемлемых возмущений выходное значение хэш-функции должно оставаться с высокой вероятностью приблизительно инвариантным, где вероятностное пространство задается секретным ключом.

Два цифровых материала считаются перцепциально сходными, когда не существует достаточно заметных расхождений между ними в смысле человеческого восприятия.

Методологические реализации иллюстративного

Фиг.1 показывает методологическую реализацию иллюстративного средства представления материалов. Эта методологическая реализация может выть выполнена с помощью программного обеспечения, аппаратными средствами или их комбинацией.

На этапе 110 иллюстративное средство представления материалов получает входные цифровые материалы. Для данного описания входные цифровые материалы являются изображением размером n x n, которое может быть описано как Отметим, что это изображение может также быть прямоугольным (т.е. размеры могут быть различными). Этот подход может быть обобщен до этого условия без затруднений.

На этапе 120 иллюстративное средство представления материалов псевдослучайным образом формирует многочисленные области из I. Число областей может быть равно p и форма этих областей может быть, например, прямоугольником. Форма этих областей может различаться от реализации к реализации.

Хотя и не обязательно, эти области могут перекрываться друг с другом. Однако может иметь место реализация, которая требует такого перекрытия. И наоборот, может иметь место реализация, которая не допускает перекрытия.

A i является матрицей, которая представляет i-ую псевдослучайную область (например, прямоугольник размера m x m), взятую из цифровых материалов. Отметим, что каждая из этих областей может быть матрицей других размеров и это может быть легко использовано в таком подходе без затруднений.

На этапе 130 формируются векторы характеристик (каждый из которых может быть обозначен из каждой области A i посредством преобразования на основе SVD. Это формирование векторов характеристик может в общем быть описано как

Эти векторы характеристик могут использоваться в качестве хэш-значений после подходящей дискретизации или они могут использоваться в качестве промежуточных характеристик, из которых фактические могут быть сформированы хэш-значения. Преобразование на основе SVD является хэш-функцией, которая использует SVD. Примеры хэш-функций описаны ниже в разделе, озаглавленном "хэш-функции на основе SVD".

На этом этапе иллюстративное средство представления материалов формирует представление (коллекцию векторов характеристик, сформированную посредством цифровых материалов. Некоторые реализации могут заканчиваться на данном этапе с комбинацией чтобы сформировать хэш-вектор.

В этих реализациях может быть создано так, чтобы давал верхние q сингулярных значений из прямоугольника A i . Другая возможность заключается в создании так, чтобы давало верхние q сингулярных векторов (левые, правые или вместе). Они являются q сингулярными векторами, которые соответствуют наибольшим q значениям. Естественно, в обоих случаях параметр q должен быть выбран правильно; например, логическое решение может требовать q<

В некоторых реализациях можно выбрать p=1 и A i так, чтобы они соответствовали всему изображению. Отметим, что этот вариант не обладает какой-либо случайностью; следовательно, это более подходит для не соперничающих (не противоречащих) применений хэширования изображений.

Альтернативно, другие реализации могут выполнять дополнительную обработку, чтобы сформировать даже более гладкие результаты. Этапы 140, 150, 160 и 170 показывают это.

На этапе 140 иллюстративное средство представления материалов формирует вторичное представление J цифровых материалов посредством использования псевдослучайной комбинации векторов характеристик. На этом этапе эти векторы, сформированные как часть этапа 130, могут рассматриваться как "промежуточные" векторы характеристик.

В качестве части такого формирования вторичного представления J иллюстративное средство представления материалов собирает первые левый и правый сингулярный векторы, которые соответствуют наибольшему сингулярному значению из каждой подсекции.

Пусть где (соответственно является первым левым (соответственно правым) сингулярным вектором i-ой подсекции. Тогда иллюстративное средство представления материалов псевдослучайным образом формирует гладкое представление J из множества Г: При данном псевдослучайно выбранном начальном сингулярном векторе продолжает формироваться J посредством выбора и замены последующих векторов из Г, таких что следующий выбранный вектор является ближайшим к предыдущему вектору в смысле L 2 нормы.

Следовательно, после 2p шагов все элементы Г являются псевдослучайно переупорядоченными и сформировано J (размера m x 2p). Отметим, что метрика L 2 может быть заменена любой другой подходящей метрикой (возможно рандомизированной) при формировании J, так чтобы были достигнуты непрерывность и гладкость. Гладкий характер для J может быть желательным в некоторых реализациях.

Также отметим, что вместо этого простого псевдослучайного переупорядочения векторов возможно применить другие (возможно более сложные) операции, чтобы сгенерировать J.

На этапе 150 иллюстративное средство представления материалов псевдослучайным образом формирует многочисленные области из J. Число областей может быть названо r и форма этих областей может быть например, прямоугольной. Эта форма областей может отличаться от реализации к реализации. Как и выше описанные области, эти области могут быть любой формы и могут перекрываться (но не требуется, чтобы это было так).

Это действие представлено посредством: B i является матрицей, которая представляет i-ую псевдослучайную область (например прямоугольник размера d x d), взятую из вторичного представления J этих цифровых материалов. Отметим, что в этой реализации прямоугольники могут иметь разные размеры. В других реализациях прямоугольники могут иметь одинаковый размер.

На этапе 160 генерируется новый набор векторов характеристик (каждый из которых может быть обозначен из каждой области B i посредством преобразования на основе SVD. Это формирование векторов характеристик может быть в общем описано как

Эти векторы характеристик являются хэш-значениями. Преобразование на основе SVD является хэш-функцией, которая использует SVD. Примеры хэш-функций описаны ниже в разделе озаглавленном "Хэш-функции на основе SVD". Эти преобразования (T 1 и T 2) на основе SVD могут быть одинаковыми или отличаться друг от друга.

На этапе 170 иллюстративное средство представления материалов комбинирует векторы характеристик этого нового набора чтобы сформировать новый хэш-вектор, который формирует выходное значение, которое включает в себя эту комбинацию векторов.

Хэш-функции на основе SVD

В этом разделе описано несколько функций хэширования, которые могут быть использованы преобразованиями (T 1 и T 2) на основе SVD, введенными выше при описании фиг.1.

Хэш-функции SVD-SVD

При заданном изображении, например, иллюстративное средство представления материалов псевдослучайным образом выбирает p под-изображений Затем иллюстративное средство представления материалов находит SVD каждого под-изображения:

где U i , V i являются вещественными левой и правой матрицами m x m сингулярных векторов соответственно, и S i - вещественной диагональной матрицей m x m , состоящей из сингулярных значений вдоль диагонали.

После формирования вторичного представления на этапе 140, иллюстративное средство представления материалов снова применяет SVD к подсекциям B i . В качестве хэш-вектора иллюстративное средство представления материалов сохраняет соответствующий набор первых r левых и правых сингулярных векторов из каждой B i после соответствующей дискретизации.

В качестве варианта подхода SVD-SVD иллюстративное средство представления материалов использует 2D-DCT преобразование в качестве начального преобразования (T l) на этапе 130. После нахождения 2D-DCT для каждого под-изображения Ai

сохраняются только верхний диапазон частот из матрицы D i коэффициентов. Здесь D обозначает матрицу DCT преобразования. Выбор из и определяет выбранный частотный диапазон. Коэффициенты частот от нижнего до среднего диапазонов являются более описательными и отличительными для изображений. Выбор позволяет избежать частот, близких к частоте флуктуаций постоянного тока, которые являются более чувствительными к простому масштабированию или изменениям уровня постоянного тока. Выбор малого значения позволяет избежать использования коэффициентов более высоких частот, которые могут быть изменены добавлением малого шума, сглаживанием, компрессией и т.д. Следовательно, могут быть выбраны подходящие значения и в зависимости от конкретной проблемы.

Коэффициенты в этом диапазоне частот затем сохраняются как вектор для каждой области A i . Упорядочивание элементов ~{d i } зависит от пользователя и возможно может быть использовано для введения дополнительной случайности. Затем формируется вторичное представление, следуя тем же путем, посредством выбора случайных векторов из множества и псевдослучайного формирования гладкого представления J. Затем, иллюстративное средство представления материалов применяет SVD к J:

в качестве хэш-векторов.

Это является вариантом подхода DCT-SVD, где 2D-DCT заменено на 2D-DWT. После получения случайных прямоугольников A i из изображения, l-уровень DWT применяется к каждому A i . DC поддиапазоны хранятся в качестве векторов ~ чтобы сформировать вторичное представление J на следующей стадии. Затем к J применяется SVD:

Первые левый и правый сингулярные векторы соответствующие наибольшему сингулярному значению, сохраняются как хэш-векторы после соответствующей дискретизации.

Бинарное SVD

Вместо работы в исходной области иллюстративное средство представления материалов формирует бинарное представление из исходного изображения, сохраняя значимые области этих цифровых материалов. Если эти материалы являются изображением, этот подход может задавать порог для пикселей изображения, где пороговый уровень выбран таким, что только t процентов пикселей изображения представлены единицами (или нулями). Альтернативно, этот пороговый уровень может быть выбран таким, что в каждом подизображении только t процентов пикселей изображения являются единицами (или нулями).

При заданном изображении I бинарное изображение после задания порога может быть представлено как I b , и, чтобы соответствовать наибольшему сингулярному значению, первые левый и правый сингулярные векторы могут быть определены как

где - бинарные векторы и бинарная операция Исключающее ИЛИ . Другие сингулярные векторы могут быть найдены альтернативно, так что (k+1)-ая сингулярная векторная пара выводится из для суммирования.

Следовательно, после задания порога первые бинарные сингулярные векторы для каждого бинарного под-изображения являются найденными и формируют множество После формирования вторичного бинарного представления J b на второй стадии иллюстративное средство представления материалов продолжает использовать бинарное SVD на r псевдослучайно выбранных областях. Окончательное значение задается посредством

Прямое SVD

T l может использоваться как тождественное преобразование и использовать подсекции непосредственно. Эта идея легко применима к бинарным цифровым материалам (таким как бинарное изображение I b), которые могут быть сформированы после задания порога. Из каждой подсекции A i размера m x m векторы ~ формируются напрямую из выборок из материалов. Вторичное представление J генерируется непосредственно из Затем иллюстративное средство представления материалов применяет SVD к J:

и сохраняет первые левый и правый сингулярные векторы как хэш-векторы.

Иллюстративная система для генерирования представления цифровых материалов

Фиг.2 показывает иллюстративную систему 200 для генерирования представления цифровых материалов, которая является примером воплощения иллюстративного средства представления материалов.

Система 200 генерирует представление (например, хэш-значение) цифрового материала. В этом примере цифровой материал является изображением. Система 200 включает в себя модуль 210 получения материалов, модуль 220 разбиения, модуль 230 вычисления статистик областей и устройство 240 вывода.

Модуль 210 получения материалов получает цифровой материал 205 (такой как аудиосигнал или цифровое изображение). Он может получать материалы почти из любого источника, например из запоминающего устройства или из сетевой линии связи. В дополнение к получению модуль 210 получения материалов может также нормализовать амплитуду этих материалов. В этом случае он может также называться амплитудным нормализатором.

Модуль 220 разбиения разделяет материалы в множество имеющих псевдослучайный размер псевдослучайно расположенных областей (т.е. разбиения). Такие области могут перекрываться (но такое наложение не является необходимым).

Например, если этот материал является изображением, он может быть разбит на двумерные многоугольники (например, области) с псевдослучайными размерами и местоположением. В другом примере, если этот материал является аудиосигналом, двумерное представление (использующее частоту и время) этого аудиоклипа может быть разделено на двумерные многоугольники (например, треугольники) с псевдослучайными размерами и местоположением.

В этом варианте реализации эти области в самом деле перекрываются друг с другом.

Для каждой области модуль 230 вычисления статистик областей вычисляет статистики множества областей, сгенерированных модулем 220 разбиения. Статистики для каждой области вычисляются. Эти статистики, вычисленные модулем 230 вычисления, могут быть векторами характеристик, описанными выше при описании этапов 130 и 160.

Устройство 240 вывода представляет результаты (для каждой области или комбинированно) модуля 230 вычисления статистик областей. Такие результаты могут храниться или использоваться для дальнейших вычислений.

Примеры применений для иллюстративного

средства представления материалов

Иллюстративное средство представления материалов может быть полезно для различных применений. Такие применения могут включать в себя соперничающие и несоперничающие сценарии.

Некоторые несоперничающие приложения могут включать в себя проблемы поиска в базах данных сигналов, мониторинг сигналов в несоперничающих средах. В несоперничающих приложениях применение данного подхода ко всему изображению может обеспечить благоприятные результаты. Кроме того, другим применением данного алгоритма может быть несколько применений в сертификации: для того чтобы компактно описать отличительные особенности (изображения лица, изображения радужной оболочки глаза, отпечатков пальцев и т.д.) человека, применением может быть использование их хэш-значения, где эти хэш-значения формируются посредством иллюстративного средства представления материалов.

Иллюстративная компьютерная система и среда

Фиг.3 иллюстрирует пример подходящей компьютерной среды 300, в которой может быть реализовано (или полностью или частично) иллюстративное средство представления материалов, описанное выше. Компьютерная среда 300 может быть реализована в виде компьютерной и сетевой архитектур, описанных ниже.

Иллюстративная компьютерная среда 300 является только одним примером компьютерной среды и не предполагает наложение какого-либо ограничения как на область использования так и на функциональность этих компьютерной и сетевой архитектур. Компьютерная среда 300 также не должна быть интерпретирована как имеющая какую-либо зависимость или требование, относящиеся к каким-либо одному или комбинации компонентов, иллюстрированных в примерной компьютерной среде 300.

Иллюстративное средство представления материалов может быть реализовано во множестве других сред или конфигураций компьютерных систем общего или специального назначения. Примеры хорошо известных компьютерных систем, сред и/или конфигураций, которые могут быть подходящими для использования, включают в себя, но не ограничиваются ими, персональные компьютеры, серверные компьютеры, тонкие клиенты, толстые клиенты, ручные или портативные устройства, мультипроцессорные системы, микропроцессорные системы, телевизионные приставки, программируемую потребительскую электронику, сетевые персональные компьютеры, миникомпьютеры, универсальные вычислительные машины, распределенные компьютерные среды, которые могут включать в себя любые из вышеперечисленных систем или устройств и т.п.

Иллюстративное средство представления материалов может быть описано в общем контексте исполняемых процессором инструкций, таких как программные модули, выполняющиеся компьютером. В общем случае программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или воплощают конкретные абстрактные типы данных. Иллюстративное средство представления материалов может применяться в распределенных компьютерных средах, где задачи выполняются удаленными обрабатывающими устройствами, которые связаны через сеть связи. В распределенной компьютерной среде программные модули могут находиться как на локальных, так и удаленных компьютерных запоминающих носителях, включая запоминающие устройства.

Компьютерная среда 300 включает в себя компьютерное устройство общего назначения в виде компьютера 302. Компоненты компьютера 302 могут включать в себя, но не ограничены ими, один или более процессоров или процессорных устройств 304, системную память 306 и системную шину 308, которая подсоединяет различные системные компоненты, включая процессор 304, к системной памяти 306.

Системная шина 308 представляет собой одну или более любых из нескольких типов структур шин, включающих в себя шину памяти или контроллер памяти, периферийную шину, ускоренный графический порт, и процессор или локальную шину, использующую любую из множества шинных архитектур. В качестве примера такие архитектуры могут включать в себя CardBus, плату Международной ассоциации производителей плат памяти для персональных компьютеров (PCMCIA), ускоренный графический порт (AGP), интерфейс малых компьютерных систем (SCSI), универсальную последовательную шину (USB), IEEE 1394, локальную шину Ассоциации по стандартам в области видеоэлектроники (VESA) и шину соединения периферийных устройств (PCI), также известную как шина расширения (Mezzanine bus).

Компьютер 302 обычно включает в себя множество считываемых процессором носителей. Такие носители могут быть любыми имеющимися в наличии носителями, к которым компьютер 302 имеет доступ, и включают в себя как энергозависимые так и энергонезависимые носители, съемные или стационарные носители.

Системная память 306 включает в себя считываемые процессором носители в виде энергозависимой памяти, такой как оперативное запоминающее устройство (RAM) 310, и/или энергонезависимой памяти, такой как постоянное запоминающее устройство (ROM) 312. Базовая система 314 ввода/вывода (BIOS), содержащая базовые процедуры, которые помогают передавать информацию между элементами в компьютере 302, например, в процессе запуска, хранится в ROM 312. RAM 310 обычно содержит данные и/или программные модули, которые непосредственно доступны и/или в текущий момент обрабатываются процессорным устройством 304.

Компьютер 302 может также включать в себя другие съемные/стационарные, энергозависимые/энергонезависимые компьютерные запоминающие носители. В качестве примера, фиг.3 иллюстрирует привод 316 жестких дисков для чтения с или записи на стационарный энергонезависимый магнитный носитель (не показан), привод 318 магнитных дисков для чтения с или записи на съемный энергонезависимый магнитный диск 320 (например "флоппи-диск") и привод 322 оптических дисков для чтения с и/или записи на съемный энергонезависимый оптический диск 324, такой как CD-ROM, DVD-ROM или другие оптические носители. Привод 316 жестких дисков, привод 318 магнитных дисков и привод 322 оптических дисков каждый подсоединен к системной шине 308 посредством одного или более интерфейсов 326 носителей данных. Альтернативно, привод 316 жестких дисков, привод 318 магнитных дисков и привод 322 оптических дисков могут подсоединяться к системной шине 308 посредством одного или более интерфейсов (не показаны).

Эти приводы и связанные с ними считываемые процессором носители обеспечивают энергонезависимое хранение считываемых компьютером инструкций, структур данных, программных модулей и других данных для компьютера 302. Хотя этот пример иллюстрирует жесткий диск 316, съемный магнитный диск 320 и съемный оптический диск 316, должно быть принято во внимание, что другие типы считываемых процессором носителей, которые могут хранить данные, и к которым компьютер может осуществлять доступ, такие как магнитные кассеты или другие магнитные запоминающие устройства, платы флэш-памяти, CD-ROM, универсальные цифровые диски (DVD) или другие оптические накопители, оперативные запоминающие устройства (RAM), постоянные запоминающие устройства (ROM), электрически стираемые программируемые постоянные запоминающие устройства (EEPROM) и подобные, также могут быть использованы, чтобы реализовать иллюстративную компьютерную систему и среду.

Любое число программных модулей может храниться на жестком диске 316, магнитном диске 320, оптическом диске 324, ROM 312 и/или RAM 310, включая, например, операционную систему 326, одну или более прикладных программ 328, другие программные модули 330 и программные данные 332.

Пользователь может вводить команды и информацию в компьютер 302 посредством устройств ввода, таких как клавиатура 334 и указывающее устройство 336 (например, "мышь"). Другие устройства 338 ввода (конкретно не показаны) могут включать в себя микрофон, джойстик, игровую панель, спутниковую параболическую антенну, последовательный порт, сканер и/или подобное. Эти и другие устройства ввода подсоединены к процессорному устройству 304 посредством интерфейсов 340 ввода/вывода, которые присоединены к системной шине 308, но могут быть подсоединены посредством других интерфейсов и структур шин, таких как параллельный порт, игровой порт или универсальная последовательная шина (USB).

Монитор 342 или другой тип устройства отображения также может быть подсоединен к системной шине 308 посредством интерфейса, такого как видеоадаптер 344. В дополнение к монитору 342 другие периферийные устройства вывода могут включать в себя компоненты, такие как громкоговорители (не показаны) и принтер 346, которые могут быть подсоединены к компьютеру 302 посредством интерфейсов 340 ввода/вывода.

Компьютер 302 может работать в сетевой среде, использующей логические соединения с одним или более удаленными компьютерами, такими как удаленное компьютерное устройство 348. В качестве примера, удаленное компьютерное устройство 348 может быть персональным компьютером, портативным компьютером, сервером, маршрутизатором, сетевым компьютером, равноправным устройством или другим обычным сетевым узлом и т.п. Удаленное компьютерное устройство 348 показано как портативный компьютер, который может включать в себя многие или все из элементов и признаков, описанных применительно к компьютеру 302.

Логические соединения между компьютером 302 и удаленным компьютером 348 показаны как локальная сеть (LAN) 350 и глобальная сеть (WAN) 352. Такие сетевые среды являются обычным явлением в учреждениях, компьютерных сетях масштаба предприятия, во внутренних сетях и в Интернет. Такие сетевые среды могут быть проводными или беспроводными.

Будучи реализован в локальной сетевой среде (LAN), компьютер 302 подсоединяется к локальной сети 350 посредством сетевого интерфейса или адаптера 354. Будучи реализован в глобальной сетевой среде (WAN), компьютер 302 обычно включает в себя модем 356 или другие средства для установки связи через глобальную сеть 352. Модем 356, который может быть внутренним или внешним по отношению к компьютеру 302, может подсоединяться к системной шине 308 посредством интерфейсов 340 ввода/вывода или других подходящих механизмов. Также следует принять во внимание, что показанные сетевые соединения являются иллюстративными, и что могут быть использованы другие средства установки связи (связей) между компьютерами 302 и 348.

В сетевой среде, такой как показанная компьютерная среда 300, программные модули, показанные для компьютера 302 или его части, могут храниться в удаленном запоминающем устройстве. В качестве примера, удаленные прикладные программы 358 располагаются на запоминающем устройстве удаленного компьютера 348. В целях иллюстрации прикладные программы и другие исполнимые программные компоненты, такие как операционная система, показаны здесь как дискретные блоки, хотя понимается, что такие программы и компоненты располагаются в различное время на различных запоминающих компонентах компьютерного устройства 302 и исполняются процессором (процессорами) данных компьютера.

Исполняемые процессором инструкции

Реализация иллюстративного средства представления материалов может быть описана в общем контексте исполняемых процессором инструкций, таких как программные модули, исполняемые одним или более компьютерами или другими устройствами. В общем случае программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или реализуют конкретные абстрактные типы данных. Типично, функциональные возможности программных модулей могут быть скомбинированы или распределены по необходимости в различных вариантах осуществления.

Иллюстративная операционная среда

Фиг.3 иллюстрирует пример подходящей операционной среды 300, в которой может быть реализовано иллюстративное средство представления материалов. Более конкретно, иллюстративное(ые) средство(а) представления материалов, описанное выше, может быть реализовано (полностью или частично) любыми программными модулями 328-330 и/или операционной системой 326, изображенными на фиг.3, или их частями.

Эта операционная среда является только примером подходящей операционной среды и не предполагает наложить какие-либо ограничения как на область, так и на использование функциональных возможностей иллюстративного средства представления материалов, описанных выше. Другие хорошо известные компьютерные системы, среды и/или конфигурации, которые подходят для использования, включают в себя, но не ограничиваются ими, персональные компьютеры (ПК), серверные компьютеры, ручные или портативные устройства, мультипроцессорные системы, микропроцессорные системы, программируемую бытовую электронику, беспроводные телефоны и оборудование, аппаратуру общего и специального назначения, специализированные интегральные схемы (ASIC), сетевые ПК, миникомпьютеры, универсальные вычислительные машины, распределенные компьютерные среды, которые включают в себя любые из вышеперечисленных систем или устройств и т.п.

Считываемые процессором носители

Реализация иллюстративного средства представления материалов может храниться на или передаваться посредством некоторых видов считываемых процессором носителей. Считываемые процессором носители могут быть любыми имеющимися в наличии носителями, к которым может быть осуществлен доступ компьютером. В качестве примера, считываемые процессором носители могут содержать, но не ограничены этим, "компьютерные запоминающие носители" и "среда связи".

"Компьютерные запоминающие носители" включают в себя энергозависимые и энергонезависимые, съемные и стационарные носители, реализованные любым способом или по любой технологии для хранения информации, такой как считываемые компьютером инструкции (команды), структуры данных, программные модули или другие данные. Компьютерные запоминающие носители включают в себя, но не ограничены ими, RAM, ROM, EEPROM, флэш-память или память по другой технологии, CD-ROM, универсальные цифровые диски (DVD) или другие оптические накопители, магнитные кассеты, магнитную ленту, магнитный дисковый накопитель или другие магнитные запоминающие устройства, или любой другой носитель, который может использоваться для хранения необходимой информации, и к которому может быть осуществлен доступ компьютером.

"Среда связи" обычно воплощает считываемые процессором инструкции, структуры данных, программные модули или другие данные в виде модулированных сигналов данных, таких как сигнал несущей или другой транспортный механизм. Среда связи также включает в себя любые носители для доставки информации.

Термин "модулированный сигнал данных" означает сигнал, у которого один или более параметров установлены в определенное состояние или изменены таким образом, чтобы закодировать информацию в этом сигнале. В качестве примера, среда связи может содержать, но не ограничена этим, проводные носители, такие как проводная сеть или непосредственное проводное соединение, и беспроводные носители, такие как акустические, RF (радиочастотные), инфракрасные и другие беспроводные носители. Комбинации любых из вышеперечисленных также соответствуют понятию считываемых процессором носителей.

Заключение

Хотя настоящее изобретение описывается на языке, специфичном для структурных признаков и/или методологических этапов, следует понимать, что настоящее изобретение, определенное в прилагаемой формуле изобретения, не является необходимо ограничено этими специфичными признаками или этапами, которые описаны. Скорее, эти специфичные признаки и этапы раскрываются как предпочтительные формы реализации этого заявленного изобретения.

ФОРМУЛА ИЗОБРЕТЕНИЯ

1. Считываемый процессором носитель, имеющий исполняемые процессором инструкции, которые при исполнении их процессором выполняют способ идентификации цифровых материалов на основе их компактного описания, причем упомянутый способ содержит этапы:

получают цифровой материал,

сегментируют этот материал на множество областей,

формируют векторы характеристик для каждой области из упомянутого множества, причем векторы характеристик вычисляют на основе инвариантностей матриц, включающих в себя сингулярное разложение,

формируют выходной результат, используя комбинацию вычисленных векторов характеристик, при этом выходной результат формирует вектор хэш-значений для этого цифрового материала, где вектор хэш-значений является компактным представлением цифрового материала, таким образом,

идентифицируя цифровой материал на основе упомянутого компактного представления.

2. Носитель по п.1, в котором по меньшей мере некоторые из областей упомянутого множества перекрываются.

3. Носитель по п.1, в котором упомянутый этап разбиения содержит этап псевдослучайного сегментирования упомянутого материала.

4. Носитель по п.1, в котором упомянутые цифровые материалы выбираются из группы, состоящей из цифрового изображения, цифрового аудиоклипа, цифрового видео, базы данных и программного изображения.

5. Компьютер, содержащий один или более считываемых процессором носителей по п.1.

6. Система формирования компактного описания цифровых материалов, содержащая:

модуль получения, выполненный с возможностью получения цифрового материала,

модуль сегментации, выполненный с возможностью разбиения упомянутого материала на множество областей,

модуль вычисления, выполненный с возможностью формирования векторов характеристик для каждой области из упомянутого множества, причем векторы характеристик вычисляют на основе инвариантностей матриц, включающих в себя сингулярное разложение,

модуль вывода, выполненный с возможностью формирования выходного результата, используя комбинацию вычисленных векторов характеристик, при этом выходной результат формирует вектор хэш-значений для этого цифрового материала, где вектор хэш-значений является компактным представлением цифрового материала, таким образом, идентифицируя цифровой материал на основе упомянутого компактного представления.

7. Система по п.6, в которой по меньшей мере некоторые из упомянутого множества областей перекрываются.

8. Система по п.6, в которой упомянутый модуль разбиения дополнительно выполнен с возможностью псевдослучайной сегментации упомянутого материала.

9. Система по п.6, в которой упомянутые цифровые материалы выбираются из группы, состоящей из цифрового изображения, цифрового аудиоклипа, цифрового видео, базы данных и программного изображения.

Термин «цифровая печать» объединяет технологии, позволяющие воспроизводить изображение и текст из электронного файла, минуя формные процессы. Существует большое количество различных устройств для цифровой печати, начиная с обыкновенного настольного принтера, заканчивая промышленными листовыми и рулонными печатными машинами и широкоформатными плоттерами, но все их объединяет одно – отсутствие необходимости выводить пластины и возможность производить перенос на запечатываемый материал переменных данных.

Цифровая технология возникла в конце семидесятых годов XX века с созданием первого лазерного принтера. Цифровые печатные машины отличаются от принтеров форматом запечатываемого материала и скоростью печати: к промышленным печатным машинам относят устройства, способные выводить от 70 стр./мин.

Технология цифровой печати

Предпечатная подготовка в цифровом методе ограничивается лишь работой с цветами, выставлением меток и расположением на печатном листе. Изображение экспонируется непосредственно в самом устройстве. Можно условно выделить два наиболее распространенных вида устройств: машины, основанные на электростатическом (электрофотографическом) принципе и на струйном.

Электрофотография представляет собой процесс передачи изображения, в котором участвует барабан-фоторецептор. На его поверхность наносится равномерный электрический заряд. Затем лазер ослабляет заряд в местах, соответствующих будущему изображению (экспонирование), валики подают тонер (специальный красящий порошок), который притягивается к скрытому электростатическому изображению. Сильно наэлектризованные пробельные участки отталкивают тонер. После этого изображение с барабана-фоторецептора переходит на бумагу и закрепляется под воздействием тепла.

Струйная технология основывается на передаче капель краски на участки изображения через тонкие сопла. Капли управляются заряженными электродами, отклонение которых позволяет менять траекторию капель или вовсе отправлять их в улавливатель.


Исходя из вышесказанного, можно выделить следующие достоинства цифровой печати:

  • Оперативность (можно приступить к печатанию сразу, не тратя времени на формные процессы);
  • Отсутствие затрат на предпечатную подготовку (вывод пластин);
  • Воспроизведение переменных данных (многостраничный документ, например, брошюру, можно напечатать как отдельный небольшой тираж);
  • Независимость стоимости одного экз. от тиража, (поэтому изготовление маленьких тиражей выгодно на цифровых п. м.).

Недостатки этого способа состоят в следующем:

  • Ограничение в использовании для печати полиграфии красок Пантон;
  • Проблемы с равномерностью краски на больших плашках;
  • Не очень надежная связь краски и бумаги: на сгибах, например при печати лифлетов, тонер на плашке будет растрескиваться;
  • Более низкое, по сравнению с офсетом, качество цветопередачи;
  • Высокая себестоимость расходных материалов (поэтому печать полиграфии средними и большими тиражами производится на офсете).

Применение цифровой печати

Цифровая печать используется для воспроизведения маленьких и средних тиражей абсолютно любой полиграфии, начиная с обыкновенной визитки или печати лифлетов, заканчивая созданием брошюр, многостраничных каталогов и книг. Это способ используется не только для создания печатной рекламной продукции, книжных изданий или печати полиграфии других видов – область применения цифровых машин намного шире и включает также оформление интерьеров, наружную рекламу, фотографии, репродукции художественных произведений, использование в текстильной промышленности и прочее.

Бумага для цифровой печати

Для цифровой печати изготавливаются специальные мелованные и немелованные бумаги и картоны, самоклеящиеся материалы (как на основе бумаги, так и на основе полимеров), также используют дизайнерские бумаги, в том числе с различными напылениями, текстурами и другими эффектами. Бумага для цифровой печати должна отличаться высокой степенью гладкости и ровными краями обреза.

Помимо бумаги, цифровые технологии дают возможность печатать на ткани, холсте, пленке.

Приложение I

Документ для обсуждения, подготовленный для ЮНЕСКО Европейской комиссией по вопросам сохранения и доступа (Амстердам, февраль 2002 г.)

Введение

1. Сегодня значительная часть информации в мире производится в цифровой форме. Цифровые ресурсы включают в себя широкий диапазон информации – от историй болезни до фильмов на дисках DVD; от данных наблюдений со спутников до веб-сайтов, представляющих искусство мультимедиа; от сведений о поведении потребителей, собираемых с помощью опросных бюллетеней в супермаркетах, до баз научных данных, регистрирующих геном человека; от архивов сетевых информационных бюллетеней до музейных каталогов.

2. Быстрое распространение информационной технологии приводит к тому, что сохранение цифрового наследия приобретает актуальность во всем мире. Повсеместно все шире внедряются цифровые системы для административных целей, и в очень многих странах осуществляется оцифровывание культурных материалов для обеспечения лучшего доступа к ним.

3. Быстрота эволюции цифрового мира нарушает порядок всех устоявшихся методов сохранения информации. Поколения платформ, программ и аппаратов сменяют друг друга столь быстро, что уже через годы, а не через десятилетия информационные материалы становятся недоступными из-за проблем, касающихся их совместимости с новыми системами. Временные рамки для мероприятий по сохранению сужаются: меры по сохранению доступа к цифровым материалам приходится принимать уже на самом раннем этапе их существования.

4. Правительства и лица, ответственные за политику, должны сознавать, что проблема сохранения цифрового наследия имеет срочный характер и что невозможно в одночасье найти ее решение. Весьма реальна опасность утраты важнейших материалов, для которых были использованы ценные ресурсы. В этой связи насущное значение имеет признание странами своей ответственности за цифровое наследие и принятие мер по предотвращению их утраты.

Существующие модели и правовые рамки

5. Сохранение культурного наследия традиционно подкрепляется правовыми рамками и процедурами, которые в значительной мере основаны на формальных критериях. Национальные библиотеки обеспечивают сбор и сохранение публикаций благодаря сдаче им обязательных экземпляров всех изданий в данной стране, и существует обширное законодательство в отношении архивов, определяющее сроки и методы обязательной передачи материалов в архивы для отбора и сохранения. К ведению специализированных архивов и музеев относится сбор и сохранение звукозаписей, фотографий или кинофильмов. В разных странах законодательства могут значительно различаться (например, в отношении категорий материалов, к которым применяется требование сдачи обязательного экземпляра), однако широко признаются базовые принципы, и все участники этих процессов вполне осведомлены о них.

6. В цифровом мире появляются на свет новые виды материалов, которые трудно поддаются классификации на основании обычных критериев. Мультимедийные материалы характеризуются разноплановым содержанием и различными функциональными характеристиками. На веб-сайтах могут быть объединены файлы с материалами различного типа, в частности с данными, текстами, изображениями и звукозаписями, и многие из них имеют (отчасти) динамичный характер. Веб-сайты могут также представлять собой распределенные источники, содержащие материалы, которые хранятся на различных серверах в разных районах мира. Подобные смешанные или динамичные материалы не подпадают под традиционные категории; на основе существующей политики зачастую невозможно определить, кто в первую очередь должен отвечать за их сбор и сохранение.

7. Хотя мы говорим «издание в Интернет», вовсе неясно, что представляет собой Интернет-публикация. Такой важный критерий в законодательстве об обязательном экземпляре, как место публикации, отныне не может использоваться для определения национальной принадлежности того или иного издания или печатной продукции: в названиях доменов необязательно отражается то, где и на каком языке был произведен материал, а многие сайты дублируются в других местах.

8. Это порождает вопрос о том, какие материалы должны считаться публикациями, определяемыми законодательством об обязательном экземпляре, и как это законодательство можно адаптировать применительно к цифровым материалам, которые должны сохраняться национальными библиотеками. Хотя некоторые страны располагают широким законодательством в отношении «оффлайновых» публикаций, таких, как диски CD-ROM, ситуация с «онлайновыми» материалами все еще остается неопределенной.

9. В архивной области электронные фонды приходят на смену бумажным материалам. Поскольку документы используются на протяжении ряда лет или даже десятилетий, их поневоле приходится перемещать с устаревших носителей на новые, что чревато опасностью изменений или утрат в отношении содержания, функциональности или первоначального внешнего оформления. В отсутствие материального объекта, который можно было бы сохранять как таковой, становится необходимым решать, какие элементы реально формируют аутентичную электронную копию и нуждаются в сохранении.

10. Необходимо адаптировать или расширить правовые рамки, определяющие соответствующие обязанности и процедуры, для обеспечения возможности действовать в условиях новой цифровой среды. Адекватное законодательство в этой области служит для соответствующих учреждений необходимым инструментом по определению задач и отбору материалов, подлежащих сохранению.

Интернет как культурное пространство

11. Интернет состоит из миллиарда страниц и продолжает разрастаться. Ряд этих страниц посвящены такого рода материалам, которые для нас традиционно ассоциируются с учреждениями, занимающимися наследием: речь идет об электронных журналах и статьях, газетах, фотографиях, каталогах и системах поиска, а также о других видах материалов и документов.

12. Однако Интернет представляет собой чрезвычайно демократичную среду, поскольку, с другой стороны, в нем находится неисчислимое количество веб-сайтов, создаваемых отдельными лицами и неформальными группами. Виртуальные сообщества людей, разбросанных по всему земному шару, но объединенных общими интересами, обсуждают буквально все на свете, включая такие темы, как языки, находящиеся под угрозой исчезновения, или особенности региональной кухни. Художники экспериментируют с мультимедийными веб-сайтами в качестве новых форм искусства, любители генеалогии представляют данные о своей семейной истории. Интернет как единое целое во многих аспектах является отражением нашего общества, будучи огромным открытым пространством, в котором осуществляется широкий спектр деятельности в области культуры.

13. Для сохранения цифрового наследия потребуется так или иначе иметь дело с новыми формами культурного содержания в веб-сети, которые бросают вызов традиционным методам классификации материалов, заслуживающих сохранения. К сожалению, весьма рискованно полагаться на то, что время отсеет чисто эфемерное от того, что может иметь непреходящую ценность. Веб-сайты непрерывно меняются и обновляются, и вытесняемые материалы бесследно исчезают. По оценкам, средняя продолжительность существования веб-страницы колеблется от 44 дней до двух лет. Когда организации уходят из данного бизнеса или утрачивают к нему интерес, исчезают целые веб-сайты.

14. Это случается не только с сайтами неформального или временного характера, но также и с центральными и официальными сайтами. Некоторые учреждения, занимающиеся наследием, признают опасности, которыми чревата нестабильность Интернета, и делают выбор в пользу упреждающего подхода. Они стремятся к тому, чтобы во всем многообразии веб-материалов сохранить доступ к тем из них, которые потенциально могут иметь долговременную культурную ценность. Однако их работа осложняется тем фактом, что отсутствуют устоявшиеся официальные критерии для отбора веб-сайтов, подлежащих сохранению. Требуется разработать новую политику для обеспечения подлинного долгосрочного сохранения тех веб-материалов, которые могут иметь ценность для грядущих поколений.

Подходы к сохранению цифровых материалов

15. В последнее время предпринимается ряд инициатив, направленных на сохранение цифровых материалов. В научных и академических исследованиях компьютеризированные данные создаются и используются вот уже несколько десятилетий. Сообщества, которые занимаются наблюдениями за Землей и космосом, используя огромное количество данных, подлежащих изучению в течение длительного времени, весьма активно вели разработку типовой модели для архивации данных, адаптируемой к самым разнообразным условиям. Архивы данных, особенно в области социальных и гуманитарных наук, вот уже много лет занимаются сбором наборов данных, полученных в ходе осуществления научно-исследовательских проектов, с тем чтобы их можно было хранить и использовать повторно.

16. Национальные библиотеки обычно подходят к проблеме хранения цифровых материалов с точки зрения законодательства об обязательном экземпляре. Сдача на хранение таких оффлайновых цифровых продуктов, как CD-ROM, уже является в ряде стран законодательным требованием. Онлайновые электронные журналы рассматриваются как продолжение давней традиции издания печатных материалов, которые всегда собирались и хранились библиотеками. Для обеспечения постоянного доступа ко всей массе научных электронных журналов, включая использование прямых каналов связи, различных форм представления данных и мультимедийных средств, в настоящее время библиотеки пытаются договориться с издателями о сдаче обязательных экземпляров, хотя пока это часто делается на добровольной основе.

17. Несколько библиотек разработали стратегии для отбора и сохранения веб-сайтов, применяя к ним понятие «публикация». Пожалуй, наиболее известным примером этого является проект «Пандора» Национальной библиотеки Австралии. Понятие «публикация» трактуется в этом проекте довольно широко: все, что появляется в Интернете, рассматривается как публикация, при этом однозначно исключается лишь информация организационного характера. В основе такой политики лежит идея того, что производимое в стране является частью национального культурного достояния: сайты, отобранные для сохранения, должны быть посвящены Австралии или касаться темы, имеющей для нее очень большое значение, причем такой материал должен быть написан австралийцем. Критерием отбора является содержание, при этом «приоритет отдается авторитетным публикациям, которые могут представлять интерес для научных исследований в течение длительного времени».

18. Некоторые национальные архивные службы, например, Государственное управление по делам архивов и Национальный архив Австралии, расширили сферу применения своей политики в области электронного документоведения, включив в нее веб-сайты правительственных учреждений (общественные сайты, а также внутрисетевые сайты), и разработали руководящие принципы на примерах наиболее эффективных практических решений. Государственное управление по делам архивов предупреждает, что материалы на веб-сайтах не всегда признаются как документы. Для веб-сайтов также требуется строгое документоведение. В мире Интернета остается в силе круг ответственности и процедуры для идентификации документов и их ведения.

19. Другие учреждения сосредоточивают свое внимание на подборе материалов по конкретной дисциплине. В 1994 г. Международный институт социальной истории – научно-исследовательское учреждение, задача которого заключается в сборе и архивном хранении материалов по социальной истории, – решил собирать интернетовские документы по политике, социальным вопросам и экологическим проблемам. Исключительный характер их методики сбора материалов состоит в том, что она охватывает также «новостные группы», причем к настоящему времени собрано 900 000 сообщений от 974 «новостных групп» и все они доступны через Интернет.

20. Помимо таких избирательных подходов к сохранению веб-материалов можно привести также примеры всеобъемлющих подходов, в соответствии с которыми производится сбор огромного числа веб-страниц без какого-либо отбора содержания. Архив Интернета, который был создан в 1996 г. как частная, некоммерческая структура, осуществляет сбор имеющихся в свободном доступе веб-страниц по всему миру и в настоящее время хранит более 10 миллиардов веб-страниц или 100 терабайтов информации (в 5 раз больше объема всех материалов, имеющихся в Библиотеке конгресса). В октябре 2001 г. Архив Интернета запустил программу под названием «Wayback Machine», которая обеспечивает свободный доступ к архивам во всей сети.

21. В Швеции в рамках проекта «Kulturarw3 Heritage» начиная с 1996 г. собираются материалы, размещенные на шведских веб-сайтах. В соответствии с финским проектом «EVA» осуществляется сбор всех «свободно доступных, опубликованных, статических документов на языке HTML вместе с их сопутствующими материалами, такими, как изображения, видео- и аудио-клипы, приложения и т.д.» в домене.fi. Такая деятельность по сбору всех материалов, свободно публикуемых в финском Интернете, считается дополнением к представлению обязательных экземпляров платных материалов уполномоченными издателями.

22. В настоящий момент главная цель этих инициатив состоит в том, чтобы спасти материалы на веб-сайтах, которые в противном случае были бы просто навсегда утрачены. Однако обработка собранных на сайтах материалов еще не завершена, поскольку собирать онлайновую информацию чрезвычайно сложно. Соединение с внешними сайтами во многих случаях обрывается, и не всегда удается поддерживать интерактивную навигацию. Все больше и больше веб-страниц носит динамичный характер, создается «сходу» на основе баз данных, спрятанных за пределами программы пользовательского интерфейса. По некоторым оценкам, базы данных, находящиеся вне веб-сайтов, которые в своей совокупности называются «глубокой сетью», содержат объем информации, который во много раз превышает тот, который лежит на поверхности. Информацию, находящуюся в таких базах данных, нельзя собрать путем копирования веб-сайта, поскольку ее нет на готовых страницах, к которым есть свободный доступ. Кроме того, поскольку электронная архивная деятельность осуществляется всего лишь 5 лет, никто не знает, каким образом можно обеспечить сохранность таких материалов через 25...50 лет.

23. Несмотря на большую неопределенность, инициативы, предпринятые архивными учреждениями, представляют собой ценный опыт в изучении правовых, организационных, экономических и технических структур, необходимых для сохранения онлайновых и оффлайновых материалов. Опыт, приобретенный пионерами в этой области, будет чрезвычайно полезен всему сектору культуры, а также станет важным вкладом в развитие инфраструктуры и политики, направленной на сохранение цифровых материалов.

Что понимается под сохранением цифрового наследия

24. В мире печатной продукции ее сохранность можно обеспечить путем сохранения бумажного объекта или, если это нецелесообразно, путем создания долговечного заменителя, например, микропленки. В цифровом мире такую сохранность можно обеспечить, например, путем записи информации на CD-ROM или же путем перевода его содержания на другой тип носителя. Однако таким путем достигается лишь сохранение самих битов, из которых состоит файл. Хотя это, очевидно, и является необходимым условием сохранения информации, его все же недостаточно, чтобы обеспечить возможность прочтения и интерпретации материалов в долгосрочной перспективе.

25. Поскольку форматы файлов и программы также устаревают, сохранение цифровых материалов сопряжено с необходимостью не только следить за состоянием самих файлов, но и изыскивать пути обеспечения свободного доступа к ним. Это означает, что либо необходимо также сохранять и программы и каким-то образом поддерживать их работу на новых платформах, либо переводить файлы в другой формат, который можно было бы интерпретировать с помощью новых программ. Учитывая то, что цифровой мир все время движется вперед, этот процесс должен быть постоянным, если мы хотим, чтобы доступ к материалам обеспечивался в течение десятилетий (или даже вечно). Во многих случаях рано или поздно это приведет к потере информации, ее функционального характера и (или) ее представления на экране, особенно в случае сложных мультимедийных материалов, сочетающих целый ряд файловых форматов и приложений.

26. Это ставит под угрозу целостность цифровых материалов: как обеспечить, чтобы при перемещении из одной среды в другую цифровой объект оставался целым и невредимым? Другой, но связанной с этим проблемой является аутентичность, то есть достоверность материалов, особенно электронных документов. Поскольку документы используются для отчетности, а также подтверждения совершаемых операций, для дальнейших ссылок очень важно, чтобы оригинал существовал в том виде, в каком он был создан первоначально, и чтобы этот документ действительно был тем, чем он претендует быть. Целостность и достоверность обусловливаются не только защитой файлов от умышленных изменений, внесенных в них не имеющими на это право лицами, но и от защиты от непреднамеренных изменений, которые могут произойти в результате их неправильной расшифровки или воспроизведения компьютерными системами.

27. Сохранение цифровых материалов – это прежде всего определение содержания и свойств, которые должны быть воспроизведены в будущих системах. Например, данные в сложной таблице могут быть «заморожены», т.е. сохраняются лишь результаты расчетов, а не программное обеспечение, посредством которого они производятся, или же эти данные остаются «живыми», благодаря сохранению программного обеспечения, что дает будущим пользователям возможность осуществлять поиск, отбор и сортировку информации.

28. Если главной целью является обеспечение оптимальных функциональных возможностей и доступа, может даже потребоваться модернизация для удовлетворения будущих потребностей и создание систем, в которые можно было бы внедрить последние достижения развивающейся техники. В противном случае будущим пользователям придется мириться с уровнем доступа и функциональными возможностями, ограниченными тем, что было возможно в давно минувшее (к тому моменту) время.

29. С другой стороны, если необходимо воспроизвести материалы в историческом контексте, то может потребоваться максимальное сохранение оригинала, с тем чтобы будущие пользователи могли получить его в том виде, в каком мы имеем его сегодня. Эти проблемы возникают в случае сохранения электронных произведений искусства, поскольку для некоторых художников способ визуализации их произведения (например, на специальном экране или с использованием специального браузера), является неотъемлемой частью самого произведения. Чтобы удостовериться, как данное произведение выглядит в реальности и как оно должно быть показано, музеи часто собирают сегодня информацию о замыслах художников, с тем чтобы руководствоваться ими в своей работе по сохранению их произведений.

30. Поскольку цели сохранения меняются, то изменяются и требования, предъявляемые к воспроизведению материалов в будущем, а следовательно и техника, обеспечивающая их удовлетворение. Во всех случаях адекватное воспроизведение на более поздней стадии зависит от идентификации типа содержания и формата файлов, а также от программного обеспечения, которое открывает доступ к материалам. Подходящие меры по сохранению могут быть приняты лишь в том случае, если нам известно, с чем мы имеем дело. Документирование начинается на самом низком уровне, когда описываются характеристики потока битов, а также аппаратная (или программная) среда, способная отображать объект в его нынешней форме.

31. Для того чтобы понять и оценить, что именно воспроизводится, необходима дополнительная документация, поскольку информацию, воспроизводимую, как она есть – без контекста и справочных материалов – будет трудно «разместить». Чтобы прочитать карту с нанесенными на нее красными точками, совсем не все равно, использовалась ли она для геологоразведочных работ или же для ведения военных действий, – а это не всегда легко понять, глядя на саму карту, если она воспроизводится сама по себе. Вот почему необходимо конкретизировать, как и когда появился материал, кто владел им и как он соотносится с другой информацией.

32. Документирование материалов является предпосылкой для понимания того, как они должны сохраняться, что представляет собой значительное дополнительное бремя для учреждений, занимающихся проблемами наследия. Чтобы облегчить сохранение, необходимо сосредоточить усилия на разработке стандартов для документирования определенных классов материалов и на изыскании путей возможной частичной автоматизации процессов.

Технологические вопросы

33. Большинство цифровых материалов не может нормально существовать вне пределов цифровой среды. Распечатка информации на бумаге с целью ее сохранения срабатывает только для небольшой категории чисто текстовых файлов. Обычно, для того, чтобы использовать материал в какой-то последующий момент, в том виде, в каком он и должен быть использован, необходимо сохранить как содержание, так и функциональные свойства. Поэтому сохранение цифровых материалов представляет собой сложную технологическую задачу, которая связана одновременно с несколькими аспектами.

34. В основном существуют три причины, по которым цифровые материалы могут оказаться недоступными: (1) разрушение носителя, на котором они накоплены, (2) устаревание программного обеспечения, в результате чего становится невозможным прочитать цифровые файлы, и (3) внедрение новых компьютерных систем и периферийных устройств, которые не могут обрабатывать более старые материалы.

35. Все ленты и диски подвержены физическому износу, и ни один из этих носителей не имеет срока годности, который был бы сопоставим со стандартным сроком хранения микрофильма или долговечной бумаги. Они должны храниться в контролируемых условиях, однако даже тогда материалы необходимо регулярно копировать на новые информационные средства для предупреждения их потери в результате разрушения носителей. «Освежение» материалов, то есть перенос их на новые носители, часто становится необходимым из-за того, что конкретный тип диска или ленты далее не может использоваться в существующих компьютерных системах. Таким примером является исчезновение дискеты 5? и соответствующих дисководов. «Освежение» представляет собой повторяющееся действие в любой программе сохранения.

36. Устаревание программного и аппаратного обеспечения ведет к (частичной) потере информации или функциональности файлов в их оригинальном формате. Последующие версии программ могут быть совместимыми, однако производители программного обеспечения обычно не поддерживают совместимость в течение продолжительного срока. Программы исчезают с рынка либо не могут более использоваться на новой платформе. Комбинация зависимости от старых версий программ, которые применялись на старых платформах устаревших компьютерных систем, неизбежно ведет к цифровой гибели.

37. Можно на короткий срок сохранить первоначальную среду (аппаратное и программное обеспечение) в функционирующем состоянии. Однако бытует широко распространенное мнение, что на продолжительное время такую ситуацию сохранить не удается, поскольку она приведет к все большему накапливанию устаревших компьютеров и периферийных устройств, которые очень тяжело поддерживать продолжительное время.

38. Было предложено несколько разных подходов для борьбы с устареванием программного и аппаратного обеспечения. Один из методов заключается в преобразовании файлов для новых платформ или других программ. Такой способ представляется особенно привлекательным в том случае, если они могут быть преобразованы в стандартный, незапатентованный формат, поскольку это облегчает сохранение на продолжительное время. Однако преобразование может вести к неприемлемой потере функциональных свойств, особенно когда мы имеем дело со сложными базами данных или мультимедийными материалами. Даже в случае сравнительно простых материалов трудно предсказать, каким будет окончательный эффект последовательных преобразований.

39. Другие подходы заключаются в воссоздании замещаемых версий операционных систем и программ в новых условиях, с тем чтобы файлы могли храниться в оригинальном формате и читаться с помощью программного обеспечения, в котором они были первоначально созданы. Таким образом, конечно, можно соединить одно или два поколения платформ, однако со временем, с внедрением все новых систем, можно оказаться в сложной ситуации, которой будет трудно управлять. Еще один недостаток заключается в том, что функциональные возможности сохраняются на уровне устаревших систем, которые могут оказаться не особенно удовлетворительными для будущих пользователей.

40. Пока еще не ясно, какой способ окажется наиболее реальным и успешным, многие организации проводят исследования, создают испытательные стенды, разрабатывают эксперименты, чтобы накопить побольше опыта в области потенциальных решений. А пока учреждениям, занимающимся разработкой систем сохранения, следовало бы обратить основное внимание на лучшую оценку рисков и сложностей производителями цифровых материалов.

41. Производители могут оказать содействие усилиям по сохранению путем использования (официально либо de facto) таких стандартов, как XML, TIFF или PDF. Использование патентованных программ усложняет дело не только потому, что они защищены, но и потому, что они зачастую недостаточно документированы, в результате чего становится невозможным детально предсказать результат преобразования.

42. Создатели цифровых материалов и индустрия информационно-коммуникационных технологий должны быть вовлечены в процесс сохранения, поскольку их сотрудничество может уменьшить нагрузку на учреждения, занимающиеся наследием. Надо поощрять создателей к использованию открытых стандартов и предоставлению адекватной документации по файлам. Нужно убедить индустрию информационно-коммуникационных технологий в значимости открытых программ и необходимости публиковать полную и подробную документацию с целью обеспечения того, чтобы их продукты могли и далее использоваться в целях сохранения.

43. Технология сохранения цифровых материалов требует существенных инвестиций в научные исследования и разработки. Однако подобные инвестиции ничто по сравнению с ресурсами, вложенными в создание самих материалов, и ценой, которую придется заплатить обществу, если не будут разработаны соответствующие системы, и материалы будут вследствие этого утрачены.

Организационные вопросы и ответственность

44. Традиционно роли создателей и хранителей информации весьма различались. Изначально те, кто создавал материалы, не были заинтересованы в их сохранении, а те, кто хранил материалы, не имели контроля над их созданием. В цифровом мире от такого разделения задач следует отказаться. Требования по сохранению должны учитываться уже в самом начале, даже в момент создания материала, при этом первую линию обороны против потери ценной информации составляют создатели, поставщики и владельцы цифровой информации.

45. Создатели должны понимать, что выбор, который делается на этапе создания, влияет на возможности последующего архивирования. Использование стандартов и открытых форматов, соответствующего описания и документации, а также использование постоянных имен для онлайновых ресурсов облегчает долговременное сохранение и способствует снижению затрат. Создатели должны осознать, каким образом правильная практика создания цифровых материалов может содействовать их поддержанию во времени.

46. Многие производители информации работают с собственными материалами в течение значительного времени после того, как они были созданы, при этом им придется иметь дело с вопросами, касающимися сохранения. Органы, создающие архивы, зачастую вынуждены хранить документацию десятилетиями и должны обеспечивать доступ к ней и возможность пользоваться ее: в прошлом считалось, что национальные архивы должны принимать меры по сохранению документов, которые они получили, только после двадцати или тридцати лет.

47. Издатели заинтересованы в том, чтобы обеспечивать доступность цифровых материалов в течение определенного времени, зачастую накапливая их в таких стандартных форматах, как SGML или XML, поскольку представляется коммерчески привлекательным иметь возможность для их повторного использования в новых продуктах. Также, поскольку библиотеки физически не хранят электронные журналы, на которые они подписываются, то они зависят от издателей в плане непрерывного доступа к более старым материалам. В то же время издательская индустрия признает роль библиотек и полагается на них в вопросе долгосрочного сохранения. В проекте совместного заявления ИФЛА и МАИ делается четкое различие между краткосрочным архивированием издателями (до тех пор, пока публикации экономически целесообразны) и долгосрочным архивированием библиотеками.

48. Сотрудничество создателей и владельцев информации в области создания рабочих моделей для сохранения представляется чрезвычайно важным. Например, вопросы авторских прав должны решаться до того, как библиотеки могут предпринять какие-либо шаги по хранению материалов. Законодательство в области авторского права вводит такие строгие ограничения по копированию, что даже переброска файлов в библиотечную систему может представлять собой нарушение прав владельцев и создателей. Хотя издатели признают, что авторское право может оказаться препятствием для долгосрочного сохранения, они в то же время настороженно относятся к любым мерам, которые могут затронуть их коммерческие интересы, делая переданные на хранение материалы легко доступными в сетях.

49. Существует несколько примеров соглашений между библиотеками и издателями, направленных на установление баланса интересов обеих сторон, когда копирование разрешается только для целей хранения при ограничении доступа. Однако управление правами становится исключительно сложной областью, и не все аспекты могут охватываться соглашениями между издателями и библиотеками. Когда цифровой продукт опирается на патентованную программу, которой владеют третьи стороны, создатель контента обычно не обладает этими правами. Продавцы программного обеспечения до настоящего времени почти не участвовали в мероприятиях по сохранению, и программное обеспечение обычно не охватывается законодательством об обязательном экземпляре. Образцом поразительного набора прав могут являться веб-страницы, представляющие собой смесь материалов из различных источников. Поэтому потребуется найти форму соглашения о принципе права на копирование для сохранения, с тем чтобы можно было более легко управлять аспектами авторского права в области сохранения.

50. В идеале ответственность за сохранение должна быть разделена между создателями и хранителями, каждый из которых поддерживает материалы в течение определенного этапа их цикла существования. Поскольку создатели не всегда понимают все опасности, то учреждения в области наследия активно стремятся к сотрудничеству с ними и дают рекомендации по вопросам создания и сохранения. Депозитарное регулирование должно содействовать обеспечению того, чтобы материалы наверняка передавались в архивное учреждение. Такое регулирование необходимо разработать не только для документации и публикаций, но и, например, для исследовательских данных, делая сдачу на хранение условием для получения исследовательских грантов.

51. Строительство глубокой инфраструктуры, способной поддерживать распределенную систему цифровых архивов, будет зависеть от доверенных организаций, способных сохранять материалы в течение продолжительного времени. Сегодня эту роль играют национальные библиотеки и архивы, а также ряд специализированных исследовательских институтов и архивов данных. Существует, однако, ряд других учреждений, на которые может быть возложена задача сохранения отдельных типов материалов (цифровые фотографии, звукозаписи, произведения искусства, материалы вещания), либо сохранение материалов для конкретных групп общества (учреждения с местными или региональными задачами, исследовательские учреждения по конкретной дисциплине).

52. Цифровые архивы должны быть доверенными организациями. Те, кто передает материалы на хранение, должны быть уверены в том, что будет обеспечена их целостность и подлинность, что будут своевременно приниматься технические меры, и что будут соблюдаться права и ограничения доступа. На сегодняшний день задачи и ответственность подобных доверенных депозитариев не определены. Лидерство национальных учреждений в тестировании моделей может помочь другим учреждениям в области наследия понять требования, предъявляемые к операционной системе сохранения, и создать системы в своей собственной области.

53. Сохранение цифрового наследия является пока еще неизведанной территорией для большинства учреждений. Принимая на себя ответственность в этой области, им придется адаптировать организационные структуры и заново определить задачи персонала. Сотрудничество и обмен опытом представляются важным условием избежания крупных ошибок, а учебные программы для персонала должны быть приоритетом для всех учреждений, стоящих перед цифровой проблемой.

54. Сотрудничество, руководство, лидерство и распределение задач – таковы ключевые элементы программ для сохранения цифрового наследия. Учреждения культуры нуждаются в сотрудничестве создателей информации и производителей программного обеспечения. Создание системы распределенных архивов зависит от национального руководства, а также от международного сотрудничества. Однако эта область настолько нова, а опыт настолько ограничен, что потребуются огромные усилия для того, чтобы построить необходимую инфраструктуру. Требуются соответствующие средства и поддержка на политическом уровне для обеспечения того, чтобы будущие поколения продолжали иметь доступ к богатству цифровых ресурсов, в создание которых мы вложили так много за последние десятилетия.

Дата публикации.