Реферат: В. Н. Карнаухов ~ Н. А. Кузнецов ~ Н. С. Мерзляков ~ Л. И. Рубанов


EVA’99-Москва

В.Н.Карнаухов ~ Н.А.Кузнецов ~ Н.С.Мерзляков ~ Л.И.Рубанов


Тексто-графический цифровой архив
Российской Академии наук


В.Н.Карнаухов

Тел. (095) 209-2883, E-mail: vic@iitp.ru

Н.А.Кузнецов

Тел. (095) 209-4225, E-mail: director@iitp.ru

Н.С.Мерзляков

Тел. (095) 209-2883, E-mail: nick@iitp.ru

Л.И.Рубанов

Тел. (095) 209-4781, E-mail: rubanov@iitp.ru

Институт проблем передачи информации РАН, Москва

Адрес: 101447 Москва, ГСП-4, Большой Каретный пер.,19.

Телефон/факс: (095) 209-0579


В 1999 г. российская и мировая общественность отмечает 275-летие Российской академии наук (РАН), основанной по указанию Петра I в феврале 1724 г. РАН располагает разнообразными богатейшими архивами, являющимися неотъемлемой частью мирового культурного наследия и представляющими широкий интерес. Они хранятся в центральном Архиве РАН, в различных академических музеях, научных институтах, других организациях Академии, а также частных собраниях и включают в себя художественные портреты и фотографии деятелей науки, их рукописи и прочие материалы, относящиеся к деятельности Российской академии и истории мировой и российской науки.

Уникальность разнообразных печатных, рукописных и графических документов, а также забота об их сохранности не позволяют обеспечить к ним широкий доступ. Более того, многие материалы уже сейчас требуют срочной реставрации и консервации, иначе они будут безвозвратно утрачены. Это в первую очередь относится к фотодокументам – стеклянным и пленочным негативам, кинолентам, фотографиям, срок жизни которых даже в идеальных условиях хранения измеряется десятилетиями из-за необратимых физико-химических изменений в структуре применяемых фотографических материалов. Положение усугубляется тем, что большинство материалов в настоящее время известны и доступны только узкому кругу архивных работников и специалистов, публикуются выборочно и в крайне малом объеме. Поиск необходимых документов также затруднен отсутствием централизованных каталогов и указателей; особенно это касается архивов фотодокументов и подобных графических материалов, индексация которых сама по себе представляет достаточно сложную задачу. Практикуемые в архивах способы обычно основываются на составлении текстовых описаний (аннотаций), ведении журналов учета, картотек и тому подобных бумажных носителей, которые не являются неотъемлемой частью фотодокументов, а хранятся отдельно и лишь сопоставлены им с помощью системы шифров или нумерации, что потенциально угрожает целостности информации.

Таким образом, на передний план выдвигаются следующие задачи, характерные, по-видимому, не только для архивов РАН, но и для других крупных архивов изображений:
а) реставрация и надежное сохранение фотодокументов и изобразительных материалов;
б) разработка и создание методов и средств индексации и поиска архивной информации;
в) реализация многоуровневой системы широкого доступа к содержимому архивов.

Современные информационные технологии позволяют с высоким качеством решить большинство из перечисленных задач при умеренных затратах, и тем самым изменить к лучшему ситуацию, сложившуюся в рассматриваемой сфере. Очевидное решение состоит в постепенном переходе к цифровым архивам, в которых архивные документы представлены в цифровой форме, в которой могут сохраняться бессрочно. Работа по наполнению цифрового архива складывается из следующих общих этапов. Вначале производится массовый высококачественный цифровой ввод графической и текстовой архивной информации с запоминанием ее на оперативных носителях. Затем по мере необходимости и строго в индивидуальном порядке выполняется цифровая реставрация введенной информации, и окончательное размещение ее в архивной базе данных в соответствии с выбранной формой представления. В зависимости от размеров архива он может базироваться на большой ЭВМ или локальной сети малых машин. Дальнейшее использование этого первичного цифрового архива развивается по следующим направлениям.

Во-первых, создается необходимое количество копий (реплик) для повышения надежности хранения и размещения в регионах. В зависимости от характера фонда и с учетом требований сохранности интеллектуальной собственности, к первичным архивам предоставляется ограниченный доступ или же они могут полностью открываться для контролируемого доступа через оборудованные локальные рабочие места.

Во-вторых, на основании первичного цифрового архива формируется система вторичных архивов, предназначенных для широкого круга пользователей. Информация представляется в них не в самом полном объеме или с пониженным качеством (в частности, изображения имеют меньшее разрешение), что препятствует несанкциониро­ванному коммерческому использованию и в тоже время снижает затраты на хранение. Такие архивы могут полностью размещаться на одном или нескольких CD-ROM или DVD-ROM, выпускаться массовыми тиражами и распространяться по невысокой цене или условно-бесплатно (например, передаваться в публичные библиотеки). Другой очевидной формой размещения вторичного архива может выступать сетевой узел (сайт) Интернет, что открывает глобальный доступ к содержимому архива.

По существу, подобный вторичный архив в Интернет или на компакт-диске играет роль иллюстрированного каталога содержимого первичного архива, который позволяет провести детальный поиск необходимой информации, а также знакомство с ней (с образовательными и культурными целями). Он также позволяет провести необходимый предварительный отбор информации и сформировать конкретный запрос в первичный цифровой архив на получение исходных данных, которые предполагается использовать в научно-исследовательских или коммерческих целях. Важно отметить, что создание вторичных цифровых архивов является не предметом специальной разработки, а результатом выполнения раз спроектированной автоматической или автоматизирован­ной процедуры. Это позволяет оперативно или на периодической основе выпускать новые редакции таких архивов по мере наполнения первичного архива (которое может длиться годами) и в дальнейшем при новых поступлениях.

Таким образом, в обозримом будущем основная задача по сохранению архивов и включению их в орбиту мирового культурного наследия видится в переводе на цифровые носители, а основным каналом ознакомления и научной работы с этими материалами будет представление архивной информации в специализированных первичных базах данных с контролируемым доступом и автоматически формируемых сжатых вторичных архивах, размещаемых в Интернет и тиражируемых на компакт-дисках для автономной работы с ними при отсутствии соединения с глобальной сетью. Такой триединый (база–сайт–диск) подход позволяет в конечном итоге ускорить разработки, повысить их качество и избежать ненужного дублирования в работе.

Такова общая методика, которая была разработана и успешно применена в Институте проблем передачи информации РАН (ИППИ РАН) в ходе построения тексто-графического цифрового архива Российской академии наук – одной из первых работ данного направления. В ИППИ РАН накоплен более чем 25-летний опыт в области обработки изображений и цифровой оптики, реализованы многочисленные масштабные проекты космической, медицинской и культурной тематики. В течение ряда последних лет ведется работа по сохранению отечественного и мирового культурного наследия, сосредоточенного в больших собраниях изображений, в числе которых Рукописная картотека древнерусского словаря, Фотоархив ЛАФОКИ РАН, Международная база данных водяных знаков в западноевропейских древних рукописях и актах, и др. [1-5]. Поэтому не случайно, что работа над тексто-графическим цифровым архивом РАН в конце 1998 г. была поручена именно данному коллективу.

С самого начала работы стало ясно, что на полный перевод имеющихся архивов Академии наук в цифровую форму с минимальной реставрацией требуются годы, поэтому с учетом мнения архивных работников был выделен круг документов и материалов, подлежащих обработке в первую очередь – это документы портретного фонда, где хранятся негативы, фотографии, графические и живописные портреты деятелей российской и мировой науки. С одной стороны, к этому портретному фонду имеется неослабевающий интерес, еще более возросший в связи с приближением 275-летнего юбилея Российской академии наук. С другой стороны, сохранность фотоматериалов, многие из которых относятся к началу века и даже ранее, внушает наибольшие опасения.

В качестве информационного каркаса создаваемого первичного цифрового архива была принята реляционная база данных. Такое решение обеспечивает необходимые возможности наращивания структуры по мере постепенного охвата архивных фондов, обеспечивает функционально полные средства поиска информации и облегчает перенос первичного архива на новые программно-аппаратные платформы по мере прогресса вычислительной техники. Хотя связанная с фотодокументами текстовая информация (описания, аннотации, биографии) слабо структурирована и типична скорее для полнотекстовых баз данных, были предприняты усилия по укладыванию ключевых фрагментов этих текстов в табличную структуру записей базы данных, чтобы можно было применять дескрипторный поиск, а не только полнотекстовый. Отдельную задачу составляло сведение в единую базу данных чрезвычайно разнородной информации, охватывающей почти трехвековой исторический период, за который радикально менялись не только наименование, структура и задачи Академии, но и само общественно-политическое устройство государства. Приведем только один пример: точная датировка биографических событий известна далеко не всегда, так что пришлось разработать специальные способы совместного представления в базе данных и использования (скажем, при сортировке в хронологическом порядке) одновременно точных дат и датировок типа "не позднее середины 1768 г.".

Что касается изображенческой информации, для ее хранения в первичном цифровом архиве использованы стандартные графические форматы файлов, обеспечивающие умеренное сжатие без потери первичной информации (в частности формат TIFF). Файлы изображений, оцифрованных с высоким разрешением, увязаны в общую структуру реляционной базы данных с помощью специально разработанных интерфейсных модулей, которые обеспечивают вывод изображений на экран и печать в рамках обычных функций манипулирования данными. На сегодняшний день первичный архив ведется в ИППИ РАН и поддерживается на развернутой в институте локальной сети IBM-совместимых компьютеров, работающих в среде Windows. В качестве СУБД пока используется Access 97, в перспективе рассматривается возможность конвертирования построенной базы данных в более производительную и надежную среду. Необходимое для работы с первичным цифровым архивом прикладное программное обеспечение разработано с использованием встроенных программных средств, в том числе языка VBA.

Помимо своего основного назначения – выступать в роли первичного тексто-графического архива – разработанная база данных несет ряд служебных функций, главная из которых состоит в управлении вводом и обработкой исходной информации. Эта деятельность ведется параллельно на нескольких рабочих местах и в многосменном режиме значительным коллективом сотрудников, что предъявляет высокие требования к учету и контролю целостности вводимой информации. Благодаря упомянутым служебным функциям базы данных, фиксирующей в режиме реального времени все этапы ввода и обработки изображений и текстовой информации, этот ответственный процесс удалось держать под эффективным контролем.

В настоящее время в описываемую уникальную базу данных уже внесены краткие биографические данные всех членов Академии с 1724 г. (около 5 тыс. человек), их портреты (иногда – несколько штук), сведения о современном персональном составе и организационной структуре РАН, о научных организациях Академии и издаваемых ими научных журналах, обо всех присуждаемых Академией наградах и ученых, их удостоенных, очерк истории Академии и вклада российских ученых в мировую науку, картографический материал и многие другие сведения. В ходе выполнения работы были проведены компьютерный ввод и цифровая реставрация свыше 6,5 тысяч черно-белых и цветных негативов, фотоснимков, гравюр, живописных портретов и других графических материалов. Благодаря хорошему техническому оснащению, разработанным в рамках предшествующих проектов алгоритмам и программному обеспечению обработки изображений, а также наличию квалифицированных кадров эту работу удалось выполнить в сжатые сроки – менее чем за полгода. В дальнейшем, при наличии необходимого финансирования пополнение первичного цифрового архива может быть продолжено, с тем чтобы охватить другие архивные фонды РАН, но уже сейчас он не имеет прецедентов в отрасли, вызывает широкий интерес и положительно оценивается специалистами.

Описанная база данных внесена в Государственный реестр баз данных, частичный доступ к ней уже сейчас предоставлен через специально запущенный сетевой узел Интернет в ИППИ РАН. Тем не менее, несмотря на большую заинтересованность в получении этой впервые собранной воедино уникальной информации, неограниченный доступ к базе данных предоставлять не планируется, поскольку хранимые в первичном архиве высококачественные цифровые изображения уникальны и имеют большую коммерческую ценность, а часть текстовой информации носит приватный характер. Указанное противоречие как раз и разрешается путем создания широкодоступных вторичных архивов, о чем выше уже шла речь. Применительно к описываемому проекту, вторичный архив был реализован в обеих упоминавшихся формах – сетевого узла Интернет и CD-ROM.

Выпущенный ограниченным тиражом в ИППИ РАН в рамках проекта CD-ROM "Российская Академия Наук. 1724-1999 г.г." демонстрируется на выставке, проходящей одновременно с конференцией. Данный компакт-диск фактически содержит два продукта, построенных на единой вторичной информационной базе: Web-CD для просмотра с помощью Интернет-браузера (на любой платформе, позволяющей читать диски в формате ISO 9660), и специализированная оболочка для работы с базой данных в среде Windows.

Достоинством первого варианта является программно-аппаратная независимость и низкая ресурсоемкость, позволяющая эффективно использовать диск на недорогих персональных компьютерах. Такая ориентация и работа в автономном режиме (без сервера) не позволила в полной мере применить современные стандарты представления страниц в Интернет, включая активные страницы и средства языка JAVA. Это, разумеется, ограничило возможности активного поиска информации, но в целом удалось организовать достаточно эффективный и удобный интерфейс. Данный Web-CD содержит свыше 30 тыс. Web-страниц, причем подавляющее большинство их было сформировано автоматически на основании первичного архива, для чего в рамках СУБД Access на языке VBA были разработаны особые программы, генерирующие HTML-файлы. В необходимых случаях эти программы с учетом правил языка формируют связный текст из информации, разнесенной по полям базы данных. Отметим здесь, что вся текстовая информация в базе данных, на диске и сетевом узле Интернет, включая и язык интерфейсов пользователя, представлены на двух языках – русском и английском, причем для русского языка поддерживаются все основные кодировки.

Второй продукт на компакт-диске представляет собой специально разработанное прикладное программное обеспечение, призванное дать пользователю простой и удобный в работе инструмент непосредственного доступа к содержимому вторичной информационной базы – портретам и сопровождающим их текстовым данным. Это программное обеспечение реализовано для платформы РС и может работать только под управлением операционных систем Windows 95/98/NT-4.0 или выше, но зато в нем более широко использованы средства мультимедиа и имеются более развитые возможности интерактивного поиска и фильтрации данных. Таким образом, графический интерфейс пользователя программы построен в традиционном стиле Windows.

С помощью главного меню можно, в частности, запустить показ портретов и кратких биографических данных выбранных членов РАН в режиме слайд-шоу с регулируемой периодичностью смены кадров и музыкальным сопровождением в виде отрывков классической, джазовой и популярной музыки по выбору пользователя. Что касается способов представления архивной информации, то в целом они типичны для прикладного программирования баз данных.

Каждая строка выводимой формы содержит фамилию, полное имя и уменьшенный портрет члена Академии, к которому относится текущая запись выбранной таблицы базы данных. Если нажать кнопку "Biography" (Биография), то выводится новая графическая форма с краткими биографическими сведениями и увеличенным изображением.

Оба описанных варианта пользовательского интерфейса работают с одной и той же вторичной архивной базой данных, в которой архив собственно портретов занимает основной объем CD-ROM, несмотря на то, что отреставрированные цифровые изображения подверглись значительному понижению разрешения и хранятся во вторичном архиве в формате JPEG с высокой степенью сжатия информации. В итоге получаемые из архивной базы портреты при просмотре имеют довольно высокое визуальное качество, хотя и недостаточное для полиграфических целей (для этого необходимы изображения, которые хранятся в первичном цифровом архиве).

Другая реализация вторичного тексто-графического архива построена в виде сетевого узла Интернет (http://hp.iitp.ru). За некоторыми несущественными отличиями, этот сайт повторяет описанный выше Web-CD.

Несмотря на то, что работа по созданию тексто-графического архива РАН еще продолжается, построенные к настоящему времени разделы цифрового архива уже активно используются и встречают положительную оценку пользователей, что подтверждает правильность и продуктивность выбранной методики и позволяет рекомендовать ее для применения в других отраслях архивного дела.

Литература

Бокштейн И.М., Кузнецов Н.А., Мерзляков Н.С., Рубанов Л.И. «Возможности и средства цифровой реставрации архивных рукописных текстов. "Информационные технологии и вычислительные системы», М.: ИВВС РАН, № 1, 1997, с. 1-15.

Бокштейн И.М., Карнаухов В.Н., Кузнецов Н.А., Мерзляков Н.С., Рубанов Л.И. Разработка баз данных архивных изображений на основе современных технологий их обработки и хранения. // Компьютерная оптика, 1998, Вып.15, 116-124.

Bockstein I.M., Karnaukhov V.N., Kuznetsov N.A., Merzlyakov N.S., Rubanov L.I. Digital restoration, enhancement, and archiving of photo-documents. In: Digital Image Processing and Computer Graphics (DIP-97). Wenger E., Dimitrov L.I. (editors), Proceedings of SPIE, 1998, Vol. 3346, 350-356.

Bockstein I.M., Karnaukhov V.N., Kuznetsov N.A., Merzlyakov N.S., Rubanov L.I. Automation of archival image database population. Pattern Recognition and Image Analysis, 1998, Vol. 8, No.4, 582-600.

Karnaukhov V., Wenger E., Merzlyakov N., Haidinger A., Lackner F. Thematic processing and retrieving of watermarks. Image Processing and Computer Optics, SPIE, 1996, Vol. 2363,
32-39.


Карнаухов Виктор Николаевич к.т.н., ст.н.с., старший научный сотрудник сектора цифровой оптики, ИППИ РАН. Обработка изображений, цифровая оптика, цифровая голография.

^ Кузнецов Николай Александрович академик, директор ИППИ РАН. Управление информационными процессами, теоретические основы информационной технологии и ее приложения.

^ Мерзляков Николай Степанович к.т.н., ст.н.с., заведующий сектором цифровой оптики, ИППИ РАН. Цифровая обработка сигналов, цифровая голография.

Рубанов Лев Израилевич к.т.н., ст.н.с., старший научный сотрудник лаборатории обработки изображений ИППИ РАН. Теория человеко-машинного взаимодействия, ориентированная лингвистика, анализ и интерпретация текстов и изображений, базы данных.


Институт проблем передачи информации Российской Академии наук (ИППИ РАН). Основные направления фундаментальных и прикладных научных исследований, проводимых в ИППИ РАН – теория информации и прикладная математика, теория коммуникаций, техническая кибернетика, биологическая кибернетика, языкознание.

http://hp.iitp.ru



5 ~ 2 ~
еще рефераты
Еще работы по разное