Лекция: Составляющие внемашинного информационного обеспечения систем управления. Системы классификации и кодирования информации.
Информационное обеспечение – это совокупность методов и средств по размещению и организации информации, включающих в себя системы: классификации и кодирования; унифицированные системы документации, рационализации документооборота и форм документов; методов создания внутримашинной информационной базы ИС.
Таким образом, сферы информационного обеспечения:
1. Внемашинная сфера (внемашинная информационная база и средства организации и ведения внемашинной информационной базы)
2. Внутримашинная сфера (внутримашинная информационная база и средства организации и ведения внутримашинной информационной базы)
Внемашинная информационная база служит источником формирования внутримашинной информационной базы. Наиболее важными вопросами подготовки внемашинного информационного обеспечения предметной области являются:
ü определение состава документов, содержащих необходимую информацию для решения задач пользователя;
ü определение форм документов и структуры информации (выявление структурных единиц информации и их взаимосвязей);
ü классификация и кодирование информации, обрабатываемой в задачах пользователя;
ü разработка инструктивных и методических материалов по ведению документов информации для обработки.
К средствам организации и ведения внемашинной информационной базы относятся:
1. Системы классификации и кодирования информации
2. Унифицированные системы документов
3. Инструктивные и методические материалы по ведению документов
Системы классификации и кодирования информации. Методы кодирования.
Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков.
Система кодирования — совокупность правил кодового обозначения объектов.
Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:
ü длиной — число позиций в коде (может быть постоянная и переменная);
ü структурой — порядок расположения в коде символов, используемых для обозначения классификационного признака.
Можно выделить две группы методов, используемых в системе кодирования объектов которые образуют:
ü классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;
ü регистрационную систему кодирования, не требующую предварительной классификации объектов
Различают последовательное и параллельное классификационное кодирование.
Последовательное кодирование используется для иерархической классификационной структуры. Параллельное кодирование используется для фасетной системы классификации.
Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему.
Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.
Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.
Рассмотрим основные идеи методов классификации для создания систем классификации и кодирования.
Иерархическая система классификации — самая традиционная. Она имеет структуру «древа знаний», в котором определенная совокупность знаний (универсум) последовательно делится на все более узкие подклассы. Существует много универсальных иерархических классификаций, охватывающих сразу все отрасли человеческих знаний.
Например, в библиографической практике наиболее широко используются Библиотечно-библиографическая классификация (ББК), Универсальная десятичная классификация (УДК), Классификация для массовых библиотек и некоторые другие.
Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.
К достоинствам иерархической системы классификации можно отнести
простоту построения; использование независимых классификационных признаков в различных ветвях иерархической структуры.
А к недостаткам — жесткую структуру, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки; невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.
Суть метода последовательного кодирования заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры.
Фасетная система классификации (ее еще называют параллельной классификацией) в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet — рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.
Первая фасетная классификация (Классификация двоеточием) была разработана известным индийским библиографом и библиотекарем Ш.Р. Ранганатаном в 1933 г.
Механизм построения фасетной классификации и ее использование при индексировании документов можно показать на примере классификации кинофильмов. В качестве основных фасетов для кинофильмов выделим, например, жанр, метраж, цвет и формат. В каждом фасете перечислим свойственные ему конкретные характеристики. В результате получим классификацию, представленную в таблице.
Используя методику параллельного кодирования с помощью фасетной формулы или кода можно выразить содержание документа, относящееся к кинофильму любого класса.
Например:
Ж1: М1: Ц2: Ф2 — художественный полнометражный цветной широкоэкранный.
Жанр | Метраж | Цвет | Формат |
Ж1 художественные | М1 полнометражные | Ц1 черно-белые | Ф1 обычные |
Ж2 документальные | М2 короткометражные | Ц2 цветные | Ф2 широкоэкранные |
Ж3 хроникальные | Ц3 комбинированные |
Ж2: М2: Ц1: Ф1 — документальный короткометражный черно-белый обычный. И т. д.
Рассмотрим приложение фасетной классификации к ресурсам Интернета каталога Яндекс.
Значения фасетов для ресурсов интернета проставляются вручную редакторами при описании ресурсов в каталоге Яндекс.
Каталог — (англ. web-directory) Систематизированная и рубрицированная подборка ссылок на интернет-ресурсы с описаниями. Каталоги делятся на специализированные (отраслевые) и общие, а также на региональные, национальные и глобальные. В отличие от поисковой машины, где индекс создается автоматически, составление каталога — ручная работа по классификации и аннотированию ресурсов.
Поэтому обычно в базе каталога меньше сайтов, чем в базе поисковой машины, то есть он уступает ей по покрытию. Каталогами удобно пользоваться, если вы ищете не ответ на конкретный вопрос, а сайты на какую-то тему.
Основные фасеты, используемые в каталоге, это: Тема, Регион, Жанр, Источник информации, Адресат информации, Сектор экономики.
Тема имеет порядка 600 значений и описывает предметную область интернет-ресурса. Значение признака определяется содержанием текстов, сферой деятельности представляемой организации или областью применения предлагаемого продукта.
Регион определяет принадлежность ресурса к одному из 230 географических областей. Принадлежность ресурса к региону может определяться несколькими показателями: географическим расположением представляемого объекта (например, местоположение торговой фирмы), сферой управления и влияния (регион действия политической партии), потенциальной аудиторией информации (целевая аудитория новостного издания) или информационным содержанием ресурса (справочник фирм города или история страны).
Источник информации имеет пять значений: Официальный, СМИ, Неформальный, Персональный Анонимный. С каждым из этих пяти типов источника информации связаны свои особенности подачи предоставляемых сведений – оперативность, достоверность, полнота, уникальность, объективность и т.п.
Адресат информации имеет четыре значения: Партнеры, Инвесторы, Потребители, Коллеги. Признак определяет аудиторию, для которой материалы могут представлять интерес – обычные покупатели, оптовики или фирмы-потребители, инвесторы или специалисты.
Сектор экономики имеет три значения: Государственный, Коммерческий, Некоммерческий. Признак присваивается сайтам организаций или частных предпринимателей и указывает на их экономико-правовой статус.
Значение фасета Жанр в каталоге «Яндекс» определяет принадлежность ресурса к одному из шести классов:
художественная литература (ХудЛит);
научно-техническая литература (НаучТех);
научно-популярная литература (НаучПоп);
нормативные документы (НормДок);
советы;
публицистика (Публиц).
Дескриптор — ключевое слово, определяющее некоторое понятие, которое формирует описание объекта и дает принадлежность этого объекта к классу, группе и т.д.
Введем понятие текстовой БД. Объектами хранения в текстовых БД являются тексты. Под текстом будут пониматься неструктурированные данные, построенные из строк.
Основной целью любой текстовой БД является хранение, поиск и выдача документов, соответствующих запросу пользователя. Такие документы принято называть релевантными.
Ввиду того, что автоматизированный поиск документов на естественных языках достаточно затруднен, возникает вопрос о проектировании некоторых формальных языков, предназначенных для отображения основного смыслового содержания документов и запросов в БД. Такие языки называют информационно-поисковыми. В настоящее время разработано достаточно большое количество информационно-поисковых языков, которые отличаются не только по своим изобразительным свойствам, но и по степени семантической силы.
Информационно – поисковые языки, получившие название дескрипторных, основаны на применении принципов координатного индексирования, при котором смысловое содержание документа может быть с определенной степенью точности и полноты задано списком ключевых слов, содержащихся в тексте.
Дескрипторные языки привязаны к лексике текстов. Ключевые слова из текстов выбираются исходя из разных целей, соответственно, критерии выбора могут различаться. Для построения дескрипторного языка критерием отбора ключевых слов, как правило, служат информативность слова и частота его встречаемости в тексте. Универсальными структурами дескрипторного языка являются лексические единицы, парадигматические и синтагматические отношения.
Парадигматические отношения могут задаваться как:
Отношения вид–род (вышестоящий дескриптор);
Отношения род–вид (нижестоящие дескрипторы);
Синонимы;
Ассоциативные связи.
В большинстве автоматизированных информационных систем при индексировании документов и запросов применяется контроль с помощью тезауруса.
В тезаурусы помещаются дескрипторы и недескрипторы, хотя существуют тезаурусы только из дескрипторов. Как дескрипторы, так и недескрипторы приводят к единой грамматической форме (нормализуют). Как правило, дескрипторы употребляются в форме существительных или именных словосочетаний. Тезаурус может быть построен по принципу дескрипторных статей, состоявших из заглавного дескриптора и списка дескрипторов и недескрипторов с обозначением парадигматических отношений.
Парадигматические отношения представляют собой внетекстовые отношения между лексическими единицами. На их основании происходит группировка лексических единиц в парадигмы.
Синтагматические отношения представляют собой отношения лексических единиц в тексте, т.е. они выражают семантику контекста.
При переводе основного смыслового содержания документов и запросов с естественного языка на дескрипторный информационно – поисковый язык существуют определенные правила, называемые системой индексирования. Результатом перевода документа является поисковый образ документа, а запроса–поисковый образ запроса.