Лекция: Составляющие внемашинного информационного обеспечения систем управления. Системы классификации и кодирования информации.

Информационное обеспечение – это совокупность методов и средств по размещению и организации информации, включающих в себя системы: классификации и кодирования; унифицированные системы документации, рационализации документооборота и форм документов; методов создания внутримашинной информационной базы ИС.

Таким образом, сферы информационного обеспечения:

1. Внемашинная сфера (внемашинная информационная база и средства организации и ведения внемашинной информационной базы)

2. Внутримашинная сфера (внутримашинная информационная база и средства организации и ведения внутримашинной информационной базы)

Внемашинная информационная база служит источником формирования внутримашинной информационной базы. Наиболее важными вопросами подготовки внемашинного информационного обеспечения предметной области являются:

ü определение состава документов, содержащих необходимую информацию для решения задач пользователя;

ü определение форм документов и структуры информации (выявление структурных единиц информации и их взаимосвязей);

ü классификация и кодирование информации, обрабатываемой в задачах пользователя;

ü разработка инструктивных и методических материалов по ведению документов информации для обработки.

К средствам организации и ведения внемашинной информационной базы относятся:

1. Системы классификации и кодирования информации

2. Унифицированные системы документов

3. Инструктивные и методические материалы по ведению документов

Системы классификации и кодирования информации. Методы кодирования.

 

Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков.

Система кодирования — совокупность правил кодового обозначения объектов.

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:

ü длиной — число позиций в коде (может быть постоянная и переменная);

ü структурой — порядок расположения в коде символов, используемых для обозначения классификационного признака.

Можно выделить две группы методов, используемых в системе кодирования объектов которые образуют:

ü классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;

ü регистрационную систему кодирования, не требующую предварительной классификации объектов

Различают последовательное и параллельное классификационное кодирование.

Последовательное кодирование используется для иерархической классификационной структуры. Параллельное кодирование используется для фасетной системы классификации.

Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему.

Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.

Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.

Рассмотрим основные идеи методов классификации для создания систем классификации и кодирования.

Иерархическая система классификации — самая традиционная. Она имеет структуру «древа знаний», в котором определенная совокупность знаний (универсум) последовательно делится на все более узкие подклассы. Существует много универсальных иерархических классификаций, охватывающих сразу все отрасли человеческих знаний.

Например, в библиографической практике наиболее широко используются Библиотечно-библиографическая классификация (ББК), Универсальная десятичная классификация (УДК), Классификация для массовых библиотек и некоторые другие.

Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.

К достоинствам иерархической системы классификации можно отнести

простоту построения; использование независимых классификационных признаков в различных ветвях иерархической структуры.

А к недостаткам — жесткую структуру, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки; невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.

Суть метода последовательного кодирования заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры.

Фасетная система классификации (ее еще называют параллельной классификацией) в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet — рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Первая фасетная классификация (Классификация двоеточием) была разработана известным индийским библиографом и библиотекарем Ш.Р. Ранганатаном в 1933 г.

Механизм построения фасетной классификации и ее использование при индексировании документов можно показать на примере классификации кинофильмов. В качестве основных фасетов для кинофильмов выделим, например, жанр, метраж, цвет и формат. В каждом фасете перечислим свойственные ему конкретные характеристики. В результате получим классификацию, представленную в таблице.

Используя методику параллельного кодирования с помощью фасетной формулы или кода можно выразить содержание документа, относящееся к кинофильму любого класса.

Например:

Ж1: М1: Ц2: Ф2 — художественный полнометражный цветной широкоэкранный.

Жанр Метраж Цвет Формат
Ж1 художественные М1 полнометражные Ц1 черно-белые Ф1 обычные
Ж2 документальные М2 короткометражные Ц2 цветные Ф2 широкоэкранные
Ж3 хроникальные   Ц3 комбинированные  

Ж2: М2: Ц1: Ф1 — документальный короткометражный черно-белый обычный. И т. д.

Рассмотрим приложение фасетной классификации к ресурсам Интернета каталога Яндекс.

Значения фасетов для ресурсов интернета проставляются вручную редакторами при описании ресурсов в каталоге Яндекс.

Каталог — (англ. web-directory) Систематизированная и рубрицированная подборка ссылок на интернет-ресурсы с описаниями. Каталоги делятся на специализированные (отраслевые) и общие, а также на региональные, национальные и глобальные. В отличие от поисковой машины, где индекс создается автоматически, составление каталога — ручная работа по классификации и аннотированию ресурсов.

Поэтому обычно в базе каталога меньше сайтов, чем в базе поисковой машины, то есть он уступает ей по покрытию. Каталогами удобно пользоваться, если вы ищете не ответ на конкретный вопрос, а сайты на какую-то тему.

Основные фасеты, используемые в каталоге, это: Тема, Регион, Жанр, Источник информации, Адресат информации, Сектор экономики.

Тема имеет порядка 600 значений и описывает предметную область интернет-ресурса. Значение признака определяется содержанием текстов, сферой деятельности представляемой организации или областью применения предлагаемого продукта.

Регион определяет принадлежность ресурса к одному из 230 географических областей. Принадлежность ресурса к региону может определяться несколькими показателями: географическим расположением представляемого объекта (например, местоположение торговой фирмы), сферой управления и влияния (регион действия политической партии), потенциальной аудиторией информации (целевая аудитория новостного издания) или информационным содержанием ресурса (справочник фирм города или история страны).

Источник информации имеет пять значений: Официальный, СМИ, Неформальный, Персональный Анонимный. С каждым из этих пяти типов источника информации связаны свои особенности подачи предоставляемых сведений – оперативность, достоверность, полнота, уникальность, объективность и т.п.

Адресат информации имеет четыре значения: Партнеры, Инвесторы, Потребители, Коллеги. Признак определяет аудиторию, для которой материалы могут представлять интерес – обычные покупатели, оптовики или фирмы-потребители, инвесторы или специалисты.

Сектор экономики имеет три значения: Государственный, Коммерческий, Некоммерческий. Признак присваивается сайтам организаций или частных предпринимателей и указывает на их экономико-правовой статус.

Значение фасета Жанр в каталоге «Яндекс» определяет принадлежность ресурса к одному из шести классов:

художественная литература (ХудЛит);

научно-техническая литература (НаучТех);

научно-популярная литература (НаучПоп);

нормативные документы (НормДок);

советы;

публицистика (Публиц).

Дескриптор — ключевое слово, определяющее некоторое понятие, которое формирует описание объекта и дает принадлежность этого объекта к классу, группе и т.д.

Введем понятие текстовой БД. Объектами хранения в текстовых БД являются тексты. Под текстом будут пониматься неструктурированные данные, построенные из строк.

Основной целью любой текстовой БД является хранение, поиск и выдача документов, соответствующих запросу пользователя. Такие документы принято называть релевантными.

Ввиду того, что автоматизированный поиск документов на естественных языках достаточно затруднен, возникает вопрос о проектировании некоторых формальных языков, предназначенных для отображения основного смыслового содержания документов и запросов в БД. Такие языки называют информационно-поисковыми. В настоящее время разработано достаточно большое количество информационно-поисковых языков, которые отличаются не только по своим изобразительным свойствам, но и по степени семантической силы.

Информационно – поисковые языки, получившие название дескрипторных, основаны на применении принципов координатного индексирования, при котором смысловое содержание документа может быть с определенной степенью точности и полноты задано списком ключевых слов, содержащихся в тексте.

Дескрипторные языки привязаны к лексике текстов. Ключевые слова из текстов выбираются исходя из разных целей, соответственно, критерии выбора могут различаться. Для построения дескрипторного языка критерием отбора ключевых слов, как правило, служат информативность слова и частота его встречаемости в тексте. Универсальными структурами дескрипторного языка являются лексические единицы, парадигматические и синтагматические отношения.

Парадигматические отношения могут задаваться как:

Отношения вид–род (вышестоящий дескриптор);

Отношения род–вид (нижестоящие дескрипторы);

Синонимы;

Ассоциативные связи.

В большинстве автоматизированных информационных систем при индексировании документов и запросов применяется контроль с помощью тезауруса.

В тезаурусы помещаются дескрипторы и недескрипторы, хотя существуют тезаурусы только из дескрипторов. Как дескрипторы, так и недескрипторы приводят к единой грамматической форме (нормализуют). Как правило, дескрипторы употребляются в форме существительных или именных словосочетаний. Тезаурус может быть построен по принципу дескрипторных статей, состоявших из заглавного дескриптора и списка дескрипторов и недескрипторов с обозначением парадигматических отношений.

Парадигматические отношения представляют собой внетекстовые отношения между лексическими единицами. На их основании происходит группировка лексических единиц в парадигмы.
Синтагматические отношения представляют собой отношения лексических единиц в тексте, т.е. они выражают семантику контекста.

При переводе основного смыслового содержания документов и запросов с естественного языка на дескрипторный информационно – поисковый язык существуют определенные правила, называемые системой индексирования. Результатом перевода документа является поисковый образ документа, а запроса–поисковый образ запроса.

 

 


еще рефераты
Еще работы по информатике