Лекция: Составляющие внемашинного информационного обеспечения систем управления. Системы классификации и кодирования информации.

Информационное обеспечение – это совокупность методов и средств по размещению и организации информации, включающих в себя системы: классификации и кодирования; унифицированные системы документации, рационализации документооборота и форм документов; методов создания внутримашинной информационной базы ИС.

Таким образом, сферы информационного обеспечения:

1. Внемашинная сфера (внемашинная информационная база и средства организации и ведения внемашинной информационной базы)

2. Внутримашинная сфера (внутримашинная информационная база и средства организации и ведения внутримашинной информационной базы)

Внемашинная информационная база служит источником формирования внутримашинной информационной базы. Наиболее важными вопросами подготовки внемашинного информационного обеспечения предметной области являются:

ü определение состава документов, содержащих необходимую информацию для решения задач пользователя;

ü определение форм документов и структуры информации (выявление структурных единиц информации и их взаимосвязей);

ü классификация и кодирование информации, обрабатываемой в задачах пользователя;

ü разработка инструктивных и методических материалов по ведению документов информации для обработки.

К средствам организации и ведения внемашинной информационной базы относятся:

1. Системы классификации и кодирования информации

2. Унифицированные системы документов

3. Инструктивные и методические материалы по ведению документов

Системы классификации и кодирования информации. Методы кодирования.

Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков.

Система кодирования — совокупность правил кодового обозначения объектов.

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:

ü длиной — число позиций в коде (может быть постоянная и переменная);

ü структурой — порядок расположения в коде символов, используемых для обозначения классификационного признака.

Можно выделить две группы методов, используемых в системе кодирования объектов которые образуют:

ü классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;

ü регистрационную систему кодирования, не требующую предварительной классификации объектов

Различают последовательное и параллельное классификационное кодирование.

Последовательное кодирование используется для иерархической классификационной структуры. Параллельное кодирование используется для фасетной системы классификации.

Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему.

Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.

Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.

Рассмотрим основные идеи методов классификации для создания систем классификации и кодирования.

Иерархическая система классификации — самая традиционная. Она имеет структуру «древа знаний», в котором определенная совокупность знаний (универсум) последовательно делится на все более узкие подклассы. Существует много универсальных иерархических классификаций, охватывающих сразу все отрасли человеческих знаний.

Например, в библиографической практике наиболее широко используются Библиотечно-библиографическая классификация (ББК), Универсальная десятичная классификация (УДК), Классификация для массовых библиотек и некоторые другие.

Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.

К достоинствам иерархической системы классификации можно отнести

простоту построения; использование независимых классификационных признаков в различных ветвях иерархической структуры.

А к недостаткам — жесткую структуру, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки; невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.

Суть метода последовательного кодирования заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры.

Фасетная система классификации (ее еще называют параллельной классификацией) в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet — рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Первая фасетная классификация (Классификация двоеточием) была разработана известным индийским библиографом и библиотекарем Ш.Р. Ранганатаном в 1933 г.

Механизм построения фасетной классификации и ее использование при индексировании документов можно показать на примере классификации кинофильмов. В качестве основных фасетов для кинофильмов выделим, например, жанр, метраж, цвет и формат. В каждом фасете перечислим свойственные ему конкретные характеристики. В результате получим классификацию, представленную в таблице.

Используя методику параллельного кодирования с помощью фасетной формулы или кода можно выразить содержание документа, относящееся к кинофильму любого класса.

Например:

Ж1: М1: Ц2: Ф2 — художественный полнометражный цветной широкоэкранный.

Жанр	Метраж	Цвет	Формат
Ж1 художественные	М1 полнометражные	Ц1 черно-белые	Ф1 обычные
Ж2 документальные	М2 короткометражные	Ц2 цветные	Ф2 широкоэкранные
Ж3 хроникальные		Ц3 комбинированные

Ж2: М2: Ц1: Ф1 — документальный короткометражный черно-белый обычный. И т. д.

Рассмотрим приложение фасетной классификации к ресурсам Интернета каталога Яндекс.

Значения фасетов для ресурсов интернета проставляются вручную редакторами при описании ресурсов в каталоге Яндекс.

Каталог — (англ. web-directory) Систематизированная и рубрицированная подборка ссылок на интернет-ресурсы с описаниями. Каталоги делятся на специализированные (отраслевые) и общие, а также на региональные, национальные и глобальные. В отличие от поисковой машины, где индекс создается автоматически, составление каталога — ручная работа по классификации и аннотированию ресурсов.

Поэтому обычно в базе каталога меньше сайтов, чем в базе поисковой машины, то есть он уступает ей по покрытию. Каталогами удобно пользоваться, если вы ищете не ответ на конкретный вопрос, а сайты на какую-то тему.

Основные фасеты, используемые в каталоге, это: Тема, Регион, Жанр, Источник информации, Адресат информации, Сектор экономики.

Тема имеет порядка 600 значений и описывает предметную область интернет-ресурса. Значение признака определяется содержанием текстов, сферой деятельности представляемой организации или областью применения предлагаемого продукта.

Регион определяет принадлежность ресурса к одному из 230 географических областей. Принадлежность ресурса к региону может определяться несколькими показателями: географическим расположением представляемого объекта (например, местоположение торговой фирмы), сферой управления и влияния (регион действия политической партии), потенциальной аудиторией информации (целевая аудитория новостного издания) или информационным содержанием ресурса (справочник фирм города или история страны).

Источник информации имеет пять значений: Официальный, СМИ, Неформальный, Персональный Анонимный. С каждым из этих пяти типов источника информации связаны свои особенности подачи предоставляемых сведений – оперативность, достоверность, полнота, уникальность, объективность и т.п.

Адресат информации имеет четыре значения: Партнеры, Инвесторы, Потребители, Коллеги. Признак определяет аудиторию, для которой материалы могут представлять интерес – обычные покупатели, оптовики или фирмы-потребители, инвесторы или специалисты.

Сектор экономики имеет три значения: Государственный, Коммерческий, Некоммерческий. Признак присваивается сайтам организаций или частных предпринимателей и указывает на их экономико-правовой статус.

Значение фасета Жанр в каталоге «Яндекс» определяет принадлежность ресурса к одному из шести классов:

художественная литература (ХудЛит);

научно-техническая литература (НаучТех);

научно-популярная литература (НаучПоп);

нормативные документы (НормДок);

советы;

публицистика (Публиц).

Дескриптор — ключевое слово, определяющее некоторое понятие, которое формирует описание объекта и дает принадлежность этого объекта к классу, группе и т.д.

Введем понятие текстовой БД. Объектами хранения в текстовых БД являются тексты. Под текстом будут пониматься неструктурированные данные, построенные из строк.

Основной целью любой текстовой БД является хранение, поиск и выдача документов, соответствующих запросу пользователя. Такие документы принято называть релевантными.

Ввиду того, что автоматизированный поиск документов на естественных языках достаточно затруднен, возникает вопрос о проектировании некоторых формальных языков, предназначенных для отображения основного смыслового содержания документов и запросов в БД. Такие языки называют информационно-поисковыми. В настоящее время разработано достаточно большое количество информационно-поисковых языков, которые отличаются не только по своим изобразительным свойствам, но и по степени семантической силы.

Информационно – поисковые языки, получившие название дескрипторных, основаны на применении принципов координатного индексирования, при котором смысловое содержание документа может быть с определенной степенью точности и полноты задано списком ключевых слов, содержащихся в тексте.

Дескрипторные языки привязаны к лексике текстов. Ключевые слова из текстов выбираются исходя из разных целей, соответственно, критерии выбора могут различаться. Для построения дескрипторного языка критерием отбора ключевых слов, как правило, служат информативность слова и частота его встречаемости в тексте. Универсальными структурами дескрипторного языка являются лексические единицы, парадигматические и синтагматические отношения.

Парадигматические отношения могут задаваться как:

Отношения вид–род (вышестоящий дескриптор);

Отношения род–вид (нижестоящие дескрипторы);

Синонимы;

Ассоциативные связи.

В большинстве автоматизированных информационных систем при индексировании документов и запросов применяется контроль с помощью тезауруса.

В тезаурусы помещаются дескрипторы и недескрипторы, хотя существуют тезаурусы только из дескрипторов. Как дескрипторы, так и недескрипторы приводят к единой грамматической форме (нормализуют). Как правило, дескрипторы употребляются в форме существительных или именных словосочетаний. Тезаурус может быть построен по принципу дескрипторных статей, состоявших из заглавного дескриптора и списка дескрипторов и недескрипторов с обозначением парадигматических отношений.

Парадигматические отношения представляют собой внетекстовые отношения между лексическими единицами. На их основании происходит группировка лексических единиц в парадигмы.
Синтагматические отношения представляют собой отношения лексических единиц в тексте, т.е. они выражают семантику контекста.

При переводе основного смыслового содержания документов и запросов с естественного языка на дескрипторный информационно – поисковый язык существуют определенные правила, называемые системой индексирования. Результатом перевода документа является поисковый образ документа, а запроса–поисковый образ запроса.

еще рефераты

Еще работы по информатике

Реферат по информатике

Составить программу для определения объема оперативной памяти вычислительной системы.

30 Декабря 2015

Реферат по информатике

Составить программу для вычисления скорости передачи информации между компьютерами, объединенными в локальную сеть.

30 Декабря 2015

Реферат по информатике

Составить алгоритм поиска экстремума функции двух переменных методом случайного поиска.

30 Декабря 2015

Реферат по информатике

Составить алгоритм поиска экстремума функции двух переменных

30 Декабря 2015