Лекция: Техническая структура

Топология определяет территориальное размещение технических средств по структурным подразделениям предприятия, а коммуникация — технический способ реализации взаимодействия структурных подразделений.

На внешнем уровне модели определяются типы технических средств обработки данных и их размещение по структурным подразделениям.

На концептуальном уровне определяется способы коммуникаций между техническими комплексами структурных подразделений: физическое перемещение документов, машинных носителей, обмен информацией по каналам связи и т.д.

На внутреннем уровне строится модель «клиент-серверной» архитектуры вычислительной сети.

Функциональная модель представляет с требуемой степенью детализации систему функций, которые в свою очередь отражают свои взаимоотношения через объекты системы.

Модели данных представляют собой подробное описание объектов системы, связанных системными функциями.

IDEF0 (Integration Definition for Function Modeling) – система представляется как совокупность взаимодействующих работ или функций. Такая чисто функциональная ориентация является принципиальной — функции системы анализируются независимо от объектов, которыми они оперируют. Это позволяет более четко смоделировать логику и взаимодействие процессов организации.

DFD (Data Flow Diagram) – структурный анализ потоков данных, который используются для описания документооборота и обработки информации. Подобно IDEF0, DFD представляет модельную систему как сеть связанных между собой работ. Их можно использовать как дополнение к модели IDEF0 для более наглядного отображения текущих операций документооборота в корпоративных системах обработки информации.

IDEF3 — это метод, имеющий основной целью дать возможность аналитикам описать ситуацию, когда процессы выполняются в определенной последовательности (workflow diagramming), а также описать объекты, участвующие совместно в одном процессе. IDEF3 дополняет IDEF0 и содержит все необходимое для построения моделей, которые в дальнейшем могут быть использованы для имитационного анализа.

Оперативная аналитическая обработка данных: концепции и технологии.

В любой информационной системе (ИС) в той или иной степени присутствуют Подсистемы (системы) Поддержки Принятия Решений (СППР, DSS (Decision Support System)).

СППР можно, в зависимости от данных, c которыми они работают, разделить на оперативные, предназначенные для немедленного реагирования на текущую ситуацию, и стратегические — основанные на анализе большого количества информации из разных источников с привлечением сведений, содержащихся в системах, аккумулирующих опыт решения проблем.

СППР первого типа получили название Информационных Систем Руководства (Executive Information Systems, ИСР). По сути, они представляют собой конечные наборы отчетов, построенные на основании данных из транзакционной информационной системы предприятия или OLTP-системы (On-line transaction processing), в идеале адекватно отражающей в режиме реального времени все аспекты производственного цикла предприятия. Для ИСР характерны следующие основные черты:

· отчеты, как правило, базируются на стандартных для организации запросах; число последних относительно невелико;

· ИСР представляет отчеты в максимально удобном виде, включающем, наряду с таблицами, деловую графику, мультимедийные возможности и т. п.;

· как правило, ИСР ориентированы на конкретный вертикальный рынок, например финансы, маркетинг, управление ресурсами.

СППР второго типа или предполагают достаточно глубокую проработку данных, специально преобразованных так, чтобы их было удобно использовать в ходе процесса принятия решений. СППР этого уровня может включать следующие компоненты:

1. информационное хранилище данных (Data Warehouse)

2. подсистему извлечения, преобразования и загрузки (импорта) данных (ETL – Extracting Transformating and Loading)

3. подсистемы анализа (OLAP и Data Mining).

Сравнительный анализ OLTP и систем анализа

Характеристика	Требования OLTP	Требования систем анализа
Степень детализации хранимых данных	Детализированные данные, затрагиваются отдельные записи	Детализированные и обобщенные данные, выполняются запросы над большим количеством данных с применением группировок и агрегирования
Качество данных	Допускаются «грязные» данные из-за ошибок ввода	Не допускаются ошибки в данных
Формат хранения данных	Разный формат данных в зависимости от приложений	Единый согласованный формат хранения данных
Избыточность данных	Максимальная нормализация	Допускается денормализация
Время обработки обращений к данным	Режим реального времени	Допускается отклик через несколько минут
Характер запросов к данным	Регламентированные запросы	Запросы к данным могут быть произвольными и заранее не оформлены
Управление данными	Возможность добавления, удаления, изменения данных	Возможность добавления, данных

Информация, на основе которой принимается решение, должна быть достоверной, полной, непротиворечивой и адекватной. В СППР второго типа традиционная технология подготовки интегрированной информации на основе запросов и отчетов стала неэффективной из-за резкого увеличения количества и разнообразия исходных данных.

Решение — концепция Хранилища Данных (Data Warehouse, ХД), которое выполняет функции предварительной подготовки и хранения данных для СППР на основе информации из системы управления предприятием (OLTP — системы), а также информации из сторонних источников, которые в достаточном количестве стали доступны на рынке информации.

Все данные в ХД делятся на три основные категории:

1. детальные данные

2. агрегированные данные

3. метаданные

Под аббревиатурой ETL — extraction, transformation, loading, то есть извлечение, преобразование и загрузка, скрываются три основных процесса, используемые при переносе данных из одного приложения или системы в другие (плакат)

Использование собранных данных решается подсистемами анализа. Эти подсистемы могут основываться на следующих технологиях:

— регламентированные запросы (развиты еще до появления концепции БД);

— оперативный анализ данных;

— интеллектуальный анализ данных

ОLAP (Online Analytical Processing) — оперативная аналитическая обработка данных. Основная цель ОLAP – систем – поддержка произвольных (не регламентированных!) запросов пользователей аналитиков.

12 определяющих принципов OLAP сформулировал в 1993 г. Е. Ф. Кодд — «изобретатель» реляционных БД. Позже его определение было переработано в так называемый тест FASMI, требующий, чтобы OLAP-приложение предоставляло возможности быстрого анализа разделяемой многомерной информации.

Fast (Быстрый) — анализ должен производиться одинаково быстро по всем аспектам информации. Приемлемое время отклика — 5 с или менее.

Analysis (Анализ) — должна быть возможность осуществлять основные типы числового и статистического анализа, предопределенного разработчиком приложения или произвольно определяемого пользователем.

Of Shared (Разделяемой) — множество пользователей должно иметь доступ к данным, при этом необходимо контролировать доступ к конфиденциальной информации.

Multidimensional (Многомерной) — это основная, наиболее существенная характеристика OLAP.

Information (Информации) — приложение должно иметь возможность обращаться к любой нужной информации, независимо от ее объема и места хранения.

Data Mining- «добыча» данных. Это метод обнаружения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений.

DM обеспечивает решение всего пяти задач — классификация, кластеризация, регрессия, ассоциация, последовательность:

Классификация — установление функциональной зависимости между входными и дискретными выходными переменными. При помощи классификации решается задача отнесение объектов (наблюдений, событий) к одному из заранее известных классов.

Регрессия- установление функциональной зависимости между входными и непрерывными выходными переменными. Прогнозирование чаще всего сводится к решению задачи регрессии.

Кластеризация — это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.

Ассоциация — выявление зависимостей между связанными событиями, указывающих, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом потребительской корзины (market basket analysis).

Последовательные шаблоны — установление закономерностей между связанными во времени событиями. Например, после события X через определенное время произойдет событие Y.

Иногда специально выделяют задачу анализа отклонений — выявление наиболее нехарактерных шаблонов.

Классификация используется в случае, если заранее известны классы отнесения объектов. Например, отнесение нового товара к той или иной товарной группе, отнесение клиента к какой-либо категории. При кредитовании это может быть, например, отнесение клиента по каким-то признакам к одной из групп риска.

Регрессия чаще всего используется при прогнозировании объемов продаж, в этом случае зависимой величиной являются объемы продаж, а факторами, влияющими на эту величину, могут быть предыдущие объемы продаж, изменение курса валют, активность конкурентов и т.д. или, например, при диагностике оборудования, когда оценивается зависимость надежности от различных внешних факторов, показателей датчиков, износа оборудования.

Кластеризация может использоваться для сегментирования и построения профилей клиентов (покупателей). При достаточно большом количестве клиентов становится трудно подходить к каждому индивидуально. Поэтому клиентов удобно объединить в группы — сегменты со сходными признаками. Выделять сегменты клиентов можно по нескольким группам признаков. Это могут быть сегменты по сфере деятельности, по географическому расположению. После сегментации можно узнать, какие именно сегменты являются наиболее активными, какие приносят наибольшую прибыль, выделить характерные для них признаки. Эффективность работы с клиентами повышается за счет учета их персональных или групповых предпочтений.

Ассоциации помогают выявлять совместно приобретаемые товары. Это может быть полезно для более удобного размещения товара на прилавках, стимулирования продаж. Тогда человек, купивший пачку спагетти, не забудет купить к ним бутылочку соуса.

Последовательные шаблоны могут быть использованы, например, при планировании продаж или предоставлении услуг. Например, если человек приобрел фотопленку, то через неделю он отдаст ее на проявку и закажет печать фотографий.

Для анализа отклонений необходимо сначала построить шаблон типичного поведения изучаемого объекта. Например, поведение человека при использовании кредитных карт. Тогда будет известно, что клиент (покупатель) использует карту регулярно два раза в месяц и приобретает товар в пределах определенной суммы. Отклонением будет, например, не запланированное приобретение товара по данной карте на большую сумму. Это может говорить об ее использовании другим лицом, то есть о факте мошенничества.

К базовым методам Data Mining, позволяющим решать перечисленные задачи относят:

— автокорреляцию;

— линейную регрессию;

— логистическую регрессию;

— нейронные сети;

— прогнозирование;

— деревья решений;

— ассоциативные правила;

— пользовательские модели;

— карты Кохонена;

еще рефераты

Еще работы по информатике