Название работы. Интеллектуальный анализ данных в системах поддержки принятия решений

Интеллектуальный анализ данных (ИАД), или Data Mining, - термин, используемый для описания открытия знаний в базах данных, выделения знаний, изыскания данных, исследования данных, обработки образцов данных, очистки и сбора данных; здесь же подразумевается сопутствующее ПО. Все эти действия осуществляются автоматически и позволяют получать быстрые результаты даже непрограммистам.

Запрос производится конечным пользователем, возможно на естественном языке. Запрос преобразуется в SQL – формат. SQL запрос по сети поступает в СУБД, которая управляет БД или хранилищем данных. СУБД находит ответ на запрос и доставляет его назад. Пользователь может затем разрабатывать презентацию или отчет в соответствии со своими требованиями.

Многие важные решения в почти любой области бизнеса и социально сферы основываются на анализе больших и сложных БД. ИАД может быть очень полезным в этих случаях.

Методы интеллектуального анализа данных тесно связаны с технологиями OLAP и технологиями построения хранилищ данных. Поэтому наилучшим вариантом является комплексный подход к их внедрению.

Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки.

Очень часто информационно – аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, оказываются чрезвычайно просты в применении, но жестко ограничены в функциональности. Такие статические системы называются Информационными системами руководителя. Они содержат в себе предопределенные множества запросов и, будучи достаточными для повседневного обзора, неспособны ответить на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений. Результатов работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, непредусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо. Таким образом, внешняя простота статистических ИС поддержки решений, за которую активно борется большинство заказчиков информационно – аналитических систем, оборачивается потерей гибкости.

Динамические ИС поддержки решений, напротив, ориентированы на обработку нерегламентированных (ad hoc) запросов аналитиков к данным. Работа аналитиков с этими системами заключается в интерактивной последовательности формирования запросов и изучения их результатов.


Но динамические ИС поддержки решений могут действовать не только в области оперативной аналитической обработки (OLAP). Поддержка принятия управленческих решений на основе накопленных данных может выполняться в трех базовых сферах.

1. Сфера детализированных данных. Это область действия большинства систем, нацеленных на поиск информации. В большинстве случаев реляционные СУБД отлично справляются с возникающими здесь задачами. Общепризнанным стандартом языка манипулирования реляционными данными является SQL. Информационно – поисковые системы, обеспечивающие интерфейс конечного пользователя в задачах поиска детализированной информации, могут использоваться в качестве надстроек как над отдельными базами данных транзакционных систем, так и над общим хранилищем данных.

2. Сфера агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация и многомерный анализ являются задачами систем OLAP. Здесь можно или ориентироваться на специальные многомерные СУБД, или оставаться в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида, либо агрегация информации может производится в процессе сканирования детализированных таблиц реляционной БД.

3. Сфера закономерностей. Интеллектуальная обработка производится методами интеллектуального анализа данных главными задачами которых являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.

Полная структура информационно – аналитической системы построенной на основе хранилища данных, показана на рис.3.2. В конкретных реализациях отдельные компоненты этой схемы часто отсутствуют.

Рис.3.2. Структура корпоративной информационно – аналитической системы.

16.01.1998 Марина Шапот

Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано, в первую очередь, с необходимостью аналитической обработки сверхбольших объемов информации, накапливаемой в современных хранилищах данных. Возможность использования хорошо известных методов математической статистики и машинного обучения для решения задач подобного рода открыло новые возможности перед аналитиками, исследователями, а также теми, кто принимает решения - менеджерами и руководителями компаний. Сложность и разнообразие методов ИАД требуют создания специализированных средств конечного пользователя для решения типовых задач анализа информации в конкретных областях. Поскольку эти средства используются в составе сложных многофункциональных систем поддержки принятия решений, они должны легко интегрироваться в подобные системы. Одним из наиболее важных и перспективных направлений применения ИАД являются бизнес-приложения, поэтому опыт канадско-американской фирмы Cognos по реализации методов ИАД в составе интегрированных интеллектуальных систем поддержки принятия решений представляет интерес как для разработчиков, так и для пользователей. Средства создания интеллектуальных приложений Средства извлечения новой информации Конкретный пример Заключение Литература Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано

Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано, в первую очередь, с необходимостью аналитической обработки сверхбольших объемов информации, накапливаемой в современных хранилищах данных. Возможность использования хорошо известных методов математической статистики и машинного обучения для решения задач подобного рода открыло новые возможности перед аналитиками, исследователями, а также теми, кто принимает решения - менеджерами и руководителями компаний. Сложность и разнообразие методов ИАД требуют создания специализированных средств конечного пользователя для решения типовых задач анализа информации в конкретных областях. Поскольку эти средства используются в составе сложных многофункциональных систем поддержки принятия решений, они должны легко интегрироваться в подобные системы. Одним из наиболее важных и перспективных направлений применения ИАД являются бизнес-приложения, поэтому опыт канадско-американской фирмы Cognos по реализации методов ИАД в составе интегрированных интеллектуальных систем поддержки принятия решений представляет интерес как для разработчиков, так и для пользователей.

Системы ИАД применяются в научных исследованиях и образовании, в работе правоохранительных органов, производстве, здравоохранении и многих других областях. Особенно широко технология ИАД используется в деловых приложениях. В таблице 1 приведено несколько примеров приложений в области финансов и маркетингового анализа.

Таблица 1. Примеры использования методов интеллектуального анализа данных в финансовых приложениях и маркетинговом анализе
Приложение (организация) Описание
FALCON (HNC Software, Inc.) Инструментальное средство для оперативного выявления злоупотреблений с кредитными карточками; более 100 организаций-пользователей отмечают сокращение числа нарушений на 20-30%.
Классификатор дебиторских счетов (Internal Revenue Service) Выявление счетов потенциально платежеспособных дебиторов на основе анализа больших объемов архивных данных по уплате налогов.
Повышение качества архивной финансовой информации (Lockheed) Выявление закономерностей (в виде правил вывода) в архивных финансовых данных для использования в моделях прогнозирования, системах поддержки принятия решений по инвестированию и т.д.
Верификация данных по курсам валют (Reuters) Система выявления ошибок в оперативно поступающих данных по курсам валют. С помощью нейронных сетей и индуктивного вывода правил строятся приблизительные прогнозы, которые сравниваются с поступающими данными. Большие отклонения рассматриваются как возможные ошибки.
Прогнозирование невыплат в сделках с недвижимостью (Leeds) Анализ архивных данных по сделкам с недвижимостью и выявление паттернов, соответствующих проблемным сделкам, заканчивающимся невыплатами. Выявленные закономерности используются для оценки риска при заключении новых сделок.
Маркетинговые исследования (Dickinson Direct) Определение характеристик типичных покупателей продукции компании для выявления новых потенциальных клиентов (профилирование клиентов).
Маркетинговые исследования (Reader"s Digest Canada) Выявление основных сегментов рынка и наиболее благоприятных подмножеств, а также исследование зависимостей между основными показателями и характеристиками сегментов.
Установка лотерейных автоматов (Automated Wagering, Inc.) Объединение методов ИАД с географическим анализом для определения наилучших мест для установки лотерейных автоматов в штате Флорида.
Выявление потенциальных покупателей автомобильных стерео систем (Washington Auto Audio, Inc.) Анализ демографической базы данных, содержащей информацию о 14000 реальных и потенциальных клиентов, позволил за 90 секунд получить 3 довольно надежных индикатора для прогноза спроса на продукцию и услуги компании. Аналогичные результаты были получены в результате традиционного исследования, выполненного одной из консалтинговых компаний, причем это исследование обошлось фирме на порядок дороже, чем автоматизированная система интеллектуального анализа данных.

Как видно из таблицы 1, результаты ИАД представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Поэтому перед разработчиками встает задача внедрения технологии ИАД в автоматизированные системы анализа и поддержки принятия решений. В отличие от исследовательских приложений, подобные системы должны ориентироваться на непрограммирующего пользователя и на решение конкретных проблем, которые оказываются довольно разнообразными и нередко требуют применения различных подходов. Например, от автоматизированной системы анализа финансового состояния коммерческого банка может потребоваться решение таких задач как:

  • получение отчетности банка и проверка ее полноты и корректности;
  • проведение группировки статей баланса и расчет экономических нормативов и аналитических коэффициентов (например, по методу CAMEL);
  • проверка экономических нормативов по методике ЦБ РФ;
  • оценка состояния банка по системе аналитических коэффициентов;
  • определение рейтинга банка;
  • анализ динамики основных показателей, выявление тенденций и прогнозирование состояния банка;
  • анализ степени влияния тех или иных факторов на состояние банка;
  • выработка рекомендаций по оптимизации банковского баланса.

Эта система должна обеспечивать решение нескольких задач, от сбора и проверки корректности информации, поступающей в базу данных, до традиционного и/или интеллектуального анализа данных (степень влияния различных факторов на состояние банка, прогнозирование) и оптимизационного анализа, причем от пользователя не требуется специальных знаний в области баз данных, факторного анализа или методов оптимизации.

К сожалению, универсальные средства ИАД довольно сложны и дороги, поэтому они не могут широко применяться в рамках интегрированных систем, ориентированных на конечного пользователя. Действительно, в основу технологии ИАД положен не один, а несколько принципиально различных подходов (таблица 2), причем использование некоторых из них невозможно без специальной подготовки. Выбор подхода нередко требует привлечения специалиста по ИАД.

Таблица 2. Основные технологии интеллектуального анализа данных
Технология Достоинства Недостатки
Правила вывода Удобны в тех случаях, когда данные связаны отношениями, представимыми в виде правил "если то " При большом количестве правил теряется наглядность; не всегда удается выделить отношения "если то "
Нейронные сети Удобны при работе с нелинейными зависимостями, зашумленными и неполными данными "Черный ящик": модель не может объяснить выявленные знания; данные обязательно должны быть преобразованы к числовому виду
Нечеткая логика Ранжируют данные по степени близости к желаемым результатам; нечеткий поиск в базах данных Технология новая, поэтому сейчас известно ограниченное число специализированных приложений
Визуализация Многомерное графическое представление данных, по которому пользователь сам выявляет закономерности - образцы и отношения между данными Модели не исполняются, и их интерпретация полностью зависит от аналитика
Статистика Есть большое число алгоритмов и опыт их применения в научных и инженерных приложениях Больше подходят для проверки гипотез, чем для выявления новых закономерностей в данных
К-ближайший сосед Выявление кластеров, обработка целостных источников данных Большие затраты памяти, проблемы с чувствительностью
Интегрированные Можно выбирать подходы, адекватные задачам, или сравнивать Сложные средства поддержки; высокая стоимость;
технологии результаты применения разных подходов. для каждой отдельно взятой технологии не всегда реализуется наилучшее решение

Однако вряд ли есть смысл использовать универсальные средства ИАД во всех случаях, поскольку накопленный опыт работы с методами интеллектуального анализа уже позволил выделить типовые задачи и определить наиболее эффективные методы их решения. Существующие системы ИАД можно подразделить на исследовательские, ориентированные на специалистов и предназначенные для работы с новыми типами проблем, и прикладные, рассчитанные на непрограммирующих пользователей (аналитиков, менеджеров, технологов и т.д.) и решающие типовые задачи. Если в исследовательских системах ИАД важно разнообразие доступных методов обработки данных и гибкость используемых средств, то в прикладных системах такие широкие возможности оказываются излишними. В подобных системах целесообразно реализовывать не методы, а типовые виды рассуждений (анализа), характерные для проблемной области. Создание соответствующих инструментальных средств с дружественным интерфейсом обеспечивает доступность ИАД для широкого круга пользователей.

Средства создания интеллектуальных приложений

Среди инструментальных средств создания интеллектуальных приложений для бизнеса определенный интерес представляет семейство программных продуктов Business Intelligence (BI) компании Cognos. Системы Impromptu, PowerPlay, Scenario и 4Thought представляют собой взаимосвязанные и дополняющие друг друга инструментальные средства, поддерживающие наиболее эффективные технологии обработки данных и обеспечивающие решение широкого круга задач в бизнес-приложениях, от доступа к информации в распределенных базах данных до вычислительной обработки и интеллектуального анализа (рис.1).

Рис. 1. Семейство инструментальных средств компании Cognos

Отличительной особенностью рассматриваемых средств является сочетание эффективности реализуемых в них методов с дружественным интерфейсом, что делает их доступными для непрограммирующих пользователей, а предлагаемая программа обучения позволяет осваивать каждое средство не более чем за 2 дня.

По оценкам Gartner Group, META Group, Lehman Bros., Seybold, Forrester и Hurwitz, продукция Cognos пользуется сегодня повышенным спросом - среди покупателей программных продуктов семейства BI, установивших у себя свыше 2000 лицензий, такие компании как Procter & Gamble, Chrysler, Dutch Telecom, Swedish Telecom и др. Программные продукты семейства BI обеспечивают создание корпоративных приложений в архитектуре "клиент-сервер". К достоинствам этих продуктов можно отнести объектно-ориентированную архитектуру средств администрирования, возможности контроля доступа к информации, поддержку технологии OLE в среде Windows. Дополнительные возможности по интеграции систем предоставляются за счет использования встроенного макроязыка, позволяющего описывать взаимодействие между различными приложениями и обмен информацией между ними.

Система Impromptu обеспечивает доступ к базам данных и формирование отчетов. Она ориентирована на непрограммирующих пользователей и имеет графический интерфейс создания сложных отчетов и задания последовательностей вычислительной обработки, причем не требует знания SQL. Простота использования достигается за счет объектно-ориентированного подхода к построению отчетов, а также наличия библиотеки шаблонов стандартных отчетов и утилиты Report Wizard, направляющей пользователя в ходе работы. Отчеты могут быть табличными, графическими и гипертекстовыми (формат HTML). Impromptu поддерживает работу с распространенными СУБД - Oracle, MS SQL Server, Sybase SQL Server, Sybase NetGateway, OmniSQL Gateway, MDI DB2 Gateway, Informix, CA-Ingres, Gupta SQLBase, а также обеспечивает доступ через ODBC. Отчеты Impromptu могут использоваться в качестве источников данных для остальных систем семейства BI, выступая при этом в роли информационных витрин. По итогам опроса InfoWord, проведенного в 1995 г., система Impromptu была признана лучшей в своем классе.

Система PowerPlay является средством для проведения OLAP-анализа. Технология OLAP представляет собой развитие методов работы с реляционными базами данных, что позволило существенно повысить эффективность их использования в аналитической работе. Ключевые особенности баз данных OLAP следующие: многомерное представление данных в виде гиперкубов, проведение сложных вычислений над массивами данных и привязка информации ко времени, обеспечивающая возможность анализа динамики данных. Благодаря простоте извлечения информации из баз данных OLAP конечные пользователи стали меньше зависеть от разработчиков: с помощью средств OLAP многие задачи, ранее требовавшие специального программирования, они сами решают. Разработчики, в свою очередь, получили удобное средство для быстрого создания приложений. Выигрывает и компания в целом, поскольку хранение в гиперкубах агрегированной аналитической информации позволяет снижать число запросов к базе данных и уменьшает трафик в сети.

PowerPlay обеспечивает многомерный просмотр данных с нисходящим и уровневым анализом, работу с различными видами дисплеев (таблицами, двумерными и трехмерными графиками, диаграммами). Система позволяет выявлять и отмечать в просматриваемых отчетах исключения и особые случаи, ранжировать данные и проводить вычисления над массивами данных. Гиперкубы строятся на основе информации, поступающей из различных источников (баз данных и отчетов системы Impromptu), причем возможна обработка более 10 млн. записей. Число размерностей в гиперкубах не ограничивается. По сравнению с известными средствами OLAP, PowerPlay обеспечивает самую высокую степень сжатия данных в гиперкубах. Гиперкубы могут создаваться и размещаться как на серверах, так и на клиентских компьютерах. Новая версия PowerPlay обеспечивает возможность работы с гиперкубами через Web-браузеры.

На основе обобщения опыта применения технологии OLAP была разработана методика ее использования в различных сферах бизнеса. Методика включает анализ 24 типовых приложений в таких областях как финансовая деятельность, работа с кадрами, продажи, маркетинг, закупки, производство, распределение продукции и обслуживание клиентов. Например, анализ объемов продаж и прибылей удобно проводить на основе гиперкубов с такими размерностями как даты, регионы, виды продукции, каналы сбыта, клиенты и др. Аналитик может самостоятельно получать ответы на вопросы вида: "В каких городах во II и III квартале прошлого года продажи витаминных препаратов обеспечили не менее 60% прибыли?" и др. В производстве OLAP-анализ может применяться для анализа причин появления брака и оценки использования ресурсов. Бухгалтерские балансы одного или нескольких предприятий, с привязкой ко времени, также могут быть представлены в виде гиперкуба. Действительно, баланс, по своей сути, является многомерным документом, и анализ десятков подобных документов за период в 24 месяца, представленных в традиционном табличном виде, произвести очень сложно. Агрегирование информации с возможностью нисходящего анализа в различных разрезах существенно упрощает работу аналитика.

Так, в системе анализа отчетности коммерческих банков совокупность балансов за несколько отчетных периодов может быть представлена в виде гиперкуба системы PowerPlay. Подобное представление обеспечивает простую и естественную реализацию метода группировок и нормативного метода. Аналитик, имеющий навыки работы с PowerPlay, может самостоятельно получать оценки состояния банков по системе аналитических коэффициентов (CAMEL), задавать порядок вычисления рейтингов банков, а также выводить динамику основных показателей в графическом виде.

Средства извлечения новой информации

Если первые две системы семейства BI предназначены для обеспечения доступа к информации, уже имеющейся в базе данных, то следующие программные продукты представляют собой собственно средства извлечения новой информации - ИАД и позволяют получать знания, явно не содержащиеся в исходных данных . Оба средства доступны на платформе Windows 95/NT и рассчитаны на использование непосредственно менеджерами и аналитиками как крупных организаций, так и относительно небольших компаний. Поскольку системы основаны на различных методах ИАД (простейшие статистические методы - в Scenario, нейронные сети - в 4Thought), в распоряжение пользователей предоставляется набор средств, для каждого из которых определена область эффективного применения.

Система Scenario предназначена для выявления взаимосвязей в данных. Анализируемая инфомация представляется в виде таблиц, столбцам которых соответствуют факторы (переменные), описывающие предметную область, причем один из этих столбцов отмечается пользователем как целевой показатель. Имея точное представление о том, в какой степени отдельные факторы (тип клиента, канал распространения продукции, затраты на рекламу и др.) влияют на целевой показатель (объем продаж), менеджеры могут оптимизировать решения по размещению ресурсов для обеспечения максимальной прибыли. Scenario фокусирует внимание аналитиков на измеряемых показателях и факторах, что позволяет им переходить от качественных рассуждений к построению более точных количественных моделей.

В Scenario реализовано автоматическое выявление зависимостей по критерию хи-квадрат (метод CHAID) для нахождения однородных групп (сегментов) данных с "аналогичным" поведением относительно целевого показателя. Система использует методы деревьев решений и строит правила классификации, которые можно применять к новым данным для построения прогнозов относительно возможных значений целевого показателя. Хотя ядром системы являются методы статистики, от пользователя не требуется специальных знаний в этой области. Основная статистическая информация отображается средствами интуитивно понятной графики, а более детальные сведения запрашиваются пользователем в случае необходимости. Сами методы ИАД являются лишь основой для реализации типовых видов анализа, используемых аналитиками и лицами, принимающими решения в бизнесе. К этим видам анализа относятся:

  1. Ранжирование - упорядочивание факторов по степени их влияния на целевой показатель. С каждым фактором связывается весовой коэффициент, дающий количественную оценку степени влияния.
  2. Сегментация - разделение области значений фактора на сегменты для проведения дальнейшего нисходящего анализа. Например, успешные показатели по продажам в целом могут скрыть от исследователя неудачи в некоторых регионах. Проведение сегментации по географическим районам позволит выявить, что успешные продажи имели место только в двух регионах, А и В. Последующий нисходящий анализ может показать, что объем продаж в регионе А зависит от затрат на рекламу, а в регионе В на него влияют главным образом сезонные колебания.
  3. Профилирование наилучших достижений - выявление основных характеристик наиболее успешных регионов, филиалов, клиентов и т.д. для планирования дальнейшей деятельности компании. Данный вид анализа также используется в банках и страховых компаниях для оценки риска при выдаче кредитов.
  4. Выявление ассоциаций - поиск ассоциированных групп значений факторов, т.е. значений, почти всегда появляющихся вместе (например, продажа ПК в большинстве случаев сопровождается продажей источника бесперебойного питания). Этот вид анализа в первую очередь необходим при планировании продаж, усовершенствовании работы складов, проведении рекламных компаний.
  5. Выявление исключений - поиск элементов, выпадающих из общей картины. Появление подобных элементов может быть вызвано как ошибками в данных, которые следует исправить, так и необычными ситуациями в работе компании, требующими немедленного вмешательства со стороны руководства.

Итак, с помощью Scenario можно получать ответы на многие вопросы, необходимые для принятия обоснованных решений.

  • Кто из клиентов компании останется в следующем году, кто откажется от ее услуг?
  • Какие новые тенденции в спросе определяют деятельность компании?
  • Что отличает лучших служащих компании (наиболее выгодные продукты, самые успешные филиалы) от остальных служащих (продуктов, филиалов) ?
  • Каковы признаки/индикаторы неудач (злоупотреблений) в деятельности филиалов?
  • Как определить наилучший район для продвижения нового товара или услуги?

Поскольку процесс ИАД почти всегда требует значительных затрат времени и вычислительных ресурсов, в Scenario реализованы три стратегии анализа.

  1. Для проведения быстрого начального анализа задачи, отсева незначащих факторов и фокусировки внимания на ключевых параметрах рекомендуется использовать режим исследования . Этот режим позволяет выигрывать во времени за счет некоторого снижения точности результатов. Поскольку в дальнейшем предполагается проведение более детального анализа, требования к надежности не выдвигаются. Размер выборки не ограничивается.
  2. Более точный анализ может быть проведен в режиме тестирования . Использование этого режима обеспечивает очень высокую точность и достаточную надежность результатов. Для его проведения требуется не менее 300 записей в базе данных.
  3. Наилучшие по точности и надежности результаты можно получить в режиме верификации . Этот режим, требующий не менее 1000 записей, рекомендуется использовать для проверки и уточнения результатов, полученных в ходе тестирования.

Результаты исследований могут представляться в виде графиков и деревьев решений.

График позволяет просматривать информацию о зависимости целевого показателя от того или иного фактора. На график выводятся описания сегментов данных, полученных путем разбиения значений исследуемого фактора, и вычисляются средние для целевого показателя по каждому сегменту. Пользователь может выбирать любой фактор для просмотра зависимости, группировать или разгруппировывать любые факторы, а кроме того проводить нисходящий анализ для любого сегмента данных. Может оказаться, что наибольшее влияние на продажи в этом магазине оказывают сезонные колебания, в то время как объем продаж в магазине А в значительной мере определяется ценой продукции.

Деревья решений разбивают исходную совокупность данных на группы (сегменты) с точки зрения значений целевого показателя. В приведенном примере все данные, попавшие в левый сегмент второго уровня, обеспечивают относительно небольшую прибыль. Выявленная закономерность состоит в том, что величина прибыли в значительной мере определяется затратами на рекламу: чем они выше, тем больше прибыль. Деревья решений генерируют иерархии правил вида "если... то", позволяющих классифицировать данные в соответствии с их влиянием на целевой показатель.

Для просмотра больших деревьев удобно использовать фильтры, позволяющие получать подробную информацию только по тем сегментам данных, которые интересуют пользователя. Например, в дереве решений подробная информация дана по сегментам, включающим такие каналы сбыта как Магазин А, Магазин В и Спортивные клубы. С помощью фильтров пользователь может также ранжировать сегменты по степени их влияния на целевой показатель и выделять подсветкой N наиболее значимых сегментов.

Ознакомление с результатами анализа обычно требует просмотра большого количества сегментов данных. Чтобы пользователь мог собирать интересующую его информацию в одном месте, в Scenario реализован механизм закладок. Статистическая информация по каждому из сегментов, на котором пользователь оставляет закладку, выводится системой в окно Закладки.

Выбор данных для анализа осуществляется с помощью специальной подсистемы Import Wizard из файлов в формате dBase, электронных таблиц Excel, текстовых файлов, а также отчетов Impromptu.

Scenario дополняет и расширяет возможности PowerPlay. Во-первых, система позволяет фокусировать внимание пользователя, осуществляющего OLAP-анализ, на наиболее значимых факторах, предварительно выявляемых средствами ИАД. Во-вторых, результаты ИАД могут помочь в формировании гиперкубов, поскольку они определяют, какие размерности представляют интерес для исследования и как сегментируются данные.

Как и PowerPlay, Scenario удобно использовать для анализа продаж, проведения маркетинговых исследований, а также проведения ИАД в области финансов, при работе с кадрами и в производстве. По мнению аналитиков, благодаря Scenario можно получать более содержательные результаты. Отмечаются также возможности средств визуализации результатов исследований, встроенные виды анализа и удачная документация - все это делает Scenario удобным инструментом непрограммирующего пользователя. Недостатком текущей версии системы является невозможность использования нечисловых полей в качестве целевых показателей.

В тех случаях, когда представление извлекаемых знаний в виде набора дискретных правил "если... то" не удовлетворяет пользователя, он может применить методы нейронных сетей, реализованные в системе 4Thought и позволяюще:

  • моделировать сложные нелинейные зависимости между факторами и целевыми показателями;
  • выявлять тенденции в данных (при наличии временных рядов) для построения прогнозов;
  • работать с неполными и зашумленными данными;
  • получать содержательные результаты при относительно небольшом объеме исходной информации с возможностью последующего усовершенствования модели по мере поступления новых данных.
  • Типовыми видами анализа в системе 4Thought являются:
  • выявление значимых факторов и получение оценок степени влияния каждого фактора на целевой показатель;
  • проверка гипотез "что если" - каково будет значение целевого показателя при некотором гипотетическом наборе значений факторов, каков вклад каждого фактора в это значение;
  • прогнозирование значений целевого показателя.

Процесс моделирования средствами 4Thought достаточно прозрачен, а источники данных для анализа такие же, как и в системе Scenario. Анализируемые данные представляются в виде электронной таблицы, столбцам которой соответствуют атрибуты из таблиц базы данных, а строкам - записи. При подготовке данных для анализа пользователь может редактировать таблицы, а также включать в них вычисляемые столбцы. Как и в Scenario, для постановки задачи моделирования должны быть указаны целевой (моделируемый) показатель и переменные-факторы.

Данные в таблице рассматриваются системой как примеры для обучения нейронной сети. Совокупность всех данных разбивается на два подмножества - модельное и тестовое. На каждом цикле обучения сначала сеть обучается на модельном подмножестве, а затем корректность ее работы проверяется на тестовых данных. Обучение продолжается до тех пор, пока не будет достигнуто предельно допустимое число итераций (5000) или пользователь не остановит процесс. Очевидно, что обучение сети целесообразно проводить до тех пор, пока точность результатов сети на модельном и на тестовом подмножествах растет. Убывание точности на тестовом подмножестве означает переобучение сети и снижение качества ее работы, даже при продолжающемся росте точности на модельных данных. Система запоминает состояние сети на момент последней итерации с максимальным значением точности на тестовом подмножестве, и использует именно его в рабочей модели (отметим, что здесь возможны локальные максимумы). Как правило, для обучения оказывается достаточно от 10 до 1000 итераций. При работе с небольшими объемами данных, когда выбор тестового подмножества существенно влияет на результаты обучения, пользователь может провести обучение в несколько циклов, выбирая для каждого цикла новое разбиение на тестовые и модельные данные. В процессе обучения пользователю выдается табло, на которое выводятся данные о текущем состоянии сети (точность на модельном и на тестовом подмножестве, количество итераций, скорость обучения, итерация с наилучшим показателем точности на тестовых данных) в числовом и графическом виде.

По результатам моделирования могут быть получены следующие отчеты.

  1. Основная статистика с комментариями системы. Указываются: точность модельных и тестовых данных; среднеквадратичная ошибка, стандартное отклонение, границы 95% доверительного интервала, среднее абсолютной ошибки, количество записей, количество переменных, оценки влияния факторов на целевой атрибут (аналоги t-статистик) и заключение системы относительно качества полученной модели.
  2. Количественные зависимости целевого показателя от каждого фактора в графическом виде и приближенное описание модели с помощью уравнения линейной регрессии.
  3. Коэффициенты корреляции для любого выбранного фактора относительно других факторов.
  4. Результаты использования модели на любых задаваемых пользователем значениях факторов.
  5. Объяснение для любого значения моделируемой переменной, вычисленной системой - как она была получена и какой вклад внес каждый фактор в это значение.

Конкретный пример

Система 4Thought используется сегодня в многочисленных бизнес-приложениях, что свидетельствует об эффективности реализованных в ней методов моделирования и удобстве интерфейсов конечного пользователя. Накоплен богатый опыт работы с различными типами задач. Одна из довольно распространенных задач, решаемых средствами нейронных сетей, состоит в прогнозировании спроса.Фирма, занимающаяся оптовой торговлей, ожидала падения спроса вследствие нарастающего экономического спада. В наступающем периоде оптимальное планирование закупок играло решающую роль, поэтому для фирмы было жизненно важно получить точный прогноз спроса. В качестве значимых факторов были выделены состояние экономики, описываемое в модели индексом промышленного производства, процентные ставки, а также количество рабочих дней по месяцам. Построенная модель определила зависимости целевого показателя от факторов. Для получения прогнозов требовались значения факторов на исследуемый период времени. При решении задачи были использованы публикуемые прогнозы по первым двум факторам (впрочем, подобные прогнозы могли быть получены и с помощью 4Thought). Результаты прогноза продаж представлены на графике. Слева указаны фактические данные, на которых проводилось обучение сети, а справа - прогноз системы на следующий год.

***

Программные продукты компании Cognos были представлены российским пользователям и разработчикам относительно недавно, в конце апреля 1997 года, но несмотря на это уже имеется положительный опыт их использования. Он свидетельствует о том, что несмотря на сложность технологии ИАД, она может быть реализована сегодня в прозрачных и доступных прикладных средствах, рассчитанных на непрограммирующих пользователей, специалистов в конкретных прикладных областях. Простота, эффективность и открытость рассмотренных средств позволяет интегрировать их в сложные системы поддержки принятия решений.

Литература

  1. Валерий Аджиев. . Открытые системы, № 3,1997, с.73-77
  2. Михаил Киселев, Евгений Соломатин. Открытые системы, # 4, 1997, с.41-44

Марина Шапот , РосНИИ информационных технологий и систем автоматизированного проектирования (Москва).



Введение

Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано, в первую очередь, с необходимостью аналитической обработки сверхбольших объемов информации, накапливаемой в современных хранилищах данных. Возможность использования хорошо известных методов математической статистики и машинного обучения для решения задач подобного рода открыло новые возможности перед аналитиками, исследователями, а также теми, кто принимает решения - менеджерами и руководителями компаний.

Сложность и разнообразие методов ИАД требуют создания специализированных средств конечного пользователя для решения типовых задач анализа информации в конкретных областях. Поскольку эти средства используются в составе сложных многофункциональных систем поддержки принятия решений, они должны легко интегрироваться в подобные системы. Одним из наиболее важных и перспективных направлений применения ИАД являются бизнес-приложения, поэтому опыт канадско-американской фирмы Cognos по реализации методов ИАД в составе интегрированных интеллектуальных систем поддержки принятия решений представляет интерес как для разработчиков, так и для пользователей.

Системы ИАД применяются в научных исследованиях и образовании, в работе правоохранительных органов, производстве, здравоохранении и многих других областях. Особенно широко технология ИАД используется в деловых приложениях.

В данной работе мы исследуем интеллектуальный анализ данных.

1. Интеллектуальный анализ данных

Интеллектуальный анализ данных (ИАД) обычно определяют как метод поддержки принятия решений, основанный на анализе зависимостей между данными. В рамках такой общей формулировки обычный анализ отчетов, построенных по базе данных, также может рассматриваться как разновидность ИАД. Чтобы перейти к рассмотрению более продвинутых технологий ИАД, посмотрим, как можно автоматизировать поиск зависимостей между данными.

Целью интеллектуального анализа данных (англ. Datamining, другие варианты перевода - "добыча данных", "раскопка данных") является обнаружение неявных закономерностей в наборах данных. Как научное направление он стал активно развиваться в 90-х годах XXвека, что было вызвано широким распространением технологий автоматизированной обработки информации и накоплением в компьютерных системах больших объемов данных . И хотя существующие технологии позволяли, например, быстро найти в базе данных нужную информацию, этого во многих случаях было уже недостаточно. Возникла потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных, для чего понадобились методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей.

Классическим считается определение, данное одним из основателей направления Григорием Пятецким-Шапиро : DataMining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации.

Учитывая разнообразие форм представления данных, используемых алгоритмов и сфер применения, интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:

· специализированных "коробочных" программных продуктов для интеллектуального анализа;

· математических пакетов;

· электронных таблиц(и различного рода надстроек над ними);

· средств интегрированных в системы управления базами данных (СУБД);

· других программных продуктов.

В качестве примера можно привести СУБД MicrosoftSQLServer и входящие в ее состав службы AnalysisServices, обеспечивающие пользователей средствами аналитической обработки данных в режиме on-line (OLAP)и интеллектуального анализа данных, которые впервые появились в MSSQLServer 2000.

Не только Microsoft, но и другие ведущие разработчики СУБД имеют в своем арсенале средства интеллектуального анализа данных.

В ходе проведения интеллектуального анализа данных проводится исследование множества объектов (или вариантов). В большинстве случаев его можно представить в виде таблицы, каждая строка которой соответствует одному из вариантов, а в столбцах содержатся значения параметров, его характеризующих. Зависимая переменная - параметр, значение которого рассматриваем как зависящее от других параметров (независимых переменных). Собственно эту зависимость и необходимо определить, используя методы интеллектуального анализа данных.

Рассмотрим основные задачи интеллектуального анализа данных.

Задача классификации заключается в том, что для каждого варианта определяется категория или класс, которому он принадлежит. В качестве примера можно привести оценку кредитоспособности потенциального заемщика: назначаемые классы здесь могут быть "кредитоспособен" и "некредитоспособен". Необходимо отметить, что для решения задачи необходимо, чтобы множество классов было известно заранее и было бы конечным и счетным.

Задача регрессии во многом схожа с задачей классификации, но в ходе ее решения производится поиск шаблонов для определения числового значения. Иными словами, предсказываемый параметр здесь, как правило, число из непрерывного диапазона.

Отдельно выделяется задача прогнозирования новых значений на основании имеющихся значений числовой последовательности (или нескольких последовательностей, между значениями в которых наблюдается корреляция). При этом могут учитываться имеющиеся тенденции (тренды), сезонность, другие факторы. Классическим примером является прогнозирование цен акций на бирже.

Тут требуется сделать небольшое отступление. По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Иногда в этом же случае говорят об управляемых алгоритмах интеллектуального анализа. Задачи классификации и регрессии относятся как раз к этому типу.

Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных. При этом обучающая выборка не требуется. В качестве примера можно привести задачу анализа потребительской корзины, когда в ходе исследования выявляются товары, чаще всего покупаемые вместе. К этому же классу относится задача кластеризации.

Также можно говорить о классификации задач интеллектуального анализа данных по назначению, в соответствии с которой, они делятся на описательные (descriptive) и предсказательные (predictive). Цель решения описательных задач - лучше понять исследуемые данные, выявить имеющиеся в них закономерности, даже если в других наборах данных они встречаться не будут. Для предсказательных задач характерно то, что в ходе их решения на основании набора данных с известными результатами строится модель для предсказания новых значений.

Но вернемся к перечислению задач интеллектуального анализа данных.

Задача кластеризации - заключается в делении множества объектов на группы (кластеры) схожих по параметрам. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.

Другое название этой задачи - сегментация. Например, интернет-магазин может быть заинтересован в проведении подобного анализа базы своих клиентов, для того, чтобы потом сформировать специальные предложения для выделенных групп, учитывая их особенности.

Кластеризация относится к задачам обучения без учителя (или "неуправляемым" задачам).

Задача определения взаимосвязей , также называемая задачей поиска ассоциативных правил , заключается в определении часто встречающихся наборов объектов среди множества подобных наборов. Классическим примером является анализ потребительской корзины, который позволяет определить наборы товаров, чаще всего встречающиеся в одном заказе (или в одном чеке). Эта информация может потом использоваться при размещении товаров в торговом зале или при формировании специальных предложений для группы связанных товаров.

Данная задача также относится к классу "обучение без учителя".

Анализ последовательностей или сиквенциальный анализ одними авторами рассматривается как вариант предыдущей задачи, другими - выделяется отдельно. Целью, в данном случае, является обнаружение закономерностей в последовательностях событий. Подобная информация позволяет, например, предупредить сбой в работе информационной системы, получив сигнал о наступлении события, часто предшествующего сбою подобного типа. Другой пример применения - анализ последовательности переходов по страницам пользователей web-сайтов.

Анализ отклонений позволяет отыскать среди множества событий те, которые существенно отличаются от нормы. Отклонение может сигнализировать о каком-то необычном событии (неожиданный результат эксперимента, мошенническая операция по банковской карте …) или, например, об ошибке ввода данных оператором.

В таблице 1.1 приведены примеры задач интеллектуального анализа данных из различных областей.

Таблица 1.1. Примеры применения интеллектуального анализа данных

Информационные технологии

Торговля

Финансовая сфера

Классификация

Оценка кредитоспособности

Регрессия

Оценка допустимого кредитного лимита

Прогнозирование

Прогнозирование продаж

Прогнозирование цен акции

Кластеризации

Сегментация клиентов

Сегментация клиентов

Определения взаимосвязей

Анализ потребительской корзины

Анализ последовательностей

Анализ переходов по страницам web-сайта

Анализ отклонений

Обнаружение вторжений в информационные системы

Выявление мошенничества с банковскими картами

Сегодня количество фирм, предлагающих продукты ИАД, исчисляется десятками, однако, не рассматривая их подробно, приведем лишь классификацию процессов ИАД, применяющихся на практике.

В системах ИАД применяется чрезвычайно широкий спектр математических, логических и статистических методов: от анализа деревьев решений (Business Objects) до нейронных сетей (NeoVista). Пока трудно говорить о перспективности или предпочтительности тех или иных методов. Технология ИАД сейчас находится в начале пути, и практического материала для каких-либо рекомендаций или обобщений явно недостаточно.

Необходимо также упомянуть об интеграции ИАД в информационные системы. Многие методы ИАД возникли из задач экспертного анализа, поэтому входными данными для них традиционно служат "плоские" файлы данных. При использовании ИАД в СППР часто приходится сначала извлекать данные из Хранилища, преобразовывать их в файлы нужных форматов и только потом переходить собственно к интеллектуальному анализу. Затем результаты анализа требуется сформулировать в терминах бизнес-понятий. Важный шаг вперед сделала компания Information Discovery, разработавшая системы OLAP Discovery System и OLAP Affinity System, предназначенные специально для интеллектуального анализа многомерных агрегированных данных .

интеллектуальный анализ данные прогнозирование

Заключение

Интеллектуальный анализ данных (ИАД, data mining, KDD - knowledge discovery in databases) представляет собой новейшее направление в области информационных систем (ИС), ориентированное на решение задач поддержки принятия решений на основе количественных и качественных исследований сверхбольших массивов разнородных ретроспективных данных.

Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения, не говоря уже о предупреждении критических ситуаций. «Интеллектуальный анализ данных» извлечь максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. Помогает сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами. Помогает строить алгоритмы, способные обучаться принятию решений в различных профессиональных областях.

Средства «Интеллектуального анализа данных» предохраняют людей от информационной перегрузки, перерабатывая оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужные времена.

Прикладные разработки ведутся по следующим направлениям: прогнозирование в экономических системах; автоматизация маркетинговых исследований и анализ клиентских сред для производственных, торговых, телекоммуникационных и Интернет-компаний; автоматизация принятия кредитных решений и оценка кредитных рисков; мониторинг финансовых рынков; автоматические торговые системы.

Список литературы

1. Тельнов Ю.Ф. Интеллектуальные информационные системы в экономике. М. СИНТЕГ 2002. 306 с.

2. Дюк В., Самойленко А. Data Mining. Издательский дом "Питер". СПб, 2001.

3. Васильев В.П. Информационно-аналитические системы. Практикум на ПК.МФ МЭСИ -2007.

Мы уже указывали на существование «родства» между экспертными системами и теорией искусственного интеллекта. Эта отрасль современной науки, в свою очередь «отпочковалась» от кибернетики и постоянно подпитывается ее идеями, впрочем, теория систем искусственного интеллекта (ИИ) многими своими достижениями обогатила кибернетику. Но кибернетика рассматривает процессы управления и в искусственных, и в естественных системах, в то время, как теория ИИ «вынужденно» исследует естественные системы, поскольку ставит перед собой цель создания «мыслящей» искусственной системы.

При проектировании систем искусственного интеллекта их создатели исходят из соображений, что «способ мышления» системы искусственного интеллекта не обязательно должен копировать способ мышления человека и строение его «мыслительного инструмента». Однако, как бы ни далеки по своему устройству были системы искусственного интеллекта от систем естественных, они вынужденно копируют и используют те закономерности мыслительной деятельности, которые были открыты человеком.

Основное отличие экспертных систем от систем искусственного интеллекта заключается в том, что экспертные системы используют (а иногда и логически достраивают) совокупность знаний, полученных от экспертов, но сами не способны создать нового знания. Новое знание может появиться только при условии, что система располагает комплектом средств сбора информации, может управлять им, способна к самообучению, самоорганизации, а также различает «полезное» и «вредное» для нее или ее пользователя, а экспертные системы в классическом варианте такими способностями не наделяются.

Системы же искусственного интеллекта, как правило, обладают всеми этими способностями или их частью. Благодаря этому, системы ИИ способны выявлять отклонения от текущего эталона, накапливать «черновые» гипотезы и через цепь обратной связи устанавливает их статус и полезность. Цепь обратной связи может быть реализована в виде некоторого вспомогательного инструментального комплекса, реализованного на иных чувствительных элементах, нежели основной комплекс сбора информации, либо представлен учителем, «объясняющим» системе, «... что такое «хорошо» и что такое «плохо». В качестве такого учителя часто выступает человек, снабжающий интерпретантой тот признак, который был выявлен системой ИИ.



Специалисты в области теории систем ИИ сходятся в мнении, что активность и относительная автономность отдельных подсистем системы искусственного интеллекта способна существенно повысить их эффективность и надежность выводов. Активно развивается направление автономных интеллектуальных агентов - автономных подсистем, наделенных автоматными реакциями на некий комплекс однотипных раздражителей. Поведение таких подсистем по отдельности невозможно назвать интеллектуальным, однако, будучи объединены в комплекс, они оказываются в состоянии обеспечить систему более высокого уровня информацией, необходимой для выработки решения о ситуации и степени ее «полезности» для системы в целом. Такая система обычно строится по иерархическому принципу и располагает сведениями о ценности тех или иных ресурсов, важности удержания значений критических параметров в заданных диапазонах и т. д. - то есть, теми сведениями относительно которых принимается решение о семантике нового признака.

В рамках теории ИИ можно выделить два мощных направления: логическое направление и направление нейронных и нейроподобных сетей.

Логическое направление теории систем искусственного интеллекта основной упор делает на симбиоз логического аппарата и аппарата теории вероятностей. Основное отличие логических систем ИИ от логических экспертных систем состоит в том, что на основе анализа показателей, используемых для вычисления функции полезности (именно с таких позиций осуществляется интерпретация тех или иных состояний и процессов), система способна самостоятельно корректировать аксиоматику: осуществлять ранжирование аксиом, удалять или вводить новые аксиомы. В принципе такая система в состоянии как развиваться, так и деградировать, однако то, какие именно тенденции будут развиты системой, во многом определяется тем, как на этапе синтеза системы была определена функция полезности.

Серьезнейшим недостатком логических систем ИИ является то, что алгоритмы логических рассуждений трудно поддаются распараллеливанию, если на каком-то этапе и удается выделить несколько относительно независимых логических операций и производить их исчисление разными решателями, то в некоторой точке алгоритм, как правило, сходится. А это значит, что наиболее «долгая» ветвь алгоритма будет определять быстродействие системы в целом. С целью сокращении вычислительных затрат изыскиваются методы логического вывода, задачей которых является установление факта нецелесообразности производства дальнейших вычислений. Однако, несмотря на эти ухищрения, объемы вычислений и быстродействие решателя остаются узким местом логических систем ИИ.

Направление систем искусственного интеллекта на базе нейронных и нейроподобных сетей «ближе к природе»: если логика - это порождение человеческого интеллекта, формальная система, выведенная на основе научного обобщения закономерностей человеческого мышления, то нейронные и нейроподобные сети - это попытка сымитировать не процесс мышления, а «процесс чувствования». В основе построения таких систем лежит принцип действия нейрона и нейронной сети, имитирующей строение центральной нервной системы человека.

Для начала разберемся с тем, что представляет собой нейрон... Нейрон - это нервная клетка, состоящая «... из довольно крупного (до 0,1 мм) тела, от которого отходят несколько отростков - дендритов, дающих начало все более и более тонким отросткам, подобно ветвям дерева. Кроме дендритов, от тела нервной клетки отходит еще один отросток - аксон, напоминающий длинный тонкий провод. Аксоны бывают очень длинны - до метра - и заканчиваются, подобно дендритам, древовидным разветвлением. На концах веточек, отходящих от аксона, можно видеть маленькие пластинки или луковички. Луковички одного нейрона близко подходят к различным участкам тела или дендритов другого нейрона, почти прикасаясь к ним. Эти контакты носят название синапсов; через них нейроны взаимодействуют друг с другом. Число луковичек, подходящих к дендритам одного нейрона, может исчисляться десятками и даже сотнями. Таким образом, нейроны очень тесно связаны друг с другом; они образуют нервную сеть«. Если не вникать в тонкости, то можно сказать, что нейроны могут пребывать только в двух состояниях: возбужденном состоянии или в покое. При возбуждении на поверхности клетки образуется электрический потенциал, который передается через синапсы других нервных клеток и либо переводит, либо не переводит их в состояние возбуждения. Поэтому исходят из допущения, что нервная сеть - это дискретная система, состоящая из элементарных подсистем - нейронов, способных пребывать в одном из двух состояний. Такой взгляд на нейронную сеть, как иерархически организованную совокупность однотипных элементов со сложным поведением позволяет говорить о том, что это инструмент параллельной обработки данных, в различных сочетаниях поступающих от различных источников. Нейроны обладают способностью к обучению, заключающейся в том, что «проводимость синапса увеличивается после первого прохождения через него возбуждения и нескольких следующих прохождений«. В результате этого повторяющиеся комбинации «данных» обучают сеть - настраивая ее на восприятие и распознавание образов ситуации (сэмплов). Как следствие, нейронная сеть, получающая данные об обстановке, поступающие от органов чувств, а также данные о внутреннем состоянии и взаимном расположении частей организма, оказывается в состоянии распознавать множество самых разнообразных состояний. Теперь задача состоит в том, чтобы получить данные, подтверждающие полезность запоминания распознанного сэмпла, что требует от системы определенных логических способностей...

Может показаться, что нейронная сеть без принципиально иной по организации системы обработки логической компоненты, отражающей топологию отношений во времени, пространстве, организационной иерархии или пространстве некой конструкции, пригодна лишь для решения задач распознавания. Но, судя по результатам исследований в области нейрофизиологии, в организме человека отсутствуют специализированные «логические клетки» - то есть, все эти операции реализуются именно на нейронных структурах, которые обладают большой информационной емкостью. Приняв некоторые упрощения, можно утверждать, что многообразие пространственных отношений выражено в терминах временных задержек реакции отдельных нейронов, инерционности отдельных связей нейронной сети. Эти характеристики также являются предметом «запоминания» и учитываются при выработке адаптивного поведения организма. Однако эта способность требует от человека способности абстрактного («знакового») мышления - введения еще одного уровня иерархии, обеспечивающей возможность оперировать информационно-емкими понятиями. Именно эта особенность - наличие второй сигнальной системы - и выделяет человека из числа прочих живых существ и обеспечивает ему возможность запоминания протяженных во времени событий и сценариев, ассоциированных с ними. То есть, логика становится доступной нашему пониманию, если введена знаковая система, запоминание правил которой дается легче, нежели запоминание всех конкретных признаков событий и вероятных путей их развития. Рассуждая логически, мы оперируем не образами ситуаций, а знаками, для запоминания которых требуются гораздо меньшие усилия.

Преимуществом нейронной или нейроподобной сети перед чисто логической системой искусственного интеллекта заключается в гибком сочетании параллельной и последовательной обработки информации, обусловленном иерархической структурой нейронной сети. Однако человеку свойственно оптимизировать свою деятельность - там, где удобнее воспользоваться неким инструментом, имеющимся в его распоряжении, он не станет искать пути применения того инструмента, который не приспособлен для выполнения работы. Пока нейроподобные сети (созданные на искусственных нейронах - перцептронах) и нейронные сети (созданные на нейронах, полученных у простейших организмов), как правило, на этапе манипулирования логической компонентой используют традиционную или несколько модифицированную логику, то есть, переходят от параллельной обработки данных к последовательной обработке. Хотя созданы и средства, которые, оперируя величинами инерционности нейронов, способны осуществлять логическую обработку без перехода к уровню знаковой системы. Сражение за быстродействие систем продолжается и, возможно, что через некоторое время мы станем свидетелями технологического прорыва в этом направлении, который приведет к созданию реальной системы параллельной обработки данных. Однако это не приведет к тому, что формальная логика утратит свои позиции в инструментарии аналитика - для решения каждой специфической задачи требуется свой, индивидуальный, набор инструментальных средств.

Где используются системы ИИ, построенные на нейронных и нейроподобных сетях? Приложений масса: от анализа финансовых котировок и мультисенсорных систем сбора информации до систем распознавания словоформ в компьютерной лингвистике, от систем декодирования помехоустойчивых кодов и криптообработки до систем производства приближенных вычислений - диапазон применения их крайне широк. Современная технология производства нейроподобных сетей уже миновала зачаточную стадию: созданы как аппаратные, так и программные реализации нейроподобных сетей, инструментарий их настройки и обучения, однако функция полезности пока задается извне, да иначе какой смысл в нейроподобных и нейронных сетях, которые сами решают, что им полезно, а что - нет (это все равно, что молоток, который сам решает: то ли ударить по теплому и мягкому пальцу, то ли по твердой и холодной шляпке гвоздя).

Как согласуется все то, что мы говорили о нейронных и нейроподобных сетях с моделями? Любая обученная нейронная или нейроподобная сеть - это по существу и есть модель, выступающая в роли образа ситуации ли, объекта ли - не суть важно. Поэтому можно сказать, что нейроинформатика и нейрокомпьютинг - это развитие идеологии моделирования в направлении дальнейшей автоматизации процесса (равно, как и все, что делается в отрасли искусственного интеллекта). По этой причине можно утверждать, что для аналитика, как потребителя результатов функционирования систем искусственного интеллекта, внутреннее устройство подобной системы непринципиально, хотя и нелишне знать, как устроен и работает тот инструмент, с помощью которого ты решаешь свои задачи.

Существуют ли примеры систем искусственного интеллекта, которые можно пощупать руками, не вставая из-за рабочего стола? Да, существуют и их, если приглядеться, - масса... Достаточно запустить компьютер, на котором установлена всем знакомая операционная система Microsoft Windows, как вы окажетесь в интеллектуальной среде, которая отслеживает массу событий, контролирует состояние множества запущенных процессов и способна выдавать рекомендации, направленные на стабилизацию параметров функционирования операционной системы и компьютера. Если у вас на компьютере установлена система автоматизированного перевода, то это еще один пример системы ИИ, если вы используете сканер и программу автоматического распознавания текста - вот вам и еще один пример. Этот список можно продолжить, однако, остановимся на еще одном приложении систем ИИ, особенно актуальной для касты аналитиков...

В последнее время наблюдается оживление рынка программного обеспечения, предназначенного для ведения интеллектуального анализа данных (в англоязычных источниках - Data Mining, т. е. «раскопка данных»). Для этого класса систем ИИ характерно комплексное использование методов, используемых в логических системах ИИ и нейрокомпьютинге, в сочетании с инструментарием статистического анализа данных и компьютерной лингвистики. Только по состоянию на начало 1999 года на американском рынке интеллектуального программного обеспечения было представлено свыше пятнадцати программных и программно-аппаратных комплексов, относящихся к этому классу. Безусловно, все эти системы нуждаются в обучении, профессиональной настройке и адаптации к предметной области, в которой предполагается их дальнейшее использование. В большинстве своем, они представляют собой системы искусственного интеллекта, ориентированные на решение задач анализа «абстрактных» типов данных (т. е. безотносительно к их семантике), интегрированные со сконфигурированными под потребности заказчика базами данных. Иным вариантом поставки систем data mining является вариант, предполагающий настройку и адаптацию системы искусственного интеллекта (собственно, инструмента Data Mining) под уже существующую подсистему хранения данных заказчика.

В любом варианте поставки по мере функционирования системы она выделяет некие скрытые закономерности в хранимых массивах данных (в том числе - корреляции временных рядов). Такие корреляции не всегда очевидны для аналитика, однако, для систем data mining числа - родная стихия. Системы data mining не имеют обыкновения забывать или упускать из внимания сколь бы то ни было «незначительные детали» и закономерности - это свойство делает их полезным инструментом информационно-аналитической работы.

Принцип функционирования систем интеллектуального анализа данных состоит в том, что на основе анализа потока данных, поступающих от разнообразных источников информации, формируется информационный образ неким образом интерпретируемой ситуации, который в ходе дальнейшей эксплуатации системы может быть «узнан», о чем и информируется потребитель. Отрасль, для которой создается такая система, на этапе разработки, в принципе, не существенна, поскольку важен лишь принцип формирования системы признаков и класс данных, на которые ориентирована данная система (количественные, качественные).

Адаптация к предметной области этого класса программного обеспечения заключается в том, что предметная область подлежит моделированию и описанию в виде совокупности измеримых атрибутов. Поведение этих атрибутов во времени неким (наперед неизвестным) образом характеризует состояние и поведение систем. С точки зрения исследователя интерес представляет именно то, каким образом наблюдаемые ситуации и тенденции отражаются в имеющемся наборе атрибутов, не существует ли неких признаков, характеризующих начальный период зарождения негативной или позитивной тенденции, скатывания к неким сценариям в развитии ситуации и т. п.

Еще раз заметим: системы data mining не работают напрямую с текстами произвольного формата и данными, которые не могут быть непосредственно сопоставлены . Максимум, что они «могут», если не располагают тезаурусом, характерным для данной предметной области - это работа со структурно-статистическими признаками и временными распределениями.

Если разобраться, то, на самом деле, такие системы могут оказаться полезными даже в случае отсутствия интепретанты у впервые проявившегося признака, поскольку системы интеллектуального анализа данных способны лишь акцентировать внимание аналитика на неких всплесках, по совокупности интегральных или частных показателей отличающих ситуацию от эталона нормы. Какую именно интерпретацию получат эти признаки - вопрос квалификации аналитика, поскольку задача систем интеллектуального анализа данных - это выделение сэмпла, но никак не снабжение его некой семантикой. Системы этого типа работают подобно периферийному зрению человека - они реагируют лишь на изменения (периферийное зрение человека обеспечивает только сигнализацию о перемещениях в «опасной» зоне, но за распознавание движущегося объекта оно не берется).

Обращают на себя внимание попытки вхождения на уровень таких, казалось бы, трудно формализуемых отношений, как политика. Подобные системы не пытаются подменить аналитика, взвалив на себя весь интеллектуальный процесс, связанный с формированием политической стратегии (социализацией идей), однако способны выступать в роли хорошего помощника, способного непредвзято оценить пользу от предпринятых политических шагов. Для того, чтобы система смогла стать таким помощником, пользователю нужно «разъяснить» автоматизированной системе преследуемые им цели и рассматриваемые способы достижения этих целей, «проинформировать» систему о тех политических силах, чьи интересы, следует учитывать при решении задачи, отношениях между вероятными политическими сторонниками и противниками, возможных препятствиях на пути достижения целей и вероятных причинах их возникновения. Лишь после этого встроенная экспертная система будет способна оказать пользователю помощь в разработке альтернативных вариантов стратегии достижения целей, сопоставить эти варианты, а также оценить результативность предпринятых политических шагов. Далее начинается работа, собственно, системы искусственного интеллекта, которая на основе поставляемых ей данных (отклики прессы, рейтинги, результаты голосования и т. д.) предпримет попытки оценивания результативности целенаправленной деятельности. По результатам работ обычно предоставляется набор графиков, текстов и диаграмм, обеспечивающих возможность системного видения проблемы и путей ее решения.

Доступным примером, на котором можно испытать возможности такого рода систем, может служить распространяемая на основе лицензии Shareware «облегченная» версия программного обеспечения PolicyMaker Lite (PoliMap, США, http://www.polimap.com). Данный программный продукт специально разработан для ведения политического анализа и позволяет оценивать расстановку действующих политических сил при осуществлении политической активности (например, при продвижении законодательных инициатив, ведении внутрипартийной борьбы или в ходе выборов). И хотя в этой системе (по крайней мере, в той демонстрационной версии, которая предлагается на пробу заинтересованным лицам) явно перевешивает блок экспертных знаний, ознакомление с ней может оказаться весьма поучительным.

Назвать такие системы разумными нельзя, но на звание электронного интеллектуального помощника они вполне могут претендовать. Часто по своим функциями системы этого типа занимают позицию между инструментальными средствами формального моделирования и средствами активизации мыслительной деятельности.

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных» (ИАД).

ИАД включает методы и модели статистического анализа и машинного обучения , дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.

Задачи, решаемые ИАД

  1. Классификация - отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
  2. Кластеризация - разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
  3. Сокращение описания - для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
  4. Ассоциация - поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя» (англ. market basket analysis ) - вместе с пивом часто покупают орешки.
  5. Анализ отклонений - Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
  6. Визуализация

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые три. Остальные задачи сводятся к ним тем или иным способом.

Также можно использовать сводные задачи под основу

Алгоритмы обучения

Для задач классификации характерно «обучение с учителем », при котором построение (обучение) модели производится по выборке содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя », при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы . Начиная с классических работ К. Пирсона по методу главных компонент , основное внимание здесь уделяется аппроксимации данных.

Этапы обучения

Можно выделить типичный ряд этапов решения задач методами ИАД:

  1. Формирование гипотезы;
  2. Сбор данных;
  3. Подготовка данных (фильтрация);
  4. Выбор модели;
  5. Подбор параметров модели и алгоритма обучения;
  6. Обучение модели (автоматический поиск остальных параметров модели);
  7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
  8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

См. также

Литература

  • Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+ СD). . - СПб: Изд. Питер, 2009. - 624 с.
  • Айвазян С.А., Бухштабер В.М., Енюков Е.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности . - М.: Финансы и статистика, 1989. - 608 с.
  • Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. - СПб: Изд. Питер, 2001. - 368 с.
  • Журавлёв Ю.И. , Рязанов В.В., Сенько О.В. "РАСПОЗНАВАНИЕ.Математические методы.Программная система.Практические применения", к книге прилагается компакт-диск с демоверсией программной системы «РАСПОЗНАВАНИЕ» . - М.: Изд. «Фазис», 2006. - 176 с. - ISBN 5-7036-0106-8
  • Зиновьев А. Ю. Визуализация многомерных данных . - Красноярск: Изд. Красноярского государственного технического университета, 2000. - 180 с.
  • Чубукова И. А. Data Mining: учебное пособие . - М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. - 382 с. - ISBN 5-9556-0064-7

Ссылки


Wikimedia Foundation . 2010 .

Смотреть что такое "Интеллектуальный анализ данных" в других словарях:

    В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете отредактировать эту статью, добавив ссылки на авторитетные источники. Эта отметка… … Википедия

    Топологический анализ данных новая область теоретических исследований для задач анализа данных (Data mining) и компьютерного зрения. Основные вопросы: Как из низкоразмерных представлений получать структуры высоких размерностей; Как… … Википедия

    Процесс получения высококачественной информации из текста на естественном языке. Как правило, для этого применяется статистическое обучение на основе шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных… … Википедия

    интеллектуальный учет электроэнергии - [Интент] Учет электроэнергии Понятия «интеллектуальные измерения» (Smart Metering), «интеллектуальный учет», «интеллектуальный счетчик», «интеллектуальная сеть» (Smart Grid), как все нетехнические,… … Справочник технического переводчика

    У этого термина существуют и другие значения, см. Капитал (значения). Эта статья должна быть полностью переписана. На странице обсуждения могут быть пояснения … Википедия

    Обычный агент … Википедия

    Интеллектуальный анализ данных (англ. Data Mining) выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Подразделяется на задачи классификации, моделирования и прогнозирования и другие.… … Википедия

    Для улучшения этой статьи по математике желательно?: Проставив сноски, внести более точные указания на источники. Исправить статью согласно стилистическим правилам Википедии. Переработать офо … Википедия

    Мониторинг сетей целенаправленное воздействие на сеть, осуществляемое для организации ее функционирования по заданной программе: включение и отключение системы, каналов передачи данных, терминалов, диагностика неисправностей, сбор… … Википедия

    Не следует путать с Извлечение информации. Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее… … Википедия

Книги

  • Интеллектуальный анализ данных в системах поддержки принятия решений. Моделирование слабоструктурированных временных рядов и нечеткая оценка инвестиционных проектов , Рамин Рзаев. Эта книга будет изготовлена в соответствии с Вашим заказом по технологии Print-on-Demand. Предлагаемая читателю книга посвящена решению проблем, направленных на разработку методов и…
Поделиться: