Аналитика: методология, технология и организация информационно-аналитической работы - Юрий Курносов
Шрифт:
Интервал:
Закладка:
С другой стороны, следует понимать, что хранилища данных также используют и объектную идеологию, однако на уровне доступа к макроресурсам, а не отдельным записям баз данных. Основная их задача — организация прозрачного доступа к данным, размещенным в БД, функционирующих под управлением различных СУБД (в том числе, и таких, которые реализованы в соответствии с разными парадигмами). По существу, хранилище данных — это система более высокого уровня, нежели база данных, такая система могла бы назваться базой баз данных. В нем (в хранилище) содержатся объектные описания правил манипулирования информационными объектами включенных в хранилище БД, а также метаданные, описывающие систему логических отношений между объектами учета и их атрибуты.
Использование хранилищ данных в качестве надстройки над системой взаимосвязанных баз данных позволяет преодолеть ограничения парадигм частных СУБД за счет введения систем параллельного учета, разделения объектов учета между СУБД, наилучшим образом приспособленными к решению тех или иных задач, связанных с хранением и анализом данных.
Информационные ресурсы распределенных телекоммуникационных сетейТаким образом, мы логично переходим к технологии распределенного хранения данных с централизованным управлением на основе единой политики информационной безопасности, единого интерфейса доступа и отображения информации на базе распределенных телекоммуникационных сетей. Это идеальный вариант, предполагающий, что все информационные ресурсы принадлежат единой организационной системе, в которой реализованы корпоративные стандарты представления данных и организации информационного взаимодействия. Но существует и иной вариант организации корпоративного информационного ресурса и именно этот вариант на сегодня является наиболее распространенным…
Противоположность идеалу организации корпоративного информационного ресурса являет дезинтегрированный информационный ресурс распределенных телекоммуникационных сетей, образующийся в результате стихийного процесса генерации информации множеством организационно не связанных индивидов. Примером такого варианта хранения данных является ГСТК Интернет. В такой системе особую важность представляют процедуры мониторинга ресурсов их индексации и систематизации. Неслучайно в Интернет существует такое обилие информационно поисковых серверов, предоставляющих различные поисковые интерфейсы.
Такое специфическое информационное пространство живет по законам самоорганизации сложных систем: динамично возникающие и распадающиеся группы и сообщества энтузиастов, более стабильные корпоративные ресурсы профессиональных и научных сообществ, представительские порталы крупных коммерческих и государственных учреждений — все эти ресурсы принципиально не могут быть исполнены в соответствии единым правилам. Единообразие присутствует лишь на уровне группы телекоммуникационных стандартов — остальное же обусловлено неповторимостью сочетания целей, задач и ситуации, в которой пребывают лица и организации, предоставляющие в общее пользование принадлежащие им ресурсы.
Тем не менее, возникновение некоторой группы (пусть даже временной) приводит к выработке если не стандарта, то, хотя бы, некоторого корпоративного стиля. Здесь могут вырабатываться некие правила формализации данных, их логической и физической организации. Темпы пополнения и модификации ресурсов варьируются в широчайших пределах. Как следствие, при сборе информации, а по сути — обслуживании такого неструктурированного хранилища данных, основной упор делается на технологии, экономно использующие ресурсы полосы пропускания каналов связи и ресурсы производительности машины, осуществляющей сбор информации. Представьте себе, что бы стало, если бы на вашем компьютере одновременно запустилось несколько сотен вычислительных процессов, которые, используя канал связи, стали бы загружать из сети на ваш компьютер доступные файлы, выполнять статистические расчеты для составления индексных таблиц, после чего стирать загруженные по каналам связи файлы. Сюрреализм, да и только… при такой технологии каналы связи были бы перегружены запросами поисковых серверов. Поэтому поисковые программы (именуемые поисковыми роботами) исполняются непосредственно на тех компьютерах, на которых расположены ресурсы, которые требуется проиндексировать. Процесс отправки инициируется на поисковом сервере, код программы-робота направляется на удаленный компьютер, там под управлением его операционной системы запускается на исполнение, а результат обработки направляется на поисковую машину. Правда, некоторые поисковые машины в часы спада нагрузки все же выполняют процедуры загрузки файлов из сети с последующим их сохранением в своей подсистеме хранения.
Следует заметить, что такие разобщенные ресурсы не являются исключительным атрибутом больших телекоммуникационных сетей. Они присутствуют и в большинстве сетей масштабов организации — отсутствие дисциплины информационной работы приводит к дестандартизации представления данных, нарушению корпоративной информационной политики, что чаще всего бывает вызвано несовершенством схемы и технологии информационной работы в организации и низкой квалификацией сотрудников. Характерно, что вирусным атакам чаще всего подвергаются именно эти — неорганизованные ресурсы. К сожалению, должностные лица, в ведении которых находятся вопросы соблюдения информационной политики организации, редко вспоминают о феномене существования дезинтегрированного информационного ресурса (откуда, мол, ему быть в локальной вычислительной сети). В результате из-за напластований фрагментов и версий документов происходит снижение темпов деловых процессов, прекращается пополнение корпоративных информационных ресурсов, что приводит к снижению эффективности информационной работы в целом.
Возникновение и рост дезинтегрированного информационного ресурса в малой организации является тревожным симптомом — он говорит о снижении квалификации, отсутствии трудовой дисциплины, неудобстве или устаревании автоматизированных систем поддержки информационной работы или снижении доверия к надежности подсистемы хранения данных. Поэтому в локальной вычислительной сети организации также целесообразно проводить периодическое сканирование рабочих мест на предмет индексации локальных ресурсов, устранения дублирования, а также выявления узких мест в организации и технологическом обеспечении информационной работы.
Базы знаний и моделейОсобый класс систем хранения данных представляют собой базы знаний и моделей. Если до обращения к тематике объектных и объектно-реляционных баз данных речь шла преимущественно о структурной декомпозиции объектов описания и выделении статических атрибутов, то базы знаний и моделей помимо этих аспектов выделяют и временной аспект функционирования систем и объектов учета. Этот класс систем хранения данных ориентирован на хранение данных о логике причинно-следственных отношений, функциональных зависимостях и иных параметров, в той или иной степени связанных с временем.
Основная задача баз знаний и баз моделей — хранение логически организованной информации, обеспечивающей возможность с применением логического аппарата и системы аксиом различного рода сформулировать вывод о состоянии, тенденции или характеристиках процесса. При этом аксиомы, хранимые в базе знаний или базе моделей, могут носить как характер абсолютных утверждений, так и вероятностных суждений относительно некоторых сущностей и процессов, иметь общую значимость или быть истинными лишь для некоторого класса начальных условий.
Существуют разные подходы к построению баз знаний. Наиболее типичными подходами (моделями представления знаний) являются логические, сетевые, продукционные и фреймовые модели.
Логические модели представления знаний формируются из следующих компонентов:
— множество базовых терминов (например, имен объектов, действий и т. п.);
— множество аксиом (синтаксически и семантически корректных высказываний из базовых терминов);
— множество методов вывода из множества аксиом синтаксически и семантически корректных высказываний;
— множество методов соотнесения терминов с входными терминами;
— множество методов построения синтаксически корректных высказываний из терминов;
— множество методов установления факта принадлежности синтаксически корректных высказываний к множеству синтаксически и семантически корректных высказываний.
Сетевые модели представления знаний формируются из следующих компонентов: