6.3.        Информационные хранилища

Использование баз данных на предприятии не дает желаемого ре­зультата. Причина проста: реализованные функции значительно отличаются от функций ведения биз­неса, так как данные, собранные в базах, не адекватны информации, кото­рая нужна лицам, принимающим решения. Решением данной проблемы стала реализация технологии информационных хранилищ.

Информационное хранилище (data warehouse) – автоматизи­рованная система, которая собирает данные из баз и внеш­них источников, формирует, хранит и эксплуатирует информацию как еди­ную. Оно обеспечивает инструментарий для преобразования больших объ­емов детализированных данных в форму, которая удобна для стратегиче­ского планирования и реорганизации бизнеса и необходима специалисту, ответственному за принятие решений. При этом происходит «слияние» из разных источников различных сведений в требуемую предметно-ориентированную форму с использованием различных методов анализа.

Особенность новой технологии в том, что она, предлагает среду на­копления данных, которая не только надежна, но и оптимальна по доступу к данным и манипулированию ими.

Для данных информационного хранилища характерны:

ü предметная ориентация;

ü интегрированность; данные согласуются с определенной системой наименований, могут принадлежать различным источникам и иметь разные формы представления;

ü упорядоченность во времени; данные согласуются во времени для использования в сравнениях, трендах и прогнозах;

ü неизменяемость и целостность; данные не обновляются и не изменяются, а только перезагружаются и считываются.

Использование метабазы для описания и управления данными, опе­рации суммирования для уменьшения объема данных увеличивают ско­рость доступа к данным, позволяя руководителю быстро получить обзор ситуации или в деталях рассмотреть нужный предмет. При этом обеспечи­вается секретность данных, предназначенных различным уровням руково­дителей. Метабаза содержит метаданные, которые описывают, как устроены данные, частоту изменения, откуда приходят существенные части данных (разрешаются ссылки на распределенные базы данных на разных платформах), как они могут быть использованы, кто может пользоваться данными. Управленческому персоналу метабаза предлагает предметно-ориентированный подход, показывая, какая информация имеется в наличии, как она получена, как может быть использована. Приложениям метабаза обеспечивает интеллектуальный выбор требуемой им информации.

В информационных хранилищах используются статистические технологии, генерирующие «информацию об информации»; процедуры суммирования; методы обработки электронных документов, аудио-, видеоинформации, графов и географических карт. Для уменьшения размера информационного хранилища до минимума при сохранении максимального количества информации применяются эффективные методы сжатия данных.

Для преобразования данных из хранилища в предметно-ориентированную форму требуются языки запросов нового поколения – язык SQL не обеспечивает выборку требуемых данных из хранилища. Руководителям предприятия данные доступны посредством SQL-запросов, инструментов создания интерактивных отчетов на экране, более развитых систем поддержки принятия решений, многомерного просмотра данных посредством гипертекстовой технологии.

Для хранения данных обычно используются выделенные серверы, или кластеры серверов (группа накопителей, видеоустройств с общим контроллером). В последнее время появилось много оптических устройств хранения данных с высокой емкостью. Среди них можно выделить CD-RОМ (оптические диски только для чтения), СD-R, CD-RW, МО (магнитооптические диски стираемые и перезаписываемые), оптические библиотеки (позволяют вручную менять диски в дисководах), библиотеки-автоматы (смена дисков производится автоматически, так на­зываемая технология Jukebox).

Для доступа и размещения данных на таких устройствах разработано много файловых систем. Из них можно выделить Hierarchical Storage Management (HSM), реализующую функции иерархического хранилища и миграции данных (Data Migration). HSM-система создает как бы «продолжение» дискового пространства файлового сервера, доступного приложениям. При конфигурации HSM указывается, какая часть пространства сервера отводится для обмена с библиотеками. Как только это пространство становится занятым и требуется подкачка данных, из библиотеки реализуется миграция данных. Наименее используемые файлы переносятся в библиотеку-автомат, а из последней перекачиваются на сервер требуемые файлы. Если приложение потребует обращения к «унесенному» файлу, HSM попросит приложение подождать, пока не вернет файл на сервер. Все перемещения выполняются автоматически, и приложе­ния не подозревают о наличии вторичных устройств хранения.

Для доступа к серверам и их взаимосвязи требуются технологии, удовлетворяющие следующим условиям:

ü малая задержка. Хранилища данных порождают два типа графика. Пер­вый содержит запросы пользователя, второй – ответы. Для формирова­ния ответа требуется время. Но так как число пользователей велико, время ответа становится неопределенным. Для обычных данных она не существенна, а для мультимедийных – существенна;

ü высокая пропускная способность. Так как данные могут находиться в разных базах, требуется синхронизация при формировании ответа, тем более, что рассмотренные базы могут находиться на значительных рас­стояниях друг от друга, поэтому для обеспечения сбалансированной на­грузки требуется скорость передачи не менее 100 Мбит/с;

ü надежность. При работе с кластерами серверов интенсивный обмен дан­ными требует, чтобы вероятность потери пакета была очень мала;

ü возможность работы на больших расстояниях. Если серверы кластера удалены друг от друга, то требуется технология, обеспечивающая пере­дачу со скоростью 100 Мбит/с на расстояние не менее 1 км.

Всем этим требованиям удовлетворяет АТМ-технология, хотя рас­пространены и по многим показателям дают хорошие результаты технологии Fast Ethernet, Fibre Channel и др.

Примером информационного хранилища может служить Oracle VLM, разработанная фирмами Oracle и Digital. Платформой является Digital Unix для 64-разрядной архитектуры Digital AXP, преодолевшей на аппаратном уровне 4-х гигабайтовый барьер адресного пространства оперативной памяти. Платформы AlphaServer 8200 и AlphaServer 8400 уже сейчас позволяют адресоваться к оперативной памяти емкостью 14 ГБ, и планируется расширить эту границу за 50 ГБ. Вторая базовая операционная система фирмы Digital Open называется VMS 7.0.

В информационном хранилище Oracle VLM увеличился объем кэш-памяти (быстродействующей памяти) для обмена с сервером базы данных, что сократило время обращения к диску с миллисекунд до микросекунд. Например, «маленькая» база данных объемом 5 ГБ целиком загружается в кэш-память. Поскольку кэш-память базы данных является частью системной области памяти SGA, Oracle VLM фактически снимает ограничения на ее размер и оперирует с большой системной областью памяти LSGA.

Увеличился максимальный размер обрабатываемого блока базы данных до 32 Кбайт, Обычно он равнялся 2 Кб, а максимальный – 8 Кб. Обрабатываемый блок базы данных содержит управляющую часть (заголовок) и собственно данные. Если данные (графика, аудио-, ви­деоданные, изображения) не помещаются в блок целиком, строится цепоч­ка блоков.

Использование информационных хранилищ дает существенный вы­игрыш по производительности в системах принятия решений, в системах обработки большого числа транзакций с большим объемом обновления.

Технологию VLM можно рассматривать как альтернативу использо­ванию SMP (мультипроцессорных систем), получая выигрыш в производи­тельности.

Корпорация Red Brick Systems (Лос-Гатос, штат Калифорния) выпустила Red Brick Warehouse 5.0 – информационное хранилище, имеющее средства оперативной аналитической обработки информации, поддержки принятия решений и многомерных баз данных. Поддерживается обработка SQL-запросов. Кроме того, разработано специальное расширение языка SQL, получившее название RISQL, ориентированное на организацию анализа деловой информации. Обеспечен графический интерфейс для работы с приложениями Windows NT. Посредством программного компонента Data Mine Builder, разработанного в компании Data Mine (Редвуд-Сити, штат Калифорния), обеспечиваются поиск закономерностей, выявление взаимозависимостей, а также другие аналитические операции, очень крупных массивов данных для множества одновременно работающих пользователей.