Средства работы с данными

В связи с увеличением масштабов хранения и обработки дан­ных система управления данными становится в ряд центральных ресурсов информационной системы. Формирование структур данных уже давно осуществляется в среде той или иной стандар­тной системы управления базами данных (СУБД). В развитых и масштабных ИС выбор СУБД является задачей примерно той же значимости, что и выбор ОС, а переход системы на другую СУБД может быть трудным.

Идеальных СУБД нет и быть не может: все они имеют как сильные стороны, так и слабые. Крупная база данных создается не на один год, поэтому выбор СУБД серьезными заказчиками осуществляется, как правило, в результате тестирования различ­ных вариантов с учетом характера задач формирования струк­тур и обработки данных, требований защищенности и т.п.

Одной из важнейших характеристик СУБД является модель данных. Теоретически любую информацию можно представить в виде реляционной модели. Эта модель имеет наиболее прора­ботанные математическое основание и стандарты. Кроме того, реляционная модель данных отличается большой гибкостью от­носительно изменения структуры данных. Это, безусловно, наи­более распространенная сейчас модель данных. С другой сторо­ны, существует немало задач, которые более эффективно реша­ются средствами других моделей. В частности, автоматизация новых областей бизнеса уже поставила задачу поддержки объек­тно-ориентированного подхода.

Существует уже достаточно широкий набор объектно-ориен­тированных систем:

· одной из основных является Oracle8 компа­нии Oracle;

· компания Informix утверждает, что по функциональ­ным возможностям ее Dynamic Server ненамного отличается от Oracle;

· в свою очередь, Sybase реализует объектно-ориентиро­ванные возможности в своей схеме баз данных, хотя ее Adaptive Server Enterprise предлагает лишь некоторые из функций, имею­щихся в Oracle8;

· компания IBM обеспечивает те же функциональ­ные возможности в версии своей DB2 и перенесла эту новую вер­сию СУБД и на самый массовый бизнес-компьютер AS/400;

· Microsoft SQL Server по уровню объектно-реляционной поддер­жки явно отстает от других ведущих реляционных баз данных;

· Computer Associates предлагает Jasmine, объектно-ориентирован­ную базу данных, призванную свести на нет противоречия между реляционными данными и объектно-ориентированными прило­жениями.

Непрерывно совершенствуясь, системы хранения данных ста­новятся все более емкими, дешевыми и надежными. Клиенты ста­новятся все более требовательными в отношении, как данных, так и технологий работы с ними. Им нужны средства для доступа к большим объемам данных, а также возможность быстрого поис­ка в сверхбольших объемах данных, содержащих, например, все сведения о деятельности компании за добрый десяток лет. Как следствие, возникла технология хранилищ информации (Data Warehouse), которая представляет собой самостоятельную об­ласть ИТ. В ее основе лежит идея создания централизованной и всеобъемлющей корпоративной базы данных, главное предназ­начение которой – информационное обеспечение систем поддер­жки принятия решений руководителями предприятий.

По замыслу автора идеи создания хранилищ У. Инмона (W. Inmon), такая база данных должна отвечать следующим тре­бованиям:

· во-первых, оно должно ориентироваться на предметную область, а не на приложения, которые будут работать с данными;

· во-вто­рых, хранилище должно содержать интегрированную информа­цию, полученную на основе данных из множества источников; необходимо проводить проверки на непротиворечивость, целос­тность и т.д.;

· в-третьих, база данных хранилища должна быть оптимизирована, прежде всего для операций поиска и чтения: дан­ные, пройдя обработку и попав однажды в хранилище, остаются там на долгие годы, причем изменения в данных не предполага­ются;

· в-четвертых, оборудование, предназначенное для хранения данных, должно иметь высокую надежность.

На основе концепции хранилищ данных строится схема их включения в корпоративную ИС. По одну сторону от хранилищ данных остаются источники информации, в качестве которых обычно выступают стандартные системы оперативной обработ­ки транзакции (On-Line Transaction Processing, OLTP). По дру­гую – приложения-потребители, прежде всего системы оперативной аналитической обработки данных (On-Line Analytical Processing, OLAP). Потребителями информации являются в ос­новном ОLAP-системы. Для оптимизации работы, как хранилищ данных, так и OLAP-систем создаются так называемые витрины (или киоски) данных (Data Marts) – промежуточные базы дан­ных, содержащие выборку из хранилища, создаваемую специально для конкретных приложений. Полноразмерная работа в струк­туре хранилища называется Data Mining (разработка данных – по аналогии с разработкой полезных ископаемых).

Функционирование собственно хранилища данных обеспечи­вается на основе достаточно мощных СУБД компаний Oracle, Informix, Sybase, NCR, IBM и др. Реализация хранилищ данных представляет собой достаточно сложную технологию: это есте­ственно, когда приходится оперировать сотнями гигабайтов и терабайтами данных. Они обычно строятся следующим образом. Для сбора и предварительной обработки данных от систем-ис­точников выделяют один или несколько относительно неболь­ших серверов на базе ОС UNIX или NT. В качестве главного сер­вера СУБД хранилища используются мощные ПК (менее 3 Гбайт), мощные UNIX-компьютеры (3 – 25 Гбайт), мейнфреймы (25 – 400 Гбайт) или даже суперЭВМ при объеме данных более 400 Гбайт, которые считаются уже уникально большими. Собственно дан­ные хранятся в избыточных массивах дисковых накопителей RAID, соединенных с сервером СУБД с помощью высокопроиз­водительной шины (SCSI, Fibre Channel, Gigabit Ethernet, ATM). Для реализации витрин данных применяют машины на базе ОС UNIX или NT с собственными массивами накопителей.

Как любая технология, хранилища данных имеют специфи­ческие проблемы создания, эксплуатации, оценки эффективнос­ти, а также согласования с различными задачами и требования­ми. Тем не менее, целесообразность их применения уже не под­вергается сомнению, все владельцы больших и сверхбольших объемов информации создают такие технологии в своих ИС. Так, по оценкам специалистов, к 1999 г. объем хранимых в глобаль­ных сетях данных достиг 1000 петабайт (1 млн Тбайт). Размер многих крупных хранилищ данных уже измеряется десятками те­рабайт и продолжает непрерывно увеличиваться, за ближайшие три года средний размер хранилищ данных увеличится в 36 раз.