В связи с увеличением масштабов хранения и обработки данных система управления данными становится в ряд центральных ресурсов информационной системы. Формирование структур данных уже давно осуществляется в среде той или иной стандартной системы управления базами данных (СУБД). В развитых и масштабных ИС выбор СУБД является задачей примерно той же значимости, что и выбор ОС, а переход системы на другую СУБД может быть трудным.
Идеальных СУБД нет и быть не может: все они имеют как сильные стороны, так и слабые. Крупная база данных создается не на один год, поэтому выбор СУБД серьезными заказчиками осуществляется, как правило, в результате тестирования различных вариантов с учетом характера задач формирования структур и обработки данных, требований защищенности и т.п.
Одной из важнейших характеристик СУБД является модель данных. Теоретически любую информацию можно представить в виде реляционной модели. Эта модель имеет наиболее проработанные математическое основание и стандарты. Кроме того, реляционная модель данных отличается большой гибкостью относительно изменения структуры данных. Это, безусловно, наиболее распространенная сейчас модель данных. С другой стороны, существует немало задач, которые более эффективно решаются средствами других моделей. В частности, автоматизация новых областей бизнеса уже поставила задачу поддержки объектно-ориентированного подхода.
Существует уже достаточно широкий набор объектно-ориентированных систем:
· одной из основных является Oracle8 компании Oracle;
· компания Informix утверждает, что по функциональным возможностям ее Dynamic Server ненамного отличается от Oracle;
· в свою очередь, Sybase реализует объектно-ориентированные возможности в своей схеме баз данных, хотя ее Adaptive Server Enterprise предлагает лишь некоторые из функций, имеющихся в Oracle8;
· компания IBM обеспечивает те же функциональные возможности в версии своей DB2 и перенесла эту новую версию СУБД и на самый массовый бизнес-компьютер AS/400;
· Microsoft SQL Server по уровню объектно-реляционной поддержки явно отстает от других ведущих реляционных баз данных;
· Computer Associates предлагает Jasmine, объектно-ориентированную базу данных, призванную свести на нет противоречия между реляционными данными и объектно-ориентированными приложениями.
Непрерывно совершенствуясь, системы хранения данных становятся все более емкими, дешевыми и надежными. Клиенты становятся все более требовательными в отношении, как данных, так и технологий работы с ними. Им нужны средства для доступа к большим объемам данных, а также возможность быстрого поиска в сверхбольших объемах данных, содержащих, например, все сведения о деятельности компании за добрый десяток лет. Как следствие, возникла технология хранилищ информации (Data Warehouse), которая представляет собой самостоятельную область ИТ. В ее основе лежит идея создания централизованной и всеобъемлющей корпоративной базы данных, главное предназначение которой – информационное обеспечение систем поддержки принятия решений руководителями предприятий.
По замыслу автора идеи создания хранилищ У. Инмона (W. Inmon), такая база данных должна отвечать следующим требованиям:
· во-первых, оно должно ориентироваться на предметную область, а не на приложения, которые будут работать с данными;
· во-вторых, хранилище должно содержать интегрированную информацию, полученную на основе данных из множества источников; необходимо проводить проверки на непротиворечивость, целостность и т.д.;
· в-третьих, база данных хранилища должна быть оптимизирована, прежде всего для операций поиска и чтения: данные, пройдя обработку и попав однажды в хранилище, остаются там на долгие годы, причем изменения в данных не предполагаются;
· в-четвертых, оборудование, предназначенное для хранения данных, должно иметь высокую надежность.
На основе концепции хранилищ данных строится схема их включения в корпоративную ИС. По одну сторону от хранилищ данных остаются источники информации, в качестве которых обычно выступают стандартные системы оперативной обработки транзакции (On-Line Transaction Processing, OLTP). По другую – приложения-потребители, прежде всего системы оперативной аналитической обработки данных (On-Line Analytical Processing, OLAP). Потребителями информации являются в основном ОLAP-системы. Для оптимизации работы, как хранилищ данных, так и OLAP-систем создаются так называемые витрины (или киоски) данных (Data Marts) – промежуточные базы данных, содержащие выборку из хранилища, создаваемую специально для конкретных приложений. Полноразмерная работа в структуре хранилища называется Data Mining (разработка данных – по аналогии с разработкой полезных ископаемых).
Функционирование собственно хранилища данных обеспечивается на основе достаточно мощных СУБД компаний Oracle, Informix, Sybase, NCR, IBM и др. Реализация хранилищ данных представляет собой достаточно сложную технологию: это естественно, когда приходится оперировать сотнями гигабайтов и терабайтами данных. Они обычно строятся следующим образом. Для сбора и предварительной обработки данных от систем-источников выделяют один или несколько относительно небольших серверов на базе ОС UNIX или NT. В качестве главного сервера СУБД хранилища используются мощные ПК (менее 3 Гбайт), мощные UNIX-компьютеры (3 – 25 Гбайт), мейнфреймы (25 – 400 Гбайт) или даже суперЭВМ при объеме данных более 400 Гбайт, которые считаются уже уникально большими. Собственно данные хранятся в избыточных массивах дисковых накопителей RAID, соединенных с сервером СУБД с помощью высокопроизводительной шины (SCSI, Fibre Channel, Gigabit Ethernet, ATM). Для реализации витрин данных применяют машины на базе ОС UNIX или NT с собственными массивами накопителей.
Как любая технология, хранилища данных имеют специфические проблемы создания, эксплуатации, оценки эффективности, а также согласования с различными задачами и требованиями. Тем не менее, целесообразность их применения уже не подвергается сомнению, все владельцы больших и сверхбольших объемов информации создают такие технологии в своих ИС. Так, по оценкам специалистов, к 1999 г. объем хранимых в глобальных сетях данных достиг 1000 петабайт (1 млн Тбайт). Размер многих крупных хранилищ данных уже измеряется десятками терабайт и продолжает непрерывно увеличиваться, за ближайшие три года средний размер хранилищ данных увеличится в 36 раз.