6.4. Распределенная система обработки данных

Информатика и вычислительная техника / Информационные технологии / 6.4. Распределенная система обработки данных

При использовании сетевых информационных технологий становится возможной реализация территориального распределения производства. Для администрации фирмы становится безразлично, где именно находится производство: в этом здании, за 100 м или за 10 000 км. Появляются совсем другие проблемы, такие как межконтинентальное снабжение, поясное время и т.д., поскольку становится возможным планетарное распределение промышленного производства.

Могут создаваться транснациональные компании, реализующие мировой товарный экспорт внутри фирмы. При этом метрополия, вложив 5 – 7 % от суммы оборота в экономику другой страны, получает возможность контролировать 50 – 60 % ее экономики. Объясняется это тем, что за счет вложения наукоемких технологий, страна-метрополия получает возможность оказывать влияние и даже осуществлять контроль за экономическим и политическим развитием другой страны.

Например, 80 % всех международных кредитных операций совершают банки США. Инвалютные резервы центральных банков западных стран на 75 % состоят из американских долларов, а 55 % расчетов по международной торговле реализуется американскими долларами, т.е. США расплачиваются воспроизводимыми ресурсами: информационными технологиями, научно-техническими знаниями, долларами. Это становится возможным благодаря новейшим сетевым технологиям и развитию коммуникаций.

Одной из важнейших сетевых технологий, является распределенная обработка данных. Персональные компьютеры стоят на рабочих местах, на местах возникновения и использования информации. Они соединены каналами связи. Это дало возможность распределить их ресурсы по отдельным функциональным сферам деятельности и изменить технологию обработки данных в направлении децентрализации. Распределенная обработка данных позволила повысить эффективность удовлетворения изменяющейся информационной потребности информационного работника и, тем самым, обеспечить гибкость принимаемых им решений.

Преимущества распределенной обработки данных:

ü большое число взаимодействующих пользователей, выполняющих функции сбора, регистрации, хранения, передачи и выдачи информации;

ü снятие пиковых нагрузок с централизованной базы путем распределения обработки и хранения локальных баз данных на разных ЭВМ;

ü обеспечение доступа информационному работнику к вычислительным ресурсам сети ЭВМ;

ü обеспечение симметричного обмена данными между удаленными пользователями.

Формализация концептуальной схемы данных повлекла за собой возможность классификации моделей представления данных на иерархические, сетевые и реляционные. Это отразилось в понятии архитектуры систем управления базами данных и технологии обработки. Архитектура СУБД описывает ее функционирование как взаимодействие процессов двух типов: клиента и сервера.

Распределенная обработка и распределенная база данных – не синонимы. Если при распределенной обработке производится работа с базой, то подразумевается, что представление данных, их содержательная обработка, работа с базой на логическом уровне выполняются на персональном компьютере клиента, а поддержание базы в актуальном состоянии – на файл-сервере. В случае распределенной базы данных, она размещается на нескольких серверах. Работа с ней осуществляется на тех же персональных компьютерах или на других, и для доступа к удаленным данным надо использовать сетевую СУБД.

В системе распределенной обработки клиент может послать запрос к собственной локальной базе или удаленной. Удаленный запрос – это единичный запрос к одному серверу. Несколько удаленных запросов к одному серверу объединяются в удаленную транзакцию. Если отдельные запросы транзакции обрабатываются различными серверами, то транзакция называется распределенной. При этом один запрос транзакции обрабатывается одним сервером. Распределенная СУБД позволяет обрабатывать один запрос несколькими серверами. Такой запрос называется распределенным. Только обработка распределенного запроса поддерживает концепцию распределенной базы данных.

Базы данных – это автоматизированные хранилища оперативно обновляемой информации. Если в 1970-е гг. шла торговля «сырой» информацией, т.е. данными, то в наше время созданы автоматизированные аналитические комплексы, торгующие результатами анализа «сырой» информации. Такие базы называют «серой» нефтью (мозгом). Например, в США фирмы объединились в Ассоциацию информационной индустрии, что позволило обеспечить реализацию 80 % мировых информационных услуг.

Созданы базы данных по всем направлениям человеческой деятельности: финансовые, экономические, научно-технические, электронной документации, кредитной деятельности, статистические, маркетинга, газетных сообщений, правительственных распоряжений, патентной информации, библиографические и т.д. При этом БД делятся на коммерческие и общественные.

Организация обработки данных зависит от способа их распределения. Существует четыре метода распределения данных: централизованный, расчлененный, дублирования, смешанный.

Централизованный, или метод извлечения данных вручную, является самым простым для реализации способом (рис. 6.1). На одном сервере находится единственная копия базы данных. Все операции с базой данных обеспечиваются этим сервером. Доступ к данным выполняется с помощью удаленного запроса или удаленной транзакции. Достоинством такого способа является легкая поддержка базы данных в актуальном состоянии.

Размер базы ограничен размером внешней памяти; все запросы направляются к единственному серверу с соответствующими затратами на стоимость связи и временную задержку. Отсюда – ограничение на параллельную обработку. База может быть недоступной для удаленных пользователей при появлении ошибок связи и выходит из строя при отказе центрального сервера.

При распределении данных на основе расчленения база данных размещается на нескольких серверах (рис. 6.2). Достоинства: увеличивается объем базы данных; большинство запросов удовлетворяется локальными базами, что сокращает время ответа; увеличиваются доступность и надежность; стоимость запросов на выборку и обновление снижается по сравнению с централизованным распределением; если выйдет из строя один сервер, система останется частично работоспособной. Недостатки: часть удаленных запросов или транзакций могут потребовать доступ ко всем серверам, что увеличивает время ожидания и цену; необходимо иметь сведения о размещении данных в БД. Однако доступность и надежность увеличиваются. Расчлененные базы данных наиболее подходят к случаю совместного использования локальных и глобальных сетей.

При использовании метода дублирования (рис. 6.3) в каждом сервере сети размещается полная база данных. Метод дает наиболее надежный способ хранения данных. Недостатки: повышенные требования к объему внешней памяти; усложнение корректировки баз, так как требуется синхронизация с целью согласования копий. Достоинства: все запросы выполняются локально, что обеспечивает быстрый доступ. Этот метод используется, когда фактор надежности является критическим, база – небольшой, а интенсивность обновления невелика.

B методе смешанного распределения объединены два способа распределения данных: дублирование и расчленение (рис. 6.4). При этом приобретены как преимущества, так и недостатки обоих способов. Появилась необходимость хранить информацию о том, где находятся данные в сети. Главное преимущество – гибкость этой системы, так как можно установить компромисс между объемом памяти под базу в целом и под базу в каждом сервере, чтобы обеспечить надежность и эффективность работы. В этой стратегии легко реализуется параллельная обработка, т.е. обслуживание распределенного запроса или транзакции.

Недостатки смешанного распределения данных: проблема взаимозависимости факторов, влияющих на производительность системы, ее надежность, повышаются требования к памяти. Смешанную стратегию используют при наличии сетевой СУБД, которая обеспечивает реализацию распределенной базы данных. Первые три метода поддерживают распределенную обработку данных.

В базах данных коллективного пользования центральным технологическим звеном становятся серверы баз данных. Программные средства серверов баз данных обеспечивают реализацию многопользовательских систем, централизованное хранение, поиск и обработку, целостность и безопасность данных. Производительность серверов баз данных на порядок выше производительности файл-серверов. В отличие от файл-сервера сервер базы данных содержит и базу, и систему управления данными.

Сетевые СУБД, основанные на файл-сервере, в настоящее время недостаточно мощны. В нагруженной сети неизбежно падает производительность, нарушается безопасность и целостность данных. Проблема производительности возникла потому, что файл-серверы реализуют принцип «все или ничего». Полные копии файлов базы перемещаются взад-вперед по сети. Проблемы с безопасностью, целостностью возникли из-за того, что с самого начала файл-серверы не были сконструированы с учетом целостности данных и их восстановления в случае аварии.