Обработка больших массивов информации – наиболее массовая область применения ЭВМ. Эффективная обработка больших объемов информации ставит перед разработчиками программ ряд сложных проблем:
· как организовать информацию в памяти ЭВМ;
· какие операции по ее обработке наиболее удобны и эффективны;
· какова организация работ по обработке больших объемов информации;
· какое общесистемное программное обеспечение необходимо и т.д.
Под данными понимается информация, находящаяся в памяти ЭВМ или подготовленная для ввода в ЭВМ. Подготовка информации состоит в ее формализации, кодировке и перенесении на машинные носители.
Под обработкой данных понимается совокупность задач, осуществляющих преобразование массивов данных. Обработка данных включает в себя:
· ввод данных в ЭВМ;
· отбор данных по каким-либо критериям и параметрам;
· преобразование структуры данных;
· перемещение данных на внешней памяти ЭВМ;
· вывод данных, являющихся результатом решения задач, в табличном или каком-либо ином удобном для пользователя виде.
Для решения комплекса данных создаются системы взаимосвязанных задач обработки данных (СОД).
Под управлением данными понимается весь круг операций с данными, которые необходимы для успешного функционирования СОД. Эти операции можно разделить на обслуживающие (например, копирование) и рабочие, выполняемые прикладными программами СОД. В случае рабочих операций говорят о доступе к данным или манипулировании данными.
Развитие методов решения задач обработки данных привело в 60-х годах ХХ в. к появлению понятия базы данных, являющегося центральным в области информатики. Под базой данных (БД) понимается совокупность взаимосвязанных данных некоторой предметной области, хранимых в памяти ЭВМ и организованных таким образом, что эти данные могут быть использованы для решения многих задач многими пользователями.
Рассмотрим некоторые существенные моменты, касающиеся понятия базы данных.
1) Какая память пригодна для хранения БД?
Эта память должна обладать следующими свойствами:
· необходимо, чтобы данные БД хранились постоянно и их существование и сохранность не зависели от состояния ЭВМ (включена или выключена, работа или профилактика и т.д.). Кроме того, ввиду большой ценности информации в БД к памяти предъявляются очень высокие требования к надежности сохранения информации. Задачи СОД обычно решаются многократно, причем результаты решения одной задачи в ряде случаев служат исходными данными для другой задачи. В этой ситуации БД выполняет роль «склада», где накапливается информация, которая будет использоваться для решения задач данной предметной области;
· память БД должна быть очень большого объема и в процессе «жизни» БД должна быть способной к расширению;
· применяемые в БД методы поиска информации требуют прямого (а не последовательного) доступа к данным.
В настоящее время перечисленным требованиям удовлетворяет внешняя память на магнитных и лазерных дисках, а также сама ЭВМ.
2) Одни и те же базы данных могут быть использованы для решения многих прикладных задач. Этим БД принципиально отличается от любой другой совокупности данных внешней памяти ЭВМ. Часто это свойство базы данных подчеркивают терминологически, говоря об «интегрированной» базе данных. Обычно доступ к БД возможен как со стороны программ, работающих в пакетном режиме, так и со стороны пользователей через терминал.
3) База данных является информационной моделью внешнего мира, некоторой предметной областью. В ней, как правило, хранятся данные об объектах, их свойствах и характеристиках. Поскольку во внешнем мире объекты взаимосвязаны между собой, в БД эти связи должны быть отражены. Таким образом, в БД все данные взаимосвязаны. В противном случае имеет смысл говорить о нескольких независимых БД, имеющих раздельное хранение.
Пример
Допустим, что в нашем университете, который размещается в разных корпусах, разрабатывается информационная система учебного процесса. Анализируя данную предметную область, разработчики выделили следующие объекты:
· учебные корпуса;
· факультеты;
· кафедры;
· учебные курсы;
· преподаватели;
· студенты;
· студенческие группы.
Данные об этих объектах должны быть включены в БД. Между объектами существуют взаимосвязи, которые также должны найти свое отражение в БД. Так, между факультетами и студенческими группами существуют иерархические отношения включения: группы входят в факультеты, причем факультет объединяет несколько групп, а каждая группа входит ровно в один факультет. Между учебными предметами и студенческими группами существует взаимосвязь, выражаемая понятием «расписание экзаменов».
В реальном мире все перечисленные объекты, так или иначе, связаны между собой. Однако в БД введена информация лишь о некотором минимальном наборе взаимосвязей, по которым, тем не менее, можно восстановить остальные взаимосвязи. Например, принадлежность студентов тому или иному факультету можно установить, используя взаимосвязи «входит в факультет» и «входит в группу».