В этом разделе Вам предстоит познакомиться с основными принципами организации и обработки больших массивов данных об объектах и явлениях реального мира. Такие массивы данных вместе с программно-аппаратными средствами для их обработки называют информационными системами (ИС).
Информационные системы можно условно разделить на фактографические и документальные.
В фактографических ИС регистрируются факты – конкретные значения данных (атрибутов) об объектах реального мира. Основная идея таких систем заключается в том, что все сведения об объектах (фамилии людей и названия предметов, числа, даты) сообщаются компьютеру в каком-то заранее обусловленном формате (например, дата в виде комбинации ДД.ММ.ГГГГ).
Информация, с которой работает фактографическая ИС, имеет четкую структуру, позволяющую машине отличать одно данное от другого, например, фамилию от должности человека, дату рождения от роста и т.п. Поэтому фактографическая система способна давать однозначные ответы на поставленные вопросы, например: «Сколько велосипедов марки А-18 продал магазин «Спорт» в июне 1998 г.?», «Кто из работников фирмы с датой рождения не ранее 1 января 1970 г. имеет водительские права?», «Какие исторические памятники Санкт-Петербурга включены в список ЮНЕСКО?» и т.д.
Документальные информационные системы обслуживают принципиально иной класс задач, которые не предполагают однозначного ответа на поставленный во
прос. Базу данных таких систем образует совокупность неструктурированных текстовых документов (статьи, книги, рефераты, тексты законов) и графических объектов, снабженная тем или иным формализованным аппаратом поиска. Цель системы, как правило, – выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям. Например: выдать список всех статей, в которых встречается слово «энтропия».
Принципиальной особенностью документальной системы является способность, с одной стороны, выдавать ненужные пользователю документы (например, где «энтропия» употреблена в ином смысле, чем предполагалось), а с другой – не выдавать нужные (например, если автор употребил какой-то синоним или ошибся в написании). Документальная система должна уметь по контексту определять смысл того или иного термина, например, различать «Рак» (животное), «Рак» (созвездие) и «Рак» (болезнь).
Указанная классификация ИС в известной мере устарела, так как современные фактографические системы часто работают с неструктурированными блоками информации (текстами, графикой, звуком, видео), снабженными структурированными описателями. Чтобы пояснить, как фактографическая ИС может превратиться в документальную (и наоборот), рассмотрим условный пример.
Пусть объектом обработки фактографической ИС является некий список эстрадных певцов, причем для каждого певца имеются следующие данные:
q сценическое имя (не более 12 произвольных символов);
q дата рождения в формате ДД.ММ.ГГГГ;
q пол (М или Ж);
q биография (произвольный текст);
q фонограмма с лучшим шлягером певца.
Располагая структурированными описателями (имя, дата, пол), система может выдать строгие ответы на вопросы:
· о любом певце персонально;
· о распределении певцов по возрасту и полу (в любых сочетаниях).
Заметим, что те же данные в той или иной форме дублируются в биографии, например: «Б.В. Максимов (по сцене – Никита) родился 14 мая 1967 г. в семье …», «Лана Галина появилась на свет 5/10/72 …» и т.д.
Однако если удалить из списка структурированные описатели, система превратиться в документальную и (если не принять мер) утратит способность находить и классифицировать артистов. В отличие от Вас, компьютер «не знает», что Никита – мужчина, а Лана – женщина, что 5/10/72 – это 05.10.1972, что Га′лина – фамилия, а Гали′на – имя, что «родиться» и «появиться на свет» – синонимы и т.д.
Фактографические системы используются буквально во всех сферах человеческой деятельности: в науке, материальном производстве, на транспорте, в медицине, государственной и общественной жизни, торговле, криминалистике, искусстве, спорте.
Мы с вами рассмотрим:
q способы организации и представления данных в ИС;
q основы реляционного подхода;
q принципы поиска и отбора информации в ИС.
Рассмотрим некоторые базы данных, сравним их, также мы изучим основные методы создания простейших информационных систем и принципы оперативной работы с ними.
А сейчас я сделаю небольшой обзор современных информационных систем.