Системы документооборота берут свое начало с конца XVIII в. с появлением фотоаппарата, когда стало возможно создавать уменьшенные копии документов. Создание микрофиши дало реальный, качественный прорыв в стоимости хранения и копирования документов, но скорость поиска и коллективного использования документов осталась такой же, как для бумажных документов. Появление компьютерных систем с коллективным доступом позволило достигнуть прорыва и в этих областях. Произошла трансформация от микрографических документов к электронным образам бумажных документов, от микрографических систем к так называемым imaging-системам. Расширенная система поиска, возможность получать доступ к одному документу нескольким пользователям одновременно, возможность удаленной и распределенной работы при сохранении незначительной стоимости хранения и копирования информации предопределило тенденцию замены микрографических документов на электронные.
В начале 90-х гг. XX века появился новый класс систем, названный системами управления документами, предназначенный для управления электронными документами, отличными от их образов. В основном это были файлы текстовых процессоров и запросы на такого рода решения. Кроме функций хранения и поиска, присущих imaging-системам, в системах управления документами появились функции контроля жизненного цикла документа.
Документ – это некая обособленная часть информации, представленная на определенном носителе. В настоящее время можно выделить три главных типа носителей информации:
1) бумажные носители. К этому типу относятся все документы, которые созданы на бумаге;
2) микрофиши – практически то же самое, что и бумажные документы с точки зрения поиска необходимого документа, но занимают меньше места (до 72 страниц на одном микрофише). Микрофиши могут быть более тесно интегрированы с электронными средствами и доступны по компьютерной сети;
3) электронные носители информации, которые также внутри себя могут быть подразделены на ряд подтипов (жесткие диски, оптические диски, магнитооптические диски и т. д.). Кроме того, для электронных документов важен формат, в котором они сохранены на электронном носителе информации.
Очевидно, что один и тот же документ может существовать в различных ипостасях, на различных носителях информации и переходить с одного носителя на другой. Применение того или иного носителя информации определяют следующие факторы:
1) стоимость хранения информации прямо пропорциональна количеству документов и зависит от стоимости хранения одного документа. В настоящее время термин стоимость хранения информации все чаще применяется не для одной страницы документа (что используется для бумажных документов), а к одному мегабайту хранимой информации;
2) стоимость (время) поиска необходимой информации – определяется системой индексации документов. В том случае если система индексации отсутствует, то скорость поиска также прямо пропорциональна количеству хранимых документов;
3) стоимость коллективного использования информации определяет количество копий документа, необходимых для коллективного использования при одновременном доступе.
4) стоимость (время) передачи документа от одного рабочего места к другому.
На сегодняшний день применяется два подхода к организации хранения электронных документов. Первый состоит в хранении тела документов в файловой системе, второй – в хранении документов в реляционной или специализированной базе данных. Второй подход хотя и обладает большей степенью защиты собственно документов, но несет в себе следующие ключевые недостатки:
1) трудности с поддержкой носителей информации, отличных от жестких дисков (только СУБД Informix поддерживает магнитооптические накопители) и практическая невозможность построения гетерогенных систем хранения;
2) при работе с приложениями, в которых создаются и изменяются электронные документы тела документов в любом случае проходят через файловую систему. В связи с тем, что приложение не умеет работать напрямую с базами данных это число операций записи и считывания с жесткого диска увеличивается. При больших размерах тел документов это серьезно влияет на скорость работы.
К системе документооборота предъявляются следующие требования:
1) масштабируемости – способности системы наращивать свою мощность. Выполнение такого требования может быть обеспечено с помощью поддержки индустриальных серверов баз данных производства таких компаний, как Sybase, Oracle, Informix и др.;
2) распределенности – способности системы обеспечивать работу распределенных рабочих мест. Основные проблемы при работе с документами возникают в территориально-распределенных организациях, поэтому архитектура систем документооборота должна поддерживать взаимодействие распределенных рабочих мест. Причем распределенные рабочие места могут объединяться самыми разнообразными по скорости и качеству каналами связи. Такая архитектура системы должна поддерживать взаимодействие с удаленными пользователями;
3) модульности – деления системы на соответствующие модули, отвечающие за работу отдельных частей системы. Тогда в случае необходимости, можно всегда увеличить спектр решаемых задач, добавив необходимые модули;
4) интегрируемости – система документооборота может быть объединена с другими системами поддержки принятия решений.
Спектр задач системы автоматизации определяется стадией жизненного цикла документа, которую необходимо поддерживать. Жизненный цикл документа состоит из двух основных стадий:
1) стадии разработки документа, которая состоит из разработки содержания документа, оформления документа и утверждения документа. Если документ находится на стадии разработки, то он считается неопубликованным, и права на документ определяются правами доступа конкретного пользователя;
2) стадии опубликованного документа, которая состоит из активного доступа, архивного документа, краткосрочного хранения, долгосрочного хранения и уничтожения документа.
Когда документ переходит на вторую стадию, он считается опубликованным, тогда права на документ остаются только одни – доступ на чтение. В качестве примера опубликованного документа можно привести шаблон стандартного бланка предприятия. Кроме права доступа на чтение могут существовать права на перевод опубликованного документа в стадию разработки.
В зависимости от конкретной стадии жизненного цикла документа, с которым имеет дело архивная система, архивы подразделяются на статические архивы и динамические архивы. Статические архивы документов (либо просто архивы) – системы, которые имеют дело только с опубликованными документами. Динамические архивы документов (либо системы управления документами) – системы, имеющие дело, как с опубликованными документами, так и с документами, которые находятся в разработке.
Архив предприятия – это комплекс программного и аппаратного обеспечения, предназначенный для решения следующих задач:
1) организации хранения электронных документов;
2) организации учета бумажных и микрографических документов;
3) организации поиска документов;
4) поддержки защиты документов от несанкционированного доступа и аудита работы;
5) поддержки просмотра документов без загрузки приложений, которые порождают документ;
6) поддержки аннотирования документа.
Организация хранения электронных документов. Необходимо обеспечивать хранение произвольного количества электронных документов на разнообразных носителях. Носители электронных документов характеризуются двумя основными параметрами: стоимостью хранения одного мегабайта информации и скоростью доступа к информации. Причем эти два параметра обратно пропорциональны друг другу – в зависимости от решаемых задач, необходимо находить оптимальное соответствие и выбирать определенный носитель информации. На выбор носителя влияет также срок хранения информации. Иногда для ряда задач необходимо создавать систему хранения, которая состоит из разнотипных носителей. Например, для оперативного доступа требуется применение высокоскоростных жестких дисков, а для архивного хранения достаточно роботизированных библиотек оптических дисков.
Организация учета бумажных и микрографических документов. Архивная система кроме работы с электронными документами должна обеспечивать работу с бумажными и микрографическими документами. В этом случае система должна хранить только электронную карточку на документ данного типа и поддерживать контроль стандартных архивных операций: выдача документа, возврат документа и пр.
Организация поиска документов. Наряду с организацией хранения документов необходимо их быстро и эффективно искать. Существует два подхода к поиску документов. Первый подход состоит в том, что в процессе поиска ищется документ, который точно существует в системе, и задача состоит в том, чтобы процесс поиска свелся к нахождению требуемого документа или документов. Этот подход применятся в 90 % всех случаев поиска. Второй подход состоит в том, что ищутся все документы по интересующему вопросу. Для этого подхода присущи такие понятия, как полнота – соответствие между найденными документами по данному запросу и действительному списку документов и шум – соответствие документов, отвечающих запросу и документов, нерелевантных ему.
Существует два основных типа поиска. Атрибутивный – каждому документу присваивается набор определенных атрибутов, присваиваемых документу во время его размещения в архиве. В дальнейшем документ ищется на совпадение значений этих атрибутов полям запроса. К атрибутам документа можно отнести: имя документа, время создания, имя автора, машинистки, имя подразделения, тип документа (факс, письмо, контракт, спецификация и т. д.). Совокупность атрибутов документа называется карточкой документа. Эти поля могут заполняться произвольно или из предопределенных справочников. Второй тип поиска – полнотекстовый. В этом случае автоматически обрабатывается все содержание документа, и затем по любому слову, входящему в данный документ, можно найти сам документ. Соответственно существует зависимость между типами поиска и подходами к поиску.
Для поиска известного документа, более применим атрибутивный поиск, для исследовательского поиска – полнотекстовый. Существует комбинация полнотекстового и атрибутивного поиска, когда атрибуты документа обрабатываются так же, как все содержание документа. Полнотекстовый поиск зависит от формата документа и языка, на котором он создан. Электронный документ любого формата необходимо предварительно преобразовывать в стандартный текст для обработки системой полнотекстового поиска.
Зависимость от языка выражается в следующих факторах: поиск документа будет более полным, если в результате запроса будут найдены не только документы, которые точно соответствуют слову в запросе, но и те документы, в которых присутствуют различные словоформы слова в запросе. Данная технология носит название нормализации. Причем эффективность метода зависит от применяемого алгоритма нормализации.
Для русского языка наиболее эффективен словарный метод – слово нормализуется на основе словарей, в которых содержатся словоформы. Кроме словарного метода может применяться эвристический метод нормализации, когда слово может быть приведено к нормальному виду путем выполнения определенных правил, описывающих алгоритм нормализации. Если для английского языка свод правил нормализации составляет 300 страниц машинописного текста, то для русского языка этот свод на несколько порядков больше, поэтому было бы логично выполнять поиск не только по конкретному слову, но и по его синонимам.
Поддержка защиты документов от несанкционированного доступа и аудита работы. Архивная система должна иметь защиту на уровне документа – каждый документ должен иметь ассоциированный с ним список пользователей, имеющих право совершать с ним определенные операции. Для статических архивов этот список операций может представлять следующий набор: просмотр и печать документа, право изменять карточку документа.
Поддержка просмотра документов без загрузки приложений, которые порождают документ. Архивная система должна поддерживать специальные программы просмотра, позволяющие получить доступ к документам разнообразных форматов без загрузки ресурсоемких приложений.
Поддержка аннотирования документа. Иногда для обеспечения коллективной работы с документом необходимо заносить комментарии на документ, не изменяя его основного содержания. Комментарии (знаки, текст, цветные пометки) хранятся в слоях, которые могут быть привязаны к имени автора, создавшего эти комментарии.
В качестве характерного примера реализации статического архива можно привести системы типа WaterMark, PaperWise или ImageWise.
Рассмотрим основные задачи динамических архивов:
1) поддержку коллективной работы с документом;
2) поддержку составных документов;
3) поддержку распространения опубликованных документов;
4) поддержку расширенного спектра прав доступа к документу.
Поддержка коллективной работы с документом. Такая коллективная работа выражается в поддержке целостности документов, для этого должны быть реализованы библиотечные функции выписки и возврата документов на (c) редактирование, что предотвращает одновременное редактирование одного документа несколькими пользователями, таким образом устраняются возможные конфликты. Для того чтобы позволить в рамках одного документа работать одновременно нескольким пользователям, вводится понятие версии и подверсии документа – один документ может содержать несколько версий, а каждая версия – несколько подверсий. Кроме того, в рамках одного документа и одной версии (подверсии) документа может существовать несколько представлений документов (в разных форматах).
Поддержка составных документов. Каждый документ может представлять собой совокупность других документов. Такой документ носит название составного или контейнера, а в делопроизводстве такой документ носит название «дело». По своим характеристикам он аналогичен простому документу. Документы могут быть объединены в составной документ с помощью нескольких типов связей. Эти связи определяют, какие версии объединяются в контейнер, например, последняя по дате, последняя отредактированная, старшая версия и т. д. Эти связи определяют, как будет осуществляться сборка документа в составной документ. Для составных документов должно существовать приложение, которое будет осуществлять окончательную сборку такого документа.
Поддержка распространения опубликованных документов. После того, как документ публикуется, его иногда необходимо распространять. Это происходит двумя основными путями: либо через систему электронной почты путем рассылки, либо через Интернет путем публикации на web-сервере.
Поддержка расширенного спектра прав доступа к документу. Расширение прав доступа к документу состоит из прав на редактирование документа, прав на публикацию, прав на снятие публикации, прав на создания новой версии документа.