В работе информационных систем возможны сбои, отказы, другие ситуации, приводящие к невыполнению системой ее функций. Менеджеру в таких условиях следует опираться на адекватные модели, или описания, происходящего.
Для упрощения описания ситуаций и повышения наглядности получаемых результатов обычно принимаются следующие допущения:
1) появление отказа технологической части системы, и возникновение ошибки оператора являются взаимно независимыми редкими случайными событиями, т.е. появление двух и более одноименных событий за период времени (t, t + Δt) работы системы практически невозможно;
2) способность оператора работать без ошибок и возможность компенсации им возникших за период времени (t, t + Δt) ошибок являются взаимно независимыми его свойствами.
Ниже приводятся типовые ситуации анализа надежности систем. В качестве характеристики надежности при этом используется вероятность безотказной работы. Как известно, на ее основе с помощью известных преобразований могут быть получены и все другие стандартные характеристики.
Первый вариант – системы с некомпенсируемыми ошибками оператора и неустранимыми отказами технологической части. Надежность таких систем, естественно, является минимальной. Она может повышаться как за счет роста потенциальной надежности технологической части системы, так и за счет повышения надежности работы оператора как компонента системы (эти мероприятия здесь не рассматриваются).
Человеко-машинная система исправна в какой-то момент или на интервале времени, если оператор не допустил ошибки и при этом исправна технологическая часть системы. Тогда вероятность р1(t1, Δt) безотказной работы человеко-машинной системы на интервале времени Δt от момента t1 до момента t2 = t1 + Δt с учетом принятых допущений определяется выражением:
, (6.5)
где – вероятность безотказной работы технологической части системы в течение интервала времени ; – вероятность безошибочной работы оператора (или операторов) на интервале времени Δt, которая определяется при условии, что при этом технологическая часть системы работала безотказно; t1 – полное время, прошедшее от начала использования системы до начала рассматриваемого интервале времени Δt, который, в свою очередь, может характеризовать, например рабочую смену в комплексной системе, сеанс связи, время выполнения того или иного приложения в системе и т.п.
В выражении (6.5) оба сомножителя – невозрастающие функции. Однако первый сомножитель pt(t1, Δt) уже в начальный момент t1 может быть меньше единицы, поскольку он отражает ресурс надежности системы, оставшийся у нее к этому моменту вследствие износа. Сомножитель p0(Δt) тоже убывает со временем, но его начальное значение равно единице, поскольку обычно оператор приступает к работе, находясь в функционально работоспособном состоянии. Убывание функции p0(Δt) отражает снижение работоспособности оператора со временем, обусловленное его утомлением, воздействием посторонних факторов, увеличением в процессе работы объема информации, подлежащей обработке для принятия решения, и тому подобными причинами.
Второй вариант – системы с возможностью частичной компенсации ошибок оператора. Оператор, допустивший ошибку в работе и вовремя заметивший ее появление, тут же ее исправляет. Во многих случаях создатели системы такую возможность обеспечивают, по крайней мере, для некоторых ошибок и для типовых условий их возникновения. В этих условиях можно принять, что такие ошибки оператора устраняются им мгновенно.
Если возникающие отказы технологической части системы при этом не устраняются, то система в целом исправна тогда, когда не возникло отказа в технологической части и оператор или не совершил ошибочных действий, или допустил ошибку (ошибки), но тут же заметил ее (их) и мгновенно устранил. Тогда для определения вероятности безотказной работы всей системы справедлива следующая формула:
, (6.6)
где – вероятность совмещения ошибки оператора и факта её мгновенного устранения, т.е. приращение вероятности безошибочной (или безотказной) работы оператора в течение рассматриваемого интервала времени; – вероятность ошибки, допущенной оператором; ρ – вероятность устранения ошибки, допущенной оператором.
Из сопоставления формул (6.5) и (6.6) видно, что
p2(t1, Δt) > p1(t1, Δt),
хотя возможно
p2(t1, Δt) à p1(t1, Δt),
когда
p à 0.
Это бывает при снижении возможностей оператора устранить допущенную им ошибку по всем составляющим этого процесса: выявление, идентификация, устранение. Каждая из этих составляющих характеризует определенные грани квалификации оператора. Как видно, обеспечивая для оператора квалификационную, структурную и технологическую возможность так называемого быстрого «отката», позволяющего ему просто и быстро отказаться от замеченных ошибочных действий, создатели ИС могут ощутимо повысить ее надежность.
Третий вариант – системы с возможностью компенсации отказов технологической части системы при невозможности устранения ошибок оператора. В сложных, т.е. многоэлементных и имеющих разнообразные и множественные внутренние и внешние связи, системах обычно предусматриваются специальные возможности для автоматического устранения, по крайней мере, некоторых из возможных отказов. Так, в системах обеспечивается свойство отказобезопасности, когда какое-то определенное число отказов не приводит к нарушению работоспособности системы как таковой. Контроль запаса надежности позволяет подкреплять надежность таких систем во время их исправной работы даже дистанционно, тем самым предотвращает их глобальный отказа.
Это характерно, например, для современных ЭВМ и их базовых программных средств, в частности операционных систем, причем, чем мощнее комплекс, тем более развиты в нем средства обеспечения отказобезопасности.
В условиях рассматриваемой задачи общей оценки надежности человеко-машинных систем все эти средства формируют величину pт(t1, Δt).
Кроме указанных возможностей, заложенных в технологической части системы, определенные возможности и функции оператора могут использоваться не только при управлении системой, но также и в сфере устранения ошибок или отказов технологической части системы. В ряде ситуаций, заметив отклонения в работе каких-либо технологических комплексов, человек-оператор может определить причины возникновения этих отклонений и подать, управляющие воздействия в целях компенсации нештатных явлений или просто устранить возникший отказ. Так, обнаружив, что какая-то часть технологического комплекса системы проявляет признаки выхода из нормального режима
работы, оператор может вывести ее из состава системы, ввести замену из резерва и таким образом сохранить работоспособность системы в целом. Очевидно, что оператор может компенсировать только некоторые неисправности и при условии, что он их заметил, идентифицировал и в состоянии компенсировать.
С позиций оператора отказ проявляется в системе в виде выхода на недопустимое значение некоторого контролируемого параметра, который может быть векторным, комплексным или составным. Изменение его во времени будет случайным процессом η(τ), свойства которого и определяют алгоритмы компенсации оператором последствий отказа. Вмешательство оператора в целях компенсации проявления отказа можно представить тоже в виде некоторого случайного процесса ηк(τ). Если для обработки ситуации н выявления отказа оператору требуется время τк, то изменение параметра после вмешательства оператора будет описываться случайным процессом:
Δη(τ) = ηт(τ) – ηт (τ — τк).
Для каждой системы ее исправное состояние соответствует пребыванию отклонения определяющего параметра Δη(τ) в заданной области D, т.е.
Δη(τ) D. (6.7)
Поскольку значение τк в каждой ситуации зависит от варианта комбинации состояний элементов и свойств оператора при определении отказа, оно является случайным и может быть, в частности, недопустимо большим при эксплуатации системы. В связи с этим оператор в состоянии компенсировать только некоторые отказы в приемлемое время.
Описать приращение вероятности безотказной работы технологической части системы можно в виде условной вероятности:
py(t1, Δt, δ)
безотказной работы этой части системы в течение интервала (t1, t1 + Δt), определяемой при условии, что в некоторый момент δ, где
t1 < δ < t1 + Δt,
в ней произошел отказ, который обнаружен, идентифицирован и компенсирован оператором.
Тогда для расчета вероятности безотказной работы системы в таких условиях p3(t1, Δt) можно использовать следующую формулу:
(6.8)
где сохранены и все ранее введенные обозначения.
Как видно из сопоставления выражений (6.5) и (6. 8), обычно
p3(t1, Δt) > p1(t1, Δt),
хотя возможно
p3(t1, Δt) àp1(t1, Δt),
когда
py(t1, Δt, δ) à0,
что бывает при снижении возможностей оператора по всем их составляющим (выявление, идентификация, устранение) при компенсации отказов технологической части ИС.
Четвертый вариант – система с коррекцией ошибок оператора и компенсацией отказов технологической части. Для определения вероятности ее безотказной работы в таких условиях p4(t1, Δt) на интервале (t1, t1 + Δt) в выражении (6.8), которое может рассматриваться как базовое, в качестве сомножителей р0(Δt) и рт(t1, Δt) следует использовать расширенные выражения для них из формул (6.6) и (6.8) соответственно. Тогда можно записать следующее выражение:
. (6.9)
С учетом соотношений (6.5), (6.6) и (6.8) выражение (6.9) можно представить в виде следующего равенства:
Сопоставление выражений (6.6) и (6.9) показывает, что обычно
р4(t1, Δt) > p2(t1, Δt),
хотя возможно
p4(t1, Δt) àp2(t1, Δt),
когда
py(t1, Δt, δ) à0.
Аналогично сопоставление выражений (6.8) и (6.9) дает, что
р4(t1, Δt) > p3(t1, Δt),
хотя при ρ à 0
p4(t1, Δt) àp3(t1, Δt).
Очевидно, что и
p4(t1, Δt) àp1(t1, Δt),
когда
py(t1, Δt, δ) à0 и ρ à 0,
что также справедливо при определенных условиях.
Здесь можно отметить, что в приведенных выражениях члены p0(Δt) и pт(t1, Δt) отражают характеристики надежности основных элементов системы и являются базовыми: на них строятся оценки достигнутого уровня надежности и соответственно – качества системы. Поэтому именно они характеризуют основной порядок значений вероятности и должны быть как можно ближе к единице. Величины р и py(t1, Δt, δ) характеризуют факторы, которые позволяют повысить надежность за счет использования специфических свойств оператора как элемента системы в части его активного воздействия на технологические элементы комплекса человеко-машинной системы. Представленные и аналогичные модели могут обеспечить повышение качества управления в текущих условиях и сформировать стратегические концепции для ИС по ее основным показателям.