Надежность систем «человек – машина»

В работе информационных систем возможны сбои, отказы, другие ситуации, приводящие к невыполнению системой ее фун­кций. Менеджеру в таких условиях следует опираться на адек­ватные модели, или описания, происходящего.

Для упрощения описания ситуаций и повышения нагляднос­ти получаемых результатов обычно принимаются следующие допущения:

1) появление отказа технологической части системы, и возник­новение ошибки оператора являются взаимно независимыми ред­кими случайными событиями, т.е. появление двух и более одно­именных событий за период времени (t, t + Δt) работы системы практически невозможно;

2) способность оператора работать без ошибок и возможность компенсации им возникших за период времени (t, t + Δt) ошибок являются взаимно независимыми его свойствами.

Ниже приводятся типовые ситуации анализа надежности сис­тем. В качестве характеристики надежности при этом использу­ется вероятность безотказной работы. Как известно, на ее основе с помощью известных преобразований могут быть получены и все другие стандартные характеристики.

Первый вариант – системы с некомпенсируемыми ошиб­ками оператора и неустранимыми отказами технологической части. Надежность таких систем, естественно, является минималь­ной. Она может повышаться как за счет роста потенциальной на­дежности технологической части системы, так и за счет повыше­ния надежности работы оператора как компонента системы (эти мероприятия здесь не рассматриваются).

Человеко-машинная система исправна в какой-то момент или на интервале времени, если оператор не допустил ошибки и при этом исправна технологическая часть системы. Тогда ве­роятность р1(t1, Δt) безотказной работы человеко-машинной системы на интервале времени  Δt от момента t1 до момента t2 = t1 + Δt с учетом принятых допущений определяется выра­жением:

,                                         (6.5)

где  – вероятность безотказной работы технологической части системы в течение интервала времени ;  – вероятность безошибочной работы оператора (или операторов) на интервале времени Δt, которая определяется при условии, что при этом технологическая часть системы работала безотказно; t1 – полное время, прошедшее от начала использования системы до начала рассматриваемого интервале времени Δt, который, в свою очередь, может характеризовать, например рабочую смену в комплексной системе, сеанс связи, время выполнения того или иного приложения в системе и т.п.

В выражении (6.5) оба сомножителя – невозрастающие функции. Однако первый сомножитель pt(t1, Δt) уже в начальный момент t1 может быть меньше единицы, поскольку он отражает ресурс надежнос­ти системы, оставшийся у нее к этому моменту вследствие изно­са. Сомножитель p0(Δt) тоже убывает со временем, но его началь­ное значение равно единице, поскольку обычно оператор при­ступает к работе, находясь в функционально работоспособном состоянии. Убывание функции p0(Δt) отражает снижение рабо­тоспособности оператора со временем, обусловленное его утом­лением, воздействием посторонних факторов, увеличением в про­цессе работы объема информации, подлежащей обработке для принятия решения, и тому подобными причинами.

Второй вариант – системы с возможностью частичной компенсации ошибок оператора. Оператор, допустивший ошиб­ку в работе и вовремя заметивший ее появление, тут же ее ис­правляет. Во многих случаях создатели системы такую возмож­ность обеспечивают, по крайней мере, для некоторых ошибок и для типовых условий их возникновения. В этих условиях можно принять, что такие ошибки оператора устраняются им мгновенно.

Если возникающие отказы технологической части системы при этом не устраняются, то система в целом исправна тогда, когда не возникло отказа в технологической части и оператор или не совершил ошибочных действий, или допустил ошибку (ошибки), но тут же заметил ее (их) и мгновенно устранил. Тогда для определения вероятности безотказной работы всей системы справедлива следующая формула:

,                                (6.6)

где  – вероятность совмещения ошибки оператора и факта её мгновенного устранения, т.е. приращение вероятности безошибочной (или безотказной) работы оператора  в течение рассматриваемого интервала времени;  – вероятность ошибки, допущенной оператором; ρ – вероятность устранения ошибки, допущенной оператором.

Из сопоставления формул (6.5) и (6.6) видно, что

p2(t1, Δt) > p1(t1, Δt),

хотя возможно

p2(t1, Δt) à p1(t1, Δt),

когда

 p à 0.

Это бывает при снижении возможностей оператора устранить допу­щенную им ошибку по всем составляющим этого процесса: вы­явление, идентификация, устранение. Каждая из этих составляющих харак­теризует определенные грани квалификации оператора. Как вид­но, обеспечивая для оператора квалификационную, структурную и технологическую возможность так называемого быстрого «от­ката», позволяющего ему просто и быстро отказаться от замечен­ных ошибочных действий, создатели ИС могут ощутимо повы­сить ее надежность.

Третий вариант – системы с возможностью компенса­ции отказов технологической части системы при невозможности устранения ошибок оператора. В сложных, т.е. многоэлементных и имеющих разнообразные и множественные внутренние и вне­шние связи, системах обычно предусматриваются специальные возможности для автоматического устранения, по крайней мере, некоторых из возможных отказов. Так, в системах обеспечивает­ся свойство отказобезопасности, когда какое-то определенное число отказов не приводит к нарушению работоспособности си­стемы как таковой. Контроль запаса надежности позволяет под­креплять надежность таких систем во время их исправной рабо­ты даже дистанционно, тем самым предотвращает их глобальный отказа.

Это характерно, например, для современных ЭВМ и их базо­вых программных средств, в частности операционных систем, причем, чем мощнее комплекс, тем более развиты в нем средства обеспечения отказобезопасности.

В условиях рассматриваемой задачи общей оценки надежно­сти человеко-машинных систем все эти средства формируют ве­личину pт(t1, Δt).

Кроме указанных возможностей, заложенных в технологичес­кой части системы, определенные возможности и функции опе­ратора могут использоваться не только при управлении систе­мой, но также и в сфере устранения ошибок или отказов техноло­гической части системы. В ряде ситуаций, заметив отклонения в работе каких-либо технологических комплексов, человек-оператор может определить причины возникновения этих отклонений и подать, управляющие воздействия в целях компен­сации нештатных явлений или просто устранить возникший от­каз. Так, обнаружив, что какая-то часть технологического комп­лекса системы проявляет признаки выхода из нор­мального режима

работы, оператор может вывести ее из состава системы, ввести замену из резерва и таким образом сохранить работоспособность системы в целом. Очевидно, что опе­ратор может компенсировать только некоторые неисправности и при условии, что он их заметил, идентифицировал и в состоя­нии компенсировать.

С позиций оператора отказ проявляется в системе в виде вы­хода на недопустимое значение некоторого контролируемого параметра, который может быть векторным, комплексным или составным. Изменение его во времени будет случайным процес­сом η(τ), свойства которого и определяют алгоритмы компенса­ции оператором последствий отказа. Вмешательство оператора в целях компенсации проявления отказа можно представить тоже в виде некоторого случайного процесса ηк(τ). Если для обработ­ки ситуации н выявления отказа оператору требуется время τк, то изменение параметра после вмешательства оператора будет описываться случайным процессом:

Δη(τ) = ηт(τ) – ηт (τ — τк).

Для каждой системы ее исправное состояние соответствует пребыванию отклонения определяющего параметра Δη(τ) в за­данной области D, т.е.

Δη(τ)  D.                                                         (6.7)

Поскольку значение τк в каждой ситуации зависит от вариан­та комбинации состояний элементов и свойств оператора при определении отказа, оно является случайным и может быть, в частности, недопустимо большим при эксплуатации системы. В связи с этим оператор в состоянии компенсировать только неко­торые отказы в приемлемое время.

Описать приращение вероятности безотказной работы техно­логической части системы можно в виде условной вероятности:

py(t1, Δt, δ)

безотказной работы этой части системы в течение ин­тервала (t1, t1 + Δt), определяемой при условии, что в некоторый момент δ, где

t1 < δ < t1 + Δt,

в ней произошел отказ, который обнаружен, идентифицирован и компенсирован оператором.

Тогда для расчета вероятности безотказной работы системы в таких условиях p3(t1, Δt) можно использовать следующую фор­мулу:

                                (6.8)

где сохранены и все ранее введенные обозначения.

Как видно из сопоставления выражений (6.5) и (6. 8), обычно

p3(t1, Δt) > p1(t1, Δt),

хотя возможно

p3(t1, Δt) àp1(t1, Δt),

когда

py(t1, Δt, δ) à0,

что бывает при снижении возможностей опера­тора по всем их составляющим (выявление, идентификация, уст­ранение) при компенсации отказов технологической части ИС.

Четвертый вариант – система с коррекцией ошибок оператора и компенсацией отказов технологической части. Для определения вероятности ее безотказной работы в таких услови­ях p4(t1, Δt) на интервале (t1, t1 + Δt) в выражении (6.8), которое может рассматриваться как базовое, в качестве сомножителей р0(Δt) и рт(t1, Δt) следует использовать расширенные выражения для них из формул (6.6) и (6.8) соответственно. Тогда можно за­писать следующее выражение:

.                   (6.9)

С учетом соотношений (6.5), (6.6) и (6.8) выражение (6.9) можно представить в виде следующего равенства:

Сопоставление выражений (6.6) и (6.9) показывает, что обычно

р4(t1, Δt) > p2(t1, Δt),

хотя возможно

p4(t1, Δt) àp2(t1, Δt),

когда

py(t1, Δt, δ) à0.

Аналогично сопоставление выражений (6.8) и (6.9) дает, что

р4(t1, Δt) > p3(t1, Δt),

хотя при ρ à 0

p4(t1, Δt) àp3(t1, Δt).

Очевидно, что и

p4(t1, Δt) àp1(t1, Δt),

когда

py(t1, Δt, δ) à0 и ρ à 0,

что также справедливо при определенных условиях.

Здесь можно отметить, что в приведенных выражениях члены p0(Δt) и pт(t1, Δt) отражают характеристики надежности основных элементов системы и являются базовыми: на них строятся оцен­ки достигнутого уровня надежности и соответственно – качества системы. Поэтому именно они характеризуют основной порядок значений вероятности и должны быть как можно ближе к едини­це. Величины р и py(t1, Δt, δ) характеризуют факторы, которые позволяют повысить надежность за счет использования специ­фических свойств оператора как элемента системы в части его активного воздействия на технологические элементы комплекса человеко-машинной системы. Представленные и аналогичные модели могут обеспечить повышение качества управления в те­кущих условиях и сформировать стратегические концепции для ИС по ее основным показателям.