Skip to main content

FMEA-MSR: 운영 단계까지 확장된 고장 분석, 왜 필요한가?

1. 도입

차량용 전자 시스템이 점점 복잡해지면서, 설계 단계에서 모든 고장 모드를 예방하는 것만으로는 충분하지 않게 되었습니다. 아무리 완벽한 설계를 해도 현장에서는 예상치 못한 고장이 발생할 수 있습니다. 그렇다면 고장이 발생했을 때 시스템이 이를 감지하고 적절히 대응하는 능력은 어떻게 분석하고 검증할 수 있을까요?

2019년 AIAG-VDA FMEA 핸드북에서는 이 질문에 대한 답으로 FMEA-MSR(Monitoring and System Response)을 새롭게 도입했습니다. 기존 DFMEA가 고장을 예방하는 설계에 집중했다면, FMEA-MSR은 고장 발생 후 시스템의 감지와 대응 능력을 체계적으로 분석합니다.

이 글에서는 FMEA-MSR의 개념과 기존 FMEA와의 차이, 실무 적용 방법, 그리고 ISO 26262와의 연계에 대해 살펴보겠습니다.

2. 기존 DFMEA와 FMEA-MSR의 차이

DFMEA와 FMEA-MSR은 상호 보완적인 관계에 있습니다. 둘의 차이를 명확히 이해하는 것이 중요합니다.

분석 관점의 차이

참고: 두 분석 모두 개발(설계) 단계에서 수행될 수 있으며, 위 표의 ‘평가 대상 운용 맥락’은 분석을 수행하는 시기가 아니라 평가 대상이 되는 컨트롤이 작동하는 단계를 의미합니다. FMEA-MSR의 직접 평가 축은 Prevention/Detection이 아니라 Monitoring/System Response입니다. 다만 FMEA-MSR 분석 결과 예방 조치가 필요한 경우, DFMEA로 피드백하여 설계를 개선합니다.

Detection(D)과 Monitoring(M)의 차이
이 부분이 가장 혼동되기 쉬운 영역입니다. DFMEA에서는 Detection(D)을, FMEA-MSR에서는 Monitoring(M)을 사용하며, 두 개념은 완전히 다릅니다.

  • DFMEA의 Detection(D): 제품 출하 전에 설계 검증, 시험, 리뷰 등을 통해 고장 모드를 발견할 수 있는 능력
  • FMEA-MSR의 Monitoring(M): 제품이 운영되는 동안 고장을 감지하고, FTTI(Fault Tolerant Time Interval) 내에 시스템 대응이 작동할 가능성. 

FTTI는 고장 발생 후 위험한 상황이 발생하기 전까지 허용되는 시간을 의미합니다. 여기서 M은 단순히 ‘시간 내 작동’ 여부만이 아니라, 그 대응이 안전 목표 관점에서 적절한 상태로 시스템을 유도하는지도 포함합니다. 예를 들어, 전동 조향 시스템(EPS)의 모터 단선 고장을 생각해 보겠습니다.

  • DFMEA 관점 (Detection): 개발 단계에서 HALT 시험, 내구 시험 등을 통해 모터 단선 가능성을 검출
  • FMEA-MSR 관점 (Monitoring): 차량 운행 중 전류 센서와 진단 소프트웨어가 모터 단선을 실시간 감지하고 안전 상태로 전환

3. FMEA-MSR의 구조와 7단계 접근법

FMEA-MSR도 AIAG-VDA 핸드북의 7단계 접근법을 따릅니다. 다만 각 단계의 내용이 운영 단계 분석에 맞게 조정됩니다.

Step 1: 계획 및 준비 (Planning and Preparation)
분석 범위와 목적을 정의합니다.

  • 분석 대상 시스템과 경계 정의
  • 관련 안전 목표 및 ASIL 등급 확인
  • 팀 구성 (시스템, 하드웨어, 소프트웨어, 안전 담당자)
  • 기존 DFMEA 결과 검토

Step 2: 구조 분석 (Structure Analysis)
시스템의 계층 구조를 정의합니다. FMEA-MSR에서는 특히 모니터링 경로와 대응 메커니즘을 구조에 명확히 포함해야 합니다.

  • 시스템 → 서브시스템 → 컴포넌트
  • 모니터링 기능
  • 진단 기능
  • 시스템 대응 기능

Step 3: 기능 분석 (Function Analysis)
각 구성 요소의 기능을 정의합니다. FMEA-MSR에서는 세 가지 유형의 기능을 구분합니다.

  • 주 기능 (Primary Function): 시스템의 본래 목적 기능
  • 모니터링 기능 (Monitoring Function): 고장을 감지하는 기능
  • 시스템 대응 기능 (System Response Function): 고장 감지 후 취하는 조치

Step 4: 고장 분석 (Failure Analysis)
고장 모드, 영향, 원인을 분석합니다. 고장 체인 구조는 다음과 같습니다.

  • 고장 원인 → 고장 모드 → 고장 영향 (시스템 대응 전)
  • 모니터링으로 감지
  • 시스템 대응 작동
  • 최종 영향 (시스템 대응 후)

FMEA-MSR의 핵심은 시스템 대응 후의 최종 영향을 평가하는 것입니다.

Step 5: 리스크 분석 (Risk Analysis)
S, F, M 세 가지 지표로 리스크를 평가합니다.

중요: AP 결정 시 Severity(S) 적용 기준

AIAG-VDA 핸드북에 따르면, AP(Action Priority) 결정 시 어떤 S 값을 사용할지는 M 등급에 따라 달라집니다.

  • M = 1인 경우: MSR 후 완화된 영향(Failure Effect after MSR)의 S를 AP 결정에 사용
  • M ≠ 1인 경우: 원래 영향(Original Failure Effect)의 S를 AP 결정에 사용

M=1의 정량적 기준: AIAG-VDA 핸드북에서 M=1은 “고장이 시스템에 의해 항상 자동으로 감지되며, 진단 커버리지가 99.9%를 상당히 초과하는 것으로 추정됨(Diagnostic coverage estimated to be significantly greater than 99.9%)”을 의미합니다.

왜 M≠1이면 Original S를 사용하는가?

전통적으로 FMEA는 성공과 실패의 비율을 고려하지 않습니다. 예를 들어 M=6(DC > 90%)인 경우, 고장의 약 10%는 검출되지 않으며 검출되지 않은 고장은 Original Failure Effect를 유발합니다. FMEA는 확률적 비율이 아닌 최악의 상황을 기준으로 평가하므로, M≠1이면 검출 실패 가능성이 존재하고, 이 경우 원래 심각도가 발생할 수 있기 때문에 보수적으로 Original S를 사용합니다.

예시: M 등급에 따른 S 적용

Step 6: 최적화 (Optimization)
AP(Action Priority)에 따라 개선 조치를 수행합니다.

  • High (H): 반드시 조치 필요
  • Medium (M): 조치 권고
  • Low (L): 조치 선택적

AP 결정 기준

AP는 S, F, M의 조합으로 결정되며, AIAG-VDA 핸드북의 AP 테이블을 참조합니다. 주요 원칙은 다음과 같습니다.

  • S = 9~10 (안전/법규 관련): F, M 값과 관계없이 대부분 AP = High
  • S = 5~8, M = 4~6 (높은 불확실성): 일반적으로 AP = High 또는 Medium
  • S = 2~4, M = 1~2 (낮은 심각도, 높은 감지율): 일반적으로 AP = Low

개선 방향은 다음과 같습니다.

  • 모니터링 기능 강화 (M 개선)
  • 시스템 대응 메커니즘 추가 또는 개선 (S 완화)
  • 고장 원인 제거 (F 감소) – 이 경우 DFMEA로 피드백

Step 7: 결과 문서화 (Results Documentation)
분석 결과를 FMEA 워크시트에 기록하고 관련 문서와 연계합니다.

4. FMEA-MSR 워크시트 구조

FMEA-MSR 워크시트는 DFMEA와 유사하지만, 모니터링과 시스템 대응 관련 열이 추가됩니다. 주요 열 구성은 다음과 같습니다.

고장 분석 영역:

  • 기능/요구사항
  • 잠재적 고장 모드
  • 고장 영향 (시스템 대응 전)
  • 고장 원인

모니터링 및 대응 영역:

  • 모니터링 방법 (Diagnostic Monitoring)
  • 시스템 대응 (System Response)
  • 고장 영향 (시스템 대응 후) – M=1인 경우에만 S 평가에 사용

리스크 평가 영역:

  • S (Severity)
  • F (Frequency)
  • M (Monitoring)
  • AP (Action Priority)

예시: 전동 조향 시스템(EPS) 모터 드라이버

참고: 만약 모니터링/대응의 신뢰성 근거가 충분하지 않아 M=2로 평가된다면, AP 결정 시 S는 대응 전 심각도인 9를 사용해야 하며, 이 경우 AP는 High가 됩니다.

예시: 전자식 주차 브레이크(EPB) 액추에이터

5. ISO 26262와의 연계

FMEA-MSR은 ISO 26262의 여러 요구사항과 직접적으로 연결됩니다.

Part 5 하드웨어 개발과의 연계

ISO 26262 Part 5에서 요구하는 안전 메커니즘(Safety Mechanism)의 효과성을 FMEA-MSR로 분석할 수 있습니다.

  • 진단 커버리지(Diagnostic Coverage): FMEA-MSR의 모니터링 분석과 연계
  • SPFM/LFM 계산: FMEA-MSR에서 식별된 안전 메커니즘 반영
  • PMHF 분석: 시스템 대응 실패 확률 반영

FMEA-MSR과 FMEDA의 관계

ISO 26262 Part 5의 안전 메트릭(SPFM, LFM, PMHF) 계산은 실제로 FMEDA(Failure Modes, Effects and Diagnostic Analysis)를 통해 이루어집니다. FMEA-MSR과 FMEDA의 관계는 다음과 같습니다.

  • FMEA-MSR은 모니터링과 시스템 대응의 정성적 분석에 초점
  • FMEDA는 진단 커버리지와 고장률의 정량적 계산에 초점
  • FMEA-MSR 결과(모니터링 방법, 시스템 대응)는 FMEDA 분석의 입력 자료로 활용
  • FMEDA 계산 결과는 FMEA-MSR의 M 등급 평가에 근거 자료로 활용

Part 4 시스템 개발과의 연계

  • 기능 안전 요구사항(FSR): FMEA-MSR에서 도출된 모니터링/대응 요구사항 반영
  • 기술 안전 요구사항(TSR): 구체적인 진단 방법과 대응 시간 명세

FMEA-MSR과 안전 분석 매핑

ISO 26262와 AIAG-VDA MSR의 잔존 Risk 관리 차이

ISO 26262는 ASIL에 따라 잔존 Risk의 목표 값을 서로 다르게 지정하고 있습니다. 예를 들어 ASIL D는 ASIL A보다 더 엄격한 잔존 Risk 목표를 요구합니다. 반면 AIAG-VDA 핸드북의 MSR에서는 ASIL별 잔존 Risk 목표에 대한 특별한 가이드를 제공하지 않습니다. 따라서 핸드북을 적용하는 조직에서는 다음 사항을 자체적으로 정의해야 합니다.

ASIL 등급별 AP 판정 기준의 차등 적용 여부

  • 잔존 Risk 수용 기준
  • AP=High 항목에 대한 조치 완료 기준

이러한 조직 가이드 없이 FMEA-MSR을 수행하면, 분석 결과의 일관성과 의사결정 기준이 불명확해질 수 있습니다.

6. 실무 적용 시 고려사항

DFMEA와의 연계 방법
FMEA-MSR은 DFMEA를 대체하는 것이 아니라 보완합니다. 실무에서는 다음과 같이 연계합니다.

  • DFMEA 먼저 수행: 설계 단계에서 고장 예방 관점의 분석 완료
  • DFMEA에서 높은 심각도 항목 추출: S가 높은 고장 모드 식별
  • FMEA-MSR로 확장: 해당 고장 모드에 대한 모니터링/대응 분석
  • 상호 피드백: FMEA-MSR 결과를 DFMEA에 반영하여 설계 개선

흔한 실수와 주의점

  • Detection과 Monitoring의 혼동
  • DFMEA의 Detection Control을 그대로 FMEA-MSR에 사용하는 실수
  • DFMEA는 D(Detection), FMEA-MSR은 M(Monitoring)으로 용어가 다름
  • M은 반드시 운영 중 실시간 감지 및 대응 능력을 평가

시스템 대응 누락

  • 모니터링만 분석하고 시스템 대응을 누락하는 경우
  • 고장 감지 후 어떤 조치가 취해지는지 명확히 기술 필요

AP 결정 시 심각도 적용 오류

  • M 등급과 관계없이 항상 대응 후 심각도를 AP 결정에 사용하는 실수
  • M=1인 경우에만 대응 후 심각도를 AP 결정에 사용 가능
  • M≠1이면 반드시 대응 전 원래 심각도를 AP 결정에 사용

단편적 분석에 집중하는 오류

  • 특정 구성요소의 특정 결함에 대한 단편적 분석에만 집중하면, 지나치게 많은 관리/의사결정 활동이 필요해질 수 있음
  • 전체 시스템 관점에서 Risk를 평가하고, 우선순위를 정해 핵심 항목에 집중하는 것이 중요
  • Residual Risk는 개별 고장 모드 단위가 아닌, 시스템/기능 단위로 종합 평가 필요

효과적인 팀 구성
FMEA-MSR은 다양한 전문 영역의 협업이 필요합니다.

  • 시스템 엔지니어: 전체 시스템 동작과 인터페이스 이해
  • 하드웨어 엔지니어: 하드웨어 고장 모드와 진단 회로 설계
  • 소프트웨어 엔지니어: 진단 로직과 시스템 대응 알고리즘
  • 기능안전 엔지니어: ISO 26262 요구사항과 안전 메커니즘 검토

7. FMEA-MSR 도입의 기대 효과

설계 품질 향상

  • 모니터링과 진단 기능의 체계적 검토
  • 시스템 대응 메커니즘의 완전성 확보
  • 안전 메커니즘 간 상호작용 분석

ISO 26262 대응 강화

  • Part 5 안전 분석 요구사항에 대한 명확한 근거 확보
  • 진단 커버리지와 안전 메트릭 계산의 입력 자료 제공
  • FMEDA 분석과의 일관성 확보
  • 심사 시 추적성 확보

필드 품질 개선

  • 운영 중 고장 시나리오에 대한 사전 대비
  • 고객 불만 감소 및 리콜 위험 저감
  • 서비스 대응 전략 수립의 기초 자료

8. 마무리

FMEA-MSR은 기존 DFMEA의 한계를 보완하여 제품의 전체 수명 주기에서 고장 대응 능력을 분석하는 강력한 도구입니다. 특히 차량용 전자 시스템처럼 안전이 중요하고 진단 기능이 필수인 제품에서는 FMEA-MSR의 도입이 점점 더 중요해지고 있습니다.

핵심은 고장 예방(DFMEA)과 고장 대응(FMEA-MSR)을 분리하여 각각의 관점에서 철저히 분석하는 것입니다. 그리고 AP 결정 시 M=1 조건에 따른 S 적용 규칙을 정확히 이해하고 적용하는 것이 실무에서 매우 중요합니다. 두 분석이 유기적으로 연계될 때, 더 안전하고 신뢰성 높은 제품을 개발할 수 있습니다.