안녕하세요. 선생님,
회사 조립식 서버 1기가 팅기는 현상(재부팅 해야지 복구됨)이 발생하여
H/W(mother board와 nvme 사이 뭔가.....의심) 점검 희망
근데
1. 우분투 서버
2. 증상이 나타나는 경우도 있고 안 나타나는 경우도 존재(빈도 2-3번 분석 중 1회 정도 발생)
3. 증상: 분석 진행 중 모든 터미널 종료, 직접 연결 모니터 반응없음 -> 강제 재부팅 외 어떠한 반응 x
혹시 해당 부분에 있어 점검이 가능한지 문의드립니다.
혹시 도움이 될까..
시스템로그 + chatgtp를 통해 도출한 내용에 대해 공유드립니다.
----------------------------------------------
SSD SMART 상 물리 오류는 없음
CPU MCE/ECC/AER 에러 없음
NVMe IRQ는 특정 코어에 편중되지 않음
분석 중 PCIe/NVMe I/O 경로에서 hard hang 발생
→ SSD 교체보다는 BIOS/PCIe/전원/펌웨어 점검 요청
----------------------------------------------1. 장애 현상
분석 작업 중 시스템이 응답 불가 상태(hard hang)로 진입
커널 panic, OOM, filesystem error 로그 없이 로그 기록이 중단됨
SSH 접속 불가 상태 지속 후, 강제 재부팅으로만 복구됨
2. 소프트웨어/로그 분석 결과 요약
NVMe 디스크 SMART 결과 정상
CPU/메모리 관련 MCE, ECC, PCIe AER 에러 없음
NVMe IRQ가 특정 CPU 코어에 편중된 현상 없음
분석 작업 디스크: 로컬 NVMe (ext4)
→ SSD 단독 불량이나 CPU 단일 코어 불량을 지목할 근거는 확인되지 않았습니다.
3. 판단
본 장애는 PCIe/NVMe I/O 경로에서 발생한 플랫폼 레벨 hard hang으로 판단되며,
SSD 자체보다는 메인보드(M/B) 및 플랫폼 구성 요소 점검이 필요하다고 판단
-------