Chuyển đến nội dung chính
Trang này dùng cho vận hành VMS master, VMS agent collector, dashboard, alert và synthetic/readiness check. Mục tiêu là triage nhanh theo tầng Infrastructure -> Service -> User -> Business Flow, sau đó route đúng owner.

Quy tắc triage nhanh

1

Xác định scope ảnh hưởng

Kiểm tra issue chỉ ảnh hưởng một host/service, một collector, một dashboard hay toàn bộ VMS master.
2

Kiểm tra freshness

So sánh thời điểm metric cuối, heartbeat cuối, thời điểm alert phát sinh và maintenance window hiện tại.
3

Khoanh vùng layer

Phân loại issue thuộc Infrastructure, Service, User check hay Business Flow để tránh route sai owner.
4

Đối chiếu inventory

Kiểm tra tag system, environment, service, owner, criticality, scope trước khi kết luận mất dữ liệu.
5

Escalate có bằng chứng

Khi cần escalate, gửi kèm collector id, host, service, dashboard, alert id, timestamp và log liên quan.

Collector không gửi dữ liệu

Triệu chứngNguyên nhân thường gặpCách xử lý
Master không thấy heartbeatCollector chưa start, sai token, sai ingest URLKiểm tra service status, token file, DNS, TLS và ingest URL
Heartbeat có nhưng metric rỗngModule host metric chưa bật hoặc thiếu quyền đọcKiểm tra cấu hình [host_metrics], user chạy collector và permission
Dữ liệu lúc có lúc mấtNetwork chập chờn, firewall idle timeout, retry quá thấpKiểm tra egress tới master, tăng retry/backoff và keepalive
Chỉ một service mất checkProcess name, port hoặc health path saiĐối chiếu inventory, kiểm tra process thật và test port từ collector
Collector duplicateHai collector dùng cùng id hoặc hostname tagTạo id riêng, sửa tag và xóa instance duplicate khỏi inventory

Dashboard stale hoặc thiếu dữ liệu

Triệu chứngNguyên nhân thường gặpCách xử lý
Dashboard không cập nhậtIngest queue chậm, time-series store chậm, query range saiKiểm tra health master, queue ingest, time range và timestamp collector
Một nhóm host không hiệnThiếu tag hoặc tag sai environment/systemChuẩn hoá tag và refresh inventory
KPI/SLA saiService chưa gắn criticality hoặc ownerBổ sung metadata và chạy lại aggregation
Topology thiếu edgeConnection check chưa khai báo hoặc dependency renameCập nhật connection inventory và map lại source/target

Alert noise

Triệu chứngNguyên nhân thường gặpCách xử lý
Alert flap liên tụcThreshold quá sát, retry thấp, check timeout ngắnTăng retry, dùng debounce, chỉnh threshold theo baseline
Alert trong maintenanceChưa khai báo maintenance window hoặc tag không matchTạo maintenance window theo system/environment/service
Alert sai ownerTag owner sai hoặc routing rule quá rộngSửa tag owner, tách rule theo system/service
Quá nhiều cảnh báo LowChưa gom alert hoặc thiếu suppressionGroup alert theo service, dùng suppression cho symptom phụ

Service health check fail

Triệu chứngNguyên nhân thường gặpCách xử lý
TCP failService down, port đổi, firewall chặnKiểm tra process, listen port và firewall từ node collector
HTTP health failHealth path sai, status code khác expected, TLS lỗiKiểm tra URL, method, expected status, certificate và proxy
Latency tăngNetwork chậm, dependency timeout, host quá tảiSo sánh network, CPU, memory, disk IO và downstream check
Process check failTên process đổi sau deployCập nhật process matcher theo release mới

Pre-market readiness fail

BướcKiểm tra
1Xem step nào fail: host, service, dependency, synthetic hay report delivery
2Kiểm tra có maintenance/deploy trước 8:30 không
3Đối chiếu dashboard Overall và dashboard khối liên quan
4Chạy lại check thủ công từ collector/probe node nếu cần
5Gửi report có trạng thái pass/fail, owner và action next step

Khi cần gửi thông tin hỗ trợ

Thông tinVí dụ
CollectorCollector id, hostname, version, environment
TargetSystem/service/dependency bị ảnh hưởng
TimestampThời điểm bắt đầu lỗi và thời điểm metric cuối
DashboardTên dashboard, panel, query range
AlertAlert id, severity, owner, routing channel
LogCollector log, master ingest log hoặc synthetic run log