最后更新于2023年5月8日星期一20:37:23 GMT

所有类型的系统都会不断地产生大量的日志数据. 在寻找最令人信服的理由来深入研究和分析这些数据, 我们整理了一份清单,列出了通常导致这种行为的七个原因. 在这篇博文中,我们将解决这7个问题中的第一个,包括:

  1. 系统故障排除
  2. 安全事件响应
  3. 安全故障排除
  4. 性能故障诊断
  5. 理解用户行为或活动
  6. 遵守安全策略
  7. 遵从审计或法规

因此,今天的话题是 Log Analysis 为系统故障排除,正如它在标题中所说的.

什么是系统故障排除?

In general, 对系统进行故障排除意味着试图从一个或多个错误行为的症状中找出根本原因, 从那里到可用的修复或解决方案. 系统故障排除 通常是在观察或报告某些东西不正常工作(或根本不正常工作)时调用的。, 或者直接响应错误或警报消息(通常与声音配合以吸引用户的注意力)。. 有一个标准的通用的故障排除方法,每当麻烦出现时,总是值得回忆(和遵循). 即使在处理过程中使用日志分析时也是如此, 注意并记住标准顺序是明智的. 请注意,日志分析直到序列的第二步(或更晚)才开始!

CompTIA的标准故障排除顺序分为六个步骤,来自其A+计算机技术员认证培训和材料, 但值得注意并在适当的时候应用. Here goes:

  1. 识别问题询问用户(或进行观察)并确定用户(或其他)对系统的更改. 在进行任何更改之前执行备份.
  2. 制定一个合理原因的理论找出问题的可能原因,并记得对明显的原因提出质疑. 避免草率下结论.
  3. **测试理论以确定原因:**采取任何必要的步骤来确认或否认可能的原因. 如果理论得到证实,确定解决问题的下一步步骤. 如果理论被否定,返回步骤2. 多次返回步骤2可能意味着需要返回步骤1(问题可能已被错误识别)。.
  4. 计划,然后行动制定一个行动计划来解决问题, 记录计划, 然后执行计划的解决方案.
  5. 测试和预防:检查和验证系统的全部或正常功能,并记录结果. 如果验证通过,请执行步骤6. 如果适用,实施预防措施以防止再次发生.  如果验证不正确,请返回步骤2.
  6. Report:记录发现、行动和结果. 如果需要多次通过步骤1-6, 跟踪这些活动,以确保你不会陷入一个循环,你一遍又一遍地重复同样的错误.

最有效的故障排除来自对正常或预期的系统行为的清晰理解, 仔细观察什么地方不起作用, missing, 或者其他不正常或意外的. Often, 步骤2中的“找到可能的原因”