Files
KQL a7242f0c69 Initial commit: 教务系统在线平台
- 包含4个产业方向的前端项目:智能开发、智能制造、大健康、财经商贸
- 已清理node_modules、.yoyo等大文件,项目大小从2.6GB优化至631MB
- 配置完善的.gitignore文件

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
2025-12-12 18:16:55 +08:00

9.2 KiB
Raw Permalink Blame History

AIOps平台实施工程师

对应岗位AIOps平台实施工程师

一、项目经历

项目名称中通快递Elasticsearch运维监控平台ESPaaS搭建项目

实习岗位AIOps平台实施工程师助理

实习时间2024.06-2024.07

(四)实习单位:深圳云智维科技有限公司

(五)岗位职责:

  1. 协助导师开展企业运维需求调研,参与对接运维团队的痛点收集与流程分析,学习运用 价值流图VSM 梳理监控数据流转路径,并参与指标分层设计与ROI对比分析整理成果用于AIOps场景优先级讨论确保后续平台建设具备清晰方向帮忙整理指标分层和ROI对比把成果记录下来方便后续讨论平台建设优先级
  2. 参与多集群监控平台的环境搭建与测试,协助配置自研 Exporter 与 Prometheus 采集策略整理磁盘、CPU、GC等关键指标采集情况确保数据接入流程标准化,支持监控数据在分布式环境下的稳定采集与跨集群整合保证关键指标能稳定采集,并能在分布式环境下正常整合
  3. 协助完成 Grafana 可视化面板 的设计与优化,参与配置不同角色的监控大屏,测试指标展示的时效性与准确性,整理监控结果对比报告,并提出改进建议,支持运维人员快速定位异常,提高整体运维效率写了监控结果对比报告,并提了一些小改进建议,帮助运维人员更快定位问题
  4. 参与智能诊断规则与异常检测实验,在工程师指导下完成磁盘容量、GC频率等风险检测的预测实验学习应用 机器学习方法 优化规则库,整理误报率与检测延迟表现,为异常检测模型与阈值策略优化提供数据支持在导师指导下做了磁盘容量、GC频率等预测实验尝试用机器学习方法改进规则库并整理误报率和延迟表现
  5. 协助告警体系优化,参与配置告警优先级、延迟触发与抑制策略,分析告警日志中的误报与重复率,提出改进意见并配合形成告警优化方案,支持告警系统与业务场景更好对齐,减少重复推送与干扰提出了一些改进意见,帮忙配合优化方案,减少了重复告警
  6. 参与自动化修复流程测试,协助调试常见运维脚本(磁盘清理、分片迁移),记录修复前后指标对比结果,整理测试报告并提交导师审核,提升故障响应效率,为后续智能修复场景积累验证经验记录修复前后的指标对比,整理成测试报告交导师审核,提升了故障响应效率
  7. 协助系统集成与云原生部署实验,参与在 Kubernetes 环境 下的 ES 集群弹性伸缩与代理层接入测试,记录跨环境兼容性与性能表现,整理结果形成阶段性文档,支持云原生架构下的可扩展性与弹性部署优化记录了跨环境兼容性和性能情况,写成阶段性文档,支持云原生部署的优化

二、专业技能

(一)核心能力

  1. 精通企业数字化转型方法论,能够通过高层访谈、 workshops 和工作流分析深度挖掘客户在运维效率、成本优化和业务连续性等方面的核心痛点。熟练运用价值流图VSM和痛点矩阵等工具为客户制定清晰的AIOps建设路线图、场景建设优先级和ROI分析提供具有前瞻性和落地性的数智化转型咨询熟悉企业数字化转型的基本方法能用价值流图VSM分析运维流程帮助确定AIOps建设的优先级和ROI参与整理建设方案
  2. 具备强大的技术方案设计和技术营销能力,能够针对智能监控、异常检测、故障预测、根因分析、智能修复等核心场景,设计完整的技术架构和实施方案。精通产品演示技巧,能够针对不同层级(高管、技术经理、工程师)的客户,精准阐述方案价值,并主导撰写高质量的技术建议书、招标文件和解决方案白皮书能参与智能监控、异常检测等场景的方案设计,协助老师完成方案文档,学习过如何面向不同角色去讲解方案价值
  3. 具备卓越的项目协调和资源整合能力能够作为技术纽带高效协同产品研发、交付实施、客户运维等多方团队。深入理解敏捷开发与DevOps流程能够将客户需求精准转化为产品需求PRD推动研发团队进行产品功能迭代和优化确保技术方案高效落地和客户满意度提升能在项目中起到协助协调的作用熟悉敏捷开发和DevOps流程学习把客户需求转化为产品需求帮助团队推进方案优化
  4. 深入理解AIOps技术生态和发展趋势熟悉主流监控工具Prometheus/Zabbix/Datadog、自动化运维平台、机器学习框架Sklearn/TensorFlow和LLM应用。具备第三方技术评估和选型能力能够设计异构系统集成架构制定数据对接、API集成和生态产品整合的技术方案了解AIOps生态和发展趋势熟悉 Prometheus、Grafana 等常见工具,也学习过用 Sklearn 做简单实验参与过API对接的方案设计

(二)复合能力

  1. 人工智能应用能力了解人工智能的发展路径与主流算法框架如Transformer、多模态模型初步掌握LLM调用、Prompt编写与图文生成工具的使用方法具备AI基础素养与合规意识。
  2. Agent智能体开发基础能力理解Agent的基本结构与工作机制了解其在物联网、自动化控制和多任务协同中的应用模式初步具备使用LangChain等主流框架实现简单任务编排和功能调用的能力。
  3. 计算机系统基础理解能力具备从计算机底层结构CPU架构、缓存设计、指令系统到上层操作系统演进Linux、虚拟化、边缘OS的系统理解能力能够初步分析软硬件协同机制与设备运行原理。
  4. 基础编程能力掌握数组、链表、哈希表、堆栈、树与图等核心数据结构的原理与使用场景具备使用Python进行数据处理与基础编程的能力。
  5. 版本管理与协同开发能力掌握Git的本地提交、远程仓库操作流程具备多人协作开发、代码评审与冲突解决的工作经验。
  6. Linux系统操作能力能够在Linux环境下完成磁盘管理、用户权限配置、网络设置等常规操作熟悉文件系统与命令行工具具备脚本自动化与远程运维的初步经验。
  7. 持续学习能力:关注技术前沿趋势,如扩散模型、多模态大模型等方向,具备持续学习的意愿与主动探索的习惯,能够主动跟进新技术动态并将其应用于实际学习或项目尝试中。
  8. 自动化脚本应用能力会使用Python对本地数据进行基础处理、接口调用任务能够使用小型自动化工具来提升开发与运维效率具备基础的异常处理与日志记录能力。
  9. 网络通信协议理解能力理解TCP/IP模型、WiFi、蜂窝通信、BGP路由等核心网络协议了解云计算架构下的网络基础设施与数据传输机制具备构建连接与排查通信问题的基础能力。
  10. 嵌入式与边缘设备部署基础:了解物联网设备中的嵌入式系统架构,具备边缘设备操作系统、驱动管理与资源调度机制的基本认知,能够协助完成设备配置与系统调优任务。

三、个人评价

在实习过程中,具备扎实的AIOps平台实施与运维能力能够参与需求调研并利用价值流图VSM分析运维流程明确监控场景建设的优先级。熟悉 Prometheus、Grafana 等主流监控工具,能够协助完成多集群指标采集与可视化面板配置,提升数据展示的准确性与运维人员的定位效率。具备智能诊断与异常检测的基础经验,能够通过机器学习方法辅助优化规则库,并结合误报率与检测延迟数据提出改进建议。掌握告警优先级配置、延迟触发与抑制策略,能够配合团队优化告警系统,减少重复推送。熟悉 Linux 与 Kubernetes 环境,能够协助完成 Docker 容器化部署与ES集群弹性伸缩测试保证平台在云原生架构下的可扩展性。学习过程中注重技术文档整理与结果分析保持对AIOps生态与前沿技术的持续关注展现出较强的学习力与协作力为后续在智能运维平台建设与实施领域的发展奠定了良好基础在实习过程中参与了需求调研并用价值流图VSM分析运维流程帮忙整理了监控场景优先级。熟悉 Prometheus、Grafana 等监控工具,能协助完成多集群指标采集和大屏配置。尝试过做智能诊断和异常检测实验,用机器学习方法优化规则库,并提出过改进建议。参与过告警优先级和抑制策略的配置,帮助减少了重复推送。熟悉 Linux 和 Kubernetes 环境,协助完成 Docker 部署和ES集群弹性测试。平时也注重文档整理和结果分析对AIOps生态和新技术保持关注展现了较强的学习力和团队协作力为后续在智能运维平台方向打下了基础