49 lines
9.2 KiB
Markdown
49 lines
9.2 KiB
Markdown
|
|
# AIOps平台实施工程师
|
|||
|
|
|
|||
|
|
# 对应岗位:AIOps平台实施工程师
|
|||
|
|
|
|||
|
|
# 一、项目经历
|
|||
|
|
|
|||
|
|
### (一)项目名称:中通快递:Elasticsearch运维监控平台(ESPaaS)搭建项目
|
|||
|
|
|
|||
|
|
### (二)实习岗位:AIOps平台实施工程师助理
|
|||
|
|
|
|||
|
|
### (三)实习时间:2024.06-2024.07
|
|||
|
|
|
|||
|
|
### (四)实习单位:**深圳云智维科技有限公司**
|
|||
|
|
|
|||
|
|
### (五)岗位职责:
|
|||
|
|
|
|||
|
|
1. 协助导师开展企业运维需求调研,参与对接运维团队的痛点收集与流程分析,学习运用 价值流图(VSM) 梳理监控数据流转路径,~~并参与指标分层设计与ROI对比分析,整理成果用于AIOps场景优先级讨论,确保后续平台建设具备清晰方向~~**帮忙整理指标分层和ROI对比,把成果记录下来,方便后续讨论平台建设优先级**。
|
|||
|
|
2. 参与多集群监控平台的环境搭建与测试,协助配置自研 Exporter 与 Prometheus 采集策略,整理磁盘、CPU、GC等关键指标采集情况,~~确保数据接入流程标准化,支持监控数据在分布式环境下的稳定采集与跨集群整合~~**保证关键指标能稳定采集,并能在分布式环境下正常整合**。
|
|||
|
|
3. 协助完成 Grafana 可视化面板 的设计与优化,参与配置不同角色的监控大屏,测试指标展示的时效性与准确性,~~整理监控结果对比报告,并提出改进建议,支持运维人员快速定位异常,提高整体运维效率~~**写了监控结果对比报告,并提了一些小改进建议,帮助运维人员更快定位问题**。
|
|||
|
|
4. 参与智能诊断规则与异常检测实验,~~在工程师指导下完成磁盘容量、GC频率等风险检测的预测实验,学习应用 机器学习方法 优化规则库,整理误报率与检测延迟表现,为异常检测模型与阈值策略优化提供数据支持~~**在导师指导下做了磁盘容量、GC频率等预测实验,尝试用机器学习方法改进规则库,并整理误报率和延迟表现**。
|
|||
|
|
5. 协助告警体系优化,参与配置告警优先级、延迟触发与抑制策略,分析告警日志中的误报与重复率,~~提出改进意见并配合形成告警优化方案,支持告警系统与业务场景更好对齐,减少重复推送与干扰~~**提出了一些改进意见,帮忙配合优化方案,减少了重复告警**。
|
|||
|
|
6. 参与自动化修复流程测试,协助调试常见运维脚本(磁盘清理、分片迁移),~~记录修复前后指标对比结果,整理测试报告并提交导师审核,提升故障响应效率,为后续智能修复场景积累验证经验~~**记录修复前后的指标对比,整理成测试报告交导师审核,提升了故障响应效率**。
|
|||
|
|
7. 协助系统集成与云原生部署实验,参与在 Kubernetes 环境 下的 ES 集群弹性伸缩与代理层接入测试,~~记录跨环境兼容性与性能表现,整理结果形成阶段性文档,支持云原生架构下的可扩展性与弹性部署优化~~**记录了跨环境兼容性和性能情况,写成阶段性文档,支持云原生部署的优化**。
|
|||
|
|
|
|||
|
|
# 二、专业技能
|
|||
|
|
|
|||
|
|
### (一)核心能力
|
|||
|
|
|
|||
|
|
1. ~~精通企业数字化转型方法论,能够通过高层访谈、 workshops 和工作流分析,深度挖掘客户在运维效率、成本优化和业务连续性等方面的核心痛点。熟练运用价值流图(VSM)和痛点矩阵等工具,为客户制定清晰的AIOps建设路线图、场景建设优先级和ROI分析,提供具有前瞻性和落地性的数智化转型咨询~~**熟悉企业数字化转型的基本方法,能用价值流图(VSM)分析运维流程,帮助确定AIOps建设的优先级和ROI,参与整理建设方案**。
|
|||
|
|
2. ~~具备强大的技术方案设计和技术营销能力,能够针对智能监控、异常检测、故障预测、根因分析、智能修复等核心场景,设计完整的技术架构和实施方案。精通产品演示技巧,能够针对不同层级(高管、技术经理、工程师)的客户,精准阐述方案价值,并主导撰写高质量的技术建议书、招标文件和解决方案白皮书~~**能参与智能监控、异常检测等场景的方案设计,协助老师完成方案文档,学习过如何面向不同角色去讲解方案价值**。
|
|||
|
|
3. ~~具备卓越的项目协调和资源整合能力,能够作为技术纽带,高效协同产品研发、交付实施、客户运维等多方团队。深入理解敏捷开发与DevOps流程,能够将客户需求精准转化为产品需求(PRD),推动研发团队进行产品功能迭代和优化,确保技术方案高效落地和客户满意度提升~~**能在项目中起到协助协调的作用,熟悉敏捷开发和DevOps流程,学习把客户需求转化为产品需求,帮助团队推进方案优化**。
|
|||
|
|
4. ~~深入理解AIOps技术生态和发展趋势,熟悉主流监控工具(Prometheus/Zabbix/Datadog)、自动化运维平台、机器学习框架(Sklearn/TensorFlow)和LLM应用。具备第三方技术评估和选型能力,能够设计异构系统集成架构,制定数据对接、API集成和生态产品整合的技术方案~~**了解AIOps生态和发展趋势,熟悉 Prometheus、Grafana 等常见工具,也学习过用 Sklearn 做简单实验,参与过API对接的方案设计**。
|
|||
|
|
|
|||
|
|
### (二)复合能力
|
|||
|
|
|
|||
|
|
1. 人工智能应用能力:了解人工智能的发展路径与主流算法框架(如Transformer、多模态模型),初步掌握LLM调用、Prompt编写与图文生成工具的使用方法,具备AI基础素养与合规意识。
|
|||
|
|
2. Agent智能体开发基础能力:理解Agent的基本结构与工作机制,了解其在物联网、自动化控制和多任务协同中的应用模式,初步具备使用LangChain等主流框架实现简单任务编排和功能调用的能力。
|
|||
|
|
3. 计算机系统基础理解能力:具备从计算机底层结构(CPU架构、缓存设计、指令系统)到上层操作系统演进(Linux、虚拟化、边缘OS)的系统理解能力,能够初步分析软硬件协同机制与设备运行原理。
|
|||
|
|
4. 基础编程能力:掌握数组、链表、哈希表、堆栈、树与图等核心数据结构的原理与使用场景,具备使用Python进行数据处理与基础编程的能力。
|
|||
|
|
5. 版本管理与协同开发能力:掌握Git的本地提交、远程仓库操作流程,具备多人协作开发、代码评审与冲突解决的工作经验。
|
|||
|
|
6. Linux系统操作能力:能够在Linux环境下完成磁盘管理、用户权限配置、网络设置等常规操作,熟悉文件系统与命令行工具,具备脚本自动化与远程运维的初步经验。
|
|||
|
|
7. 持续学习能力:关注技术前沿趋势,如扩散模型、多模态大模型等方向,具备持续学习的意愿与主动探索的习惯,能够主动跟进新技术动态并将其应用于实际学习或项目尝试中。
|
|||
|
|
8. 自动化脚本应用能力:会使用Python对本地数据进行基础处理、接口调用任务,能够使用小型自动化工具来提升开发与运维效率,具备基础的异常处理与日志记录能力。
|
|||
|
|
9. 网络通信协议理解能力:理解TCP/IP模型、Wi‑Fi、蜂窝通信、BGP路由等核心网络协议,了解云计算架构下的网络基础设施与数据传输机制,具备构建连接与排查通信问题的基础能力。
|
|||
|
|
10. 嵌入式与边缘设备部署基础:了解物联网设备中的嵌入式系统架构,具备边缘设备操作系统、驱动管理与资源调度机制的基本认知,能够协助完成设备配置与系统调优任务。
|
|||
|
|
|
|||
|
|
# 三、个人评价
|
|||
|
|
|
|||
|
|
在实习过程中,~~具备扎实的AIOps平台实施与运维能力,能够参与需求调研并利用价值流图(VSM)分析运维流程,明确监控场景建设的优先级。熟悉 Prometheus、Grafana 等主流监控工具,能够协助完成多集群指标采集与可视化面板配置,提升数据展示的准确性与运维人员的定位效率。具备智能诊断与异常检测的基础经验,能够通过机器学习方法辅助优化规则库,并结合误报率与检测延迟数据提出改进建议。掌握告警优先级配置、延迟触发与抑制策略,能够配合团队优化告警系统,减少重复推送。熟悉 Linux 与 Kubernetes 环境,能够协助完成 Docker 容器化部署与ES集群弹性伸缩测试,保证平台在云原生架构下的可扩展性。学习过程中注重技术文档整理与结果分析,保持对AIOps生态与前沿技术的持续关注,展现出较强的学习力与协作力,为后续在智能运维平台建设与实施领域的发展奠定了良好基础~~**在实习过程中,参与了需求调研并用价值流图(VSM)分析运维流程,帮忙整理了监控场景优先级。熟悉 Prometheus、Grafana 等监控工具,能协助完成多集群指标采集和大屏配置。尝试过做智能诊断和异常检测实验,用机器学习方法优化规则库,并提出过改进建议。参与过告警优先级和抑制策略的配置,帮助减少了重复推送。熟悉 Linux 和 Kubernetes 环境,协助完成 Docker 部署和ES集群弹性测试。平时也注重文档整理和结果分析,对AIOps生态和新技术保持关注,展现了较强的学习力和团队协作力,为后续在智能运维平台方向打下了基础**。
|