Files
KQL a7242f0c69 Initial commit: 教务系统在线平台
- 包含4个产业方向的前端项目:智能开发、智能制造、大健康、财经商贸
- 已清理node_modules、.yoyo等大文件,项目大小从2.6GB优化至631MB
- 配置完善的.gitignore文件

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
2025-12-12 18:16:55 +08:00

6.3 KiB
Raw Permalink Blame History

AI模型训练工程师

对应岗位AI模型训练工程师

一、项目经历

项目名称大规模AI模型训练与部署全链路实战

实习岗位AI模型训练工程师助理

实习时间2024.05-2024.06

(四)实习单位:北京君南圣达信息技术有限公司

(五)岗位职责:

  1. 协助导师基于 PyTorch 框架完成大规模模型的训练实验,学习并实践 混合精度训练AMP 与 梯度累积 技巧在指导下接触混合精度训练AMP和梯度累积尝试不同超参数组合并做简单整理学习如何影响训练收敛速度与性能
  2. 参与数据清洗与特征工程流程主要学习数据清洗和特征处理的方法,使用 Pandas、NumPy 做格式转换,检查样本不平衡情况,并在老师建议下尝试数据增强策略。
  3. 在工程师指导下参与多种架构ResNet、LSTM、Transformer的对比实验协助完成指标收集与分析;根据实验结果撰写阶段性小结帮忙记录实验指标和结果,整理基础小结,逐步理解不同架构在场景下的差异
  4. 参与模型缺陷分析,学习使用 混淆矩阵与错误样本归因Bad Case Analysis 定位性能瓶颈接触过用混淆矩阵分析模型效果,在指导下尝试 Focal Loss 等方法,体会如何改善过拟合或样本不平衡。
  5. 协助团队在 Linux 环境下完成开发环境配置,熟悉 Git 分支管理与 Code Review 流程学习 Git 的基本操作,尝试代码提交与合并;在部署环节中,接触 Docker 打包流程,并跟着老师使用 W&B 记录实验参数。
  6. 在实习期间持续关注 Hugging Face 与 NeurIPS 前沿论文,并尝试复现部分开源代码,参与组会技术分享在老师推荐下阅读 Hugging Face 的文档,尝试复现简单开源代码,并在组会上分享学习笔记

二、专业技能

(一)核心能力

  1. 精通 PyTorch 框架及混合精度训练AMP、梯度累积等高级训练技巧掌握 PyTorch 基础训练流程,接触过 AMP、梯度累积等技巧能在指导下完成实验设置和调参
  2. 深刻理解从数据准备、特征工程、模型训练、评估到轻量化部署的完整MLOps理念了解从数据处理到模型训练、评估再到部署的基本流程能对不同架构ResNet、LSTM、Transformer做基础对比并记录结果
  3. 不仅限于使用准确率等基础指标,更擅长通过混淆矩阵、错误样本归因等技术深度剖析模型缺陷在老师带领下学习用混淆矩阵和错误样本分析来观察模型问题,能提出简单的优化思路
  4. 具备出色的技术选型与敏捷开发能力,能快速复现顶级会议算法有过复现开源模型的尝试,能使用 Hugging Face、Timm 等库完成小规模实验,积累实践经验
  5. 精通 Git 进行规范的团队协作开发,熟练使用 Docker 容器化技术能用 Git 进行代码提交和版本管理,初步掌握 Docker 打包与 W&B 记录实验的方法
  6. 建立了系统的AI知识体系持续跟踪AGI领域的最新进保持对新技术如大模型、Agent的兴趣常通过文档和社区学习并在实习中做过分享

(二)复合能力

  1. 人工智能应用能力了解人工智能的发展路径与主流算法框架如Transformer、多模态模型初步掌握LLM调用、Prompt编写与图文生成工具的使用方法具备AI基础素养与合规意识。
  2. 计算机系统基础理解能力具备从计算机底层结构CPU架构、缓存设计、指令系统到上层操作系统演进Linux、虚拟化、边缘OS的系统理解能力能够初步分析软硬件协同机制与设备运行原理。
  3. 基础编程能力掌握数组、链表、哈希表、堆栈、树与图等核心数据结构的原理与使用场景具备使用Python进行数据处理与基础编程的能力。
  4. 持续学习能力:关注技术前沿趋势,如扩散模型、多模态大模型等方向,具备持续学习的意愿与主动探索的习惯,能够主动跟进新技术动态并将其应用于实际学习或项目尝试中。
  5. Agent智能体开发基础能力理解Agent的基本结构与工作机制了解其在物联网、自动化控制和多任务协同中的应用模式初步具备使用LangChain等主流框架实现简单任务编排和功能调用的能力。
  6. 自动化脚本应用能力会使用Python对本地数据进行基础处理、接口调用任务能够使用小型自动化工具来提升开发与运维效率具备基础的异常处理与日志记录能力。
  7. 版本管理与协同开发能力掌握Git的本地提交、远程仓库操作流程具备多人协作开发、代码评审与冲突解决的工作经验。
  8. 网络通信协议理解能力理解TCP/IP模型、WiFi、蜂窝通信、BGP路由等核心网络协议了解云计算架构下的网络基础设施与数据传输机制具备构建连接与排查通信问题的基础能力。
  9. 嵌入式与边缘设备部署基础:了解物联网设备中的嵌入式系统架构,具备边缘设备操作系统、驱动管理与资源调度机制的基本认知,能够协助完成设备配置与系统调优任务。
  10. Linux系统操作能力能够在Linux环境下完成磁盘管理、用户权限配置、网络设置等常规操作熟悉文件系统与命令行工具具备脚本自动化与远程运维的初步经验。

三、个人评价

在学习与实习中,具备扎实的深度学习基础,能够使用 PyTorch 完成模型训练与调优逐步掌握了PyTorch 的训练流程,能在老师指导下完成模型训练与简单调优。熟悉常见的数据清洗方法,能用 Pandas 与 NumPy 做预处理,并在样本不平衡问题上尝试过优化。对 ResNet、LSTM、Transformer 等架构有基础认知,学会用混淆矩阵分析效果。能在 Linux 环境下完成开发环境搭建,用 Git 做版本管理,并接触过 Docker 和 W&B 等工具。平时也关注 Hugging Face 和开源代码,喜欢整理学习笔记并分享。虽然经验还有限,但学习能力强,愿意在实践中不断积累,逐步成长为能独立完成模型训练与优化的工程师。