在招职位如下:
大模型应用测试工程师
工作城市:上海
薪资:10k-15k
学历要求:本科,硕士,博士
岗位性质:全职
岗位描述:
薪资:10k-15k
学历要求:本科,硕士,博士
岗位性质:全职
岗位描述:
我们正在寻找一位深耕大模型应用质量保障的工程师。你将负责构建面向大模型应用(如 RAG 知识库、AI Agent、Text2SQL 等)的全链路评测体系,通过智能化测试手段保障模型输出的准确性、安全性与鲁棒性,推动大模型技术在业务场景中的高质量落地。
岗位职责:
一、大模型评测体系构建
1. 主导设计并落地大模型应用的多维评测体系,覆盖准确性、鲁棒性、泛化性、幻觉检测、生成质量量化等核心指标;
2. 针对 RAG、Text2SQL、Agent 等典型大模型应用场景,设计场景化评估方案与测试基准(Benchmark);
3. 探索并引入前沿的大模型评估方法论(如基于 LLM-as-a-Judge 的自动化评估、对抗性测试等),推动关键技术落地。
二、测试执行与质量保障
4. 深入理解业务需求与核心功能逻辑,独立编写高覆盖率的测试用例、测试方案及评估报告;
5. 执行大模型应用的端到端(E2E)测试、接口测试、性能测试及稳定性测试,保障全链路质量;
6. 负责缺陷的全生命周期管理,深度参与故障应急、根因排查与修复验证,建立 Bug 预防机制。
三、测试技术创新与效能提升
7. 基于 LangChain / LangGraph / MCP 等大模型技术栈,开发或引入智能化测试工具与自动化测试框架;
8. 研究并落地智能化 E2E 测试、自动化数据构造、模型行为回归检测等创新手段,持续提升测试效率;
9. 参与团队测试技术平台建设,沉淀测试方法论、工具链与最佳实践,推动技术输出与知识共享。
四、项目协同与风险管控
10. 协助项目负责人推进测试进度,识别并评估技术风险与质量风险,推动测试流程标准化。
职位要求:
一、必备条件
1. 学历背景:本科及以上学历,计算机科学、软件工程、汽车工程或相关专业;
2. 专业基础:具备扎实的软件测试与质量保障理论基础;在校期间有相关实习经历,或在课程、毕业设计中具备大模型应用(如 RAG、Agent、Text2SQL 等)的测试或开发实践经验;
3. 技术理解:熟悉大模型(LLM)的基本工作原理、能力边界及典型应用场景,了解 Prompt Engineering、RAG 检索链路、模型幻觉等核心概念;
4. 编程能力:具备扎实的编程基础与数据结构知识,熟练掌握 Python 或 Java,具备良好的编码规范;
5. 测试技能:具备独立分析复杂需求、设计测试策略的能力,有自动化测试框架或测试工具的设计/开发经验。
二、技术栈偏好(满足以下一项或多项优先)
- 大模型生态:熟悉 RAG、LangChain、LangGraph、MCP、Skill 等大模型应用开发框架或协议;
- UI 自动化:掌握 Selenium、Playwright、Cypress 等工具;
- 接口自动化:熟练使用 Pytest、Unittest、Requests、HttpClient 等;
- App 自动化:具备 Appium 移动端测试经验;
- 性能测试:熟悉 JMeter、LoadRunner 等性能测试工具;
三、软技能
6. 业务洞察:具备较强的业务理解能力与学习能力,能快速切入复杂业务领域;
7. 文档能力:具备优秀的技术文档编写与方案输出能力;
8. 团队协作:工作严谨细致,具备高度的责任心与推动力,能在跨团队协作中有效推进质量保障工作。
岗位职责:
一、大模型评测体系构建
1. 主导设计并落地大模型应用的多维评测体系,覆盖准确性、鲁棒性、泛化性、幻觉检测、生成质量量化等核心指标;
2. 针对 RAG、Text2SQL、Agent 等典型大模型应用场景,设计场景化评估方案与测试基准(Benchmark);
3. 探索并引入前沿的大模型评估方法论(如基于 LLM-as-a-Judge 的自动化评估、对抗性测试等),推动关键技术落地。
二、测试执行与质量保障
4. 深入理解业务需求与核心功能逻辑,独立编写高覆盖率的测试用例、测试方案及评估报告;
5. 执行大模型应用的端到端(E2E)测试、接口测试、性能测试及稳定性测试,保障全链路质量;
6. 负责缺陷的全生命周期管理,深度参与故障应急、根因排查与修复验证,建立 Bug 预防机制。
三、测试技术创新与效能提升
7. 基于 LangChain / LangGraph / MCP 等大模型技术栈,开发或引入智能化测试工具与自动化测试框架;
8. 研究并落地智能化 E2E 测试、自动化数据构造、模型行为回归检测等创新手段,持续提升测试效率;
9. 参与团队测试技术平台建设,沉淀测试方法论、工具链与最佳实践,推动技术输出与知识共享。
四、项目协同与风险管控
10. 协助项目负责人推进测试进度,识别并评估技术风险与质量风险,推动测试流程标准化。
职位要求:
一、必备条件
1. 学历背景:本科及以上学历,计算机科学、软件工程、汽车工程或相关专业;
2. 专业基础:具备扎实的软件测试与质量保障理论基础;在校期间有相关实习经历,或在课程、毕业设计中具备大模型应用(如 RAG、Agent、Text2SQL 等)的测试或开发实践经验;
3. 技术理解:熟悉大模型(LLM)的基本工作原理、能力边界及典型应用场景,了解 Prompt Engineering、RAG 检索链路、模型幻觉等核心概念;
4. 编程能力:具备扎实的编程基础与数据结构知识,熟练掌握 Python 或 Java,具备良好的编码规范;
5. 测试技能:具备独立分析复杂需求、设计测试策略的能力,有自动化测试框架或测试工具的设计/开发经验。
二、技术栈偏好(满足以下一项或多项优先)
- 大模型生态:熟悉 RAG、LangChain、LangGraph、MCP、Skill 等大模型应用开发框架或协议;
- UI 自动化:掌握 Selenium、Playwright、Cypress 等工具;
- 接口自动化:熟练使用 Pytest、Unittest、Requests、HttpClient 等;
- App 自动化:具备 Appium 移动端测试经验;
- 性能测试:熟悉 JMeter、LoadRunner 等性能测试工具;
三、软技能
6. 业务洞察:具备较强的业务理解能力与学习能力,能快速切入复杂业务领域;
7. 文档能力:具备优秀的技术文档编写与方案输出能力;
8. 团队协作:工作严谨细致,具备高度的责任心与推动力,能在跨团队协作中有效推进质量保障工作。

