未来功能开发偏向AI应用功能的评测,减少RAG评测的开发。最近在做一些AI应用,发现评测太困难了。
现在很多应用开发都有AI相关的功能,比如关键词提取、脱敏、总结、判断等功能。
在一个系统中,可能有多个AI功能。对于某一个功能,程序员在编写时需要调试提示词、大模型参数等等,每一次修改后的测试可能仅基于本地的少量数据,有时改完后甚至还没有之前的效果好,但程序员并没有测试出来。
那么应该有一个系统,每次修改后能够一键进行测试和评估,能够记录每一次的修改日志,能够对比不同版本的效果。
辅助我们调整到更好的提示词和参数。
现在要把性能评测和精度评测串联,不然每个配置,很浪费时间。
下一步的实现:
代码中,使用RAGEval提供的Python函数,直接进行评测。
参数如:部署地址、用户信息、项目编号、数据集编号、性能并发配置、精度并发配置、提示词配置、版本描述、评测方式编号(默认五分量表)、大模型配置(或者本地大模型调用的函数)、AI功能入口函数(要求输入变量数量为一)
【用户函数】AI功能入口函数返回:结果(必须)、大模型提示词(为了便于分析问题和调试)、其他内容(还是为了调试)
前端结果展示,用户可以看到每条的评测结果,每条的提示词、其他内容,也可以修改某一条的分数、给出评测备注。
未来功能开发偏向AI应用功能的评测,减少RAG评测的开发。最近在做一些AI应用,发现评测太困难了。
现在很多应用开发都有AI相关的功能,比如关键词提取、脱敏、总结、判断等功能。
在一个系统中,可能有多个AI功能。对于某一个功能,程序员在编写时需要调试提示词、大模型参数等等,每一次修改后的测试可能仅基于本地的少量数据,有时改完后甚至还没有之前的效果好,但程序员并没有测试出来。
那么应该有一个系统,每次修改后能够一键进行测试和评估,能够记录每一次的修改日志,能够对比不同版本的效果。
辅助我们调整到更好的提示词和参数。
现在要把性能评测和精度评测串联,不然每个配置,很浪费时间。
下一步的实现:
代码中,使用RAGEval提供的Python函数,直接进行评测。
参数如:部署地址、用户信息、项目编号、数据集编号、性能并发配置、精度并发配置、提示词配置、版本描述、评测方式编号(默认五分量表)、大模型配置(或者本地大模型调用的函数)、AI功能入口函数(要求输入变量数量为一)
【用户函数】AI功能入口函数返回:结果(必须)、大模型提示词(为了便于分析问题和调试)、其他内容(还是为了调试)
前端结果展示,用户可以看到每条的评测结果,每条的提示词、其他内容,也可以修改某一条的分数、给出评测备注。