AI应用评测

未来功能开发偏向AI应用功能的评测，减少RAG评测的开发。最近在做一些AI应用，发现评测太困难了。

现在很多应用开发都有AI相关的功能，比如关键词提取、脱敏、总结、判断等功能。
在一个系统中，可能有多个AI功能。对于某一个功能，程序员在编写时需要调试提示词、大模型参数等等，每一次修改后的测试可能仅基于本地的少量数据，有时改完后甚至还没有之前的效果好，但程序员并没有测试出来。
那么应该有一个系统，每次修改后能够一键进行测试和评估，能够记录每一次的修改日志，能够对比不同版本的效果。
辅助我们调整到更好的提示词和参数。

现在要把性能评测和精度评测串联，不然每个配置，很浪费时间。

**下一步的实现：**
代码中，使用RAGEval提供的Python函数，直接进行评测。
参数如：部署地址、用户信息、项目编号、数据集编号、性能并发配置、精度并发配置、提示词配置、版本描述、评测方式编号（默认五分量表）、大模型配置（或者本地大模型调用的函数）、AI功能入口函数（要求输入变量数量为一）

【用户函数】AI功能入口函数返回：结果（必须）、大模型提示词（为了便于分析问题和调试）、其他内容（还是为了调试）

前端结果展示，用户可以看到每条的评测结果，每条的提示词、其他内容，也可以修改某一条的分数、给出评测备注。


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AI应用评测 #7

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

AI应用评测 #7

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions