Skip to content

Latest commit

 

History

History
45 lines (23 loc) · 2.6 KB

2024_数字中国创新大赛_大模型用于肝病场景下的问答助手.md

File metadata and controls

45 lines (23 loc) · 2.6 KB

比赛地址

https://www.dcic-china.com/competitions/10090

比赛内容

属于cdss的范畴,建立一个问答助手,阅读病人的个性化病历数据,回答该病人在关键医疗场景中提出的关键问题

数据内容

1、训练数据集:训练数据集由病历数据、问题和标准答案构成。病历数据由120份模拟真实场景的肝癌病人的病历数据通过脱敏脱密和必要的数据安全处理机制处理后生成。每份病历数据属于4个医疗场景中的1个(医疗场景为:①入院首次②检查完毕后首次治疗前 ③首次治疗后出院前;④出院时)。每份病历数据的字数在2000个汉字以内,使用标准的txt格式。每份病历数据有对应的问题(病人在该应用场景最常问的15个问题)和对问题的标准答案(由评审专家共同评审后得出)。

2、评测数据集:评测数据集由初赛评测数据集(60份病历数据)和决赛评测数据集(60份病历数据)组成,每份病历数据属于4个医疗场景中的1个(医疗场景为:①入院首次②检查完毕后首次治疗前 ③首次治疗后出院前;④出院时)。每份病历数据的字数在2000个汉字以内,使用标准的txt格式。每份病历数据有对应的问题(病人在最常问的15个问题),但没有答案。

3、知识集: 包括肝病和肝癌的权威知识,覆盖外科,内科、护理、影像、病理等多个医疗部门。

4、基座模型:训练的基座大模型考虑到医院真实环境中算力基础设施的局限性和安全合规要求,采用清华的ChatGLM2-6B开源大模型。

评测方式

主办方提供评测病历数据共60份,并提供模型运行环境,选手提供运行代码并生成答案,由评审专家打分后产生排名,分值计算规则和初赛相同。

基本思路

整体上采用fine-tuning和rag的结合,具体如下:

(1)基座模型的continue pretraining

(2)基座模型的sft

(3)利用知识集,做rag

可以结合实际需求,把gpt4用于问答助手构建的各个具体阶段中。

补充具体方案设计: liver_solution_v0 1 drawio

相关数据分析:

https://zhpmatrix.notion.site/zhpmatrix/2024-04416033e59e4f46a27237dd652921ec

其他

福建医科大学孟超肝胆医院、福建人工智能计算中心、福州大学医工交叉研究院联合主办,上一次比赛是肝癌病理金数据,做文本结构化的,非常不错。