该比赛任务定义简单，问题经典。但是目前只能看到部分解决方案的分享，主要包括比赛的第三名(部分分享)和第五名的方案，借此可以简单梳理一下经典的统计机器学习方法。

背景

电力行业积累了大量的文本数据，这些数据包括电力科技论文，项目报告，电力规程，电力操作手册等。虽然数据类型丰富，但是电力行业还没有建立较全的电力主题词典。

任务

对给定的电力文本数据，利用专业领域词发现算法来挖掘电力专业词汇。

数据

包含10000篇电力科技论文(已打乱顺序)的文本数据，其中每行为文献中的一句话且句子间已经被无序打乱。

评测

ROUGE = 用户提交的正确词汇去重后的总数 / 人工抽取的电力领域词汇总数

建模思路

或许可以采用监督学习的思路，可以建模为一个命名实体识别的任务。但是比赛方提供的数据没有标签，因此需要解决的第一个问题是标签哪里来的问题？一种方法是将电力领域的科技论文的关键词(摘要下侧)作为实体。

官方提供的数据没有标注信息，因此采用无监督的思路或许也是一个方法。比如新词发现任务，借助传统统计机器学习的方法。

方案复盘(第五名，目前能看到的)

该方案是无监督的方案。可以将种子词理解为“搜索词”，候选词集理解为“召回集”，相似度计算对应一个“排序过程”，这样就可以理解的相对清晰了，模型的优点和缺点也容易分析。该框架不仅可以适用于电力领域，也可以适用于其他领域的词汇挖掘。在数据量较大的前提下，如果将模型层的一些方法替换成DL的方法，或许可以进一步提升。

补充

目前只能找到第三名和第五名的方案，第三名的方案如下：

除此之外，还可以看到一些方案。通过构建一个二分类器(给定一个词，判断是否是电力领域专业词汇)的实现，通过构建大量的特征来进行讨论，这也是一个思路，但是仍然要回到有监督学习问题中标签的构建问题。标签不一定要比赛方提供，存在于互联网上的大量数据本来就可以当做一种标签。

参考

1.第五名

2.某参赛者的一个实现

3.新词发现的信息熵方法与实现

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘.md

DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘.md

背景

任务

数据

评测

建模思路

方案复盘(第五名，目前能看到的)

补充

参考

Files

DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘.md

Latest commit

History

DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘.md

File metadata and controls

背景

任务

数据

评测

建模思路

方案复盘(第五名，目前能看到的)

补充

参考