Skip to content

Latest commit

 

History

History
46 lines (23 loc) · 2.63 KB

DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘.md

File metadata and controls

46 lines (23 loc) · 2.63 KB

该比赛任务定义简单,问题经典。但是目前只能看到部分解决方案的分享,主要包括比赛的第三名(部分分享)和第五名的方案,借此可以简单梳理一下经典的统计机器学习方法。

背景

电力行业积累了大量的文本数据,这些数据包括电力科技论文,项目报告,电力规程,电力操作手册等。虽然数据类型丰富,但是电力行业还没有建立较全的电力主题词典。

任务

对给定的电力文本数据,利用专业领域词发现算法来挖掘电力专业词汇。

数据

包含10000篇电力科技论文(已打乱顺序)的文本数据,其中每行为文献中的一句话且句子间已经被无序打乱。

评测

ROUGE = 用户提交的正确词汇去重后的总数 / 人工抽取的电力领域词汇总数

建模思路

或许可以采用监督学习的思路,可以建模为一个命名实体识别的任务。但是比赛方提供的数据没有标签,因此需要解决的第一个问题是标签哪里来的问题?一种方法是将电力领域的科技论文的关键词(摘要下侧)作为实体。

官方提供的数据没有标注信息,因此采用无监督的思路或许也是一个方法。比如新词发现任务,借助传统统计机器学习的方法。

方案复盘(第五名,目前能看到的)

img2

该方案是无监督的方案。可以将种子词理解为“搜索词”,候选词集理解为“召回集”,相似度计算对应一个“排序过程”,这样就可以理解的相对清晰了,模型的优点和缺点也容易分析。该框架不仅可以适用于电力领域,也可以适用于其他领域的词汇挖掘。在数据量较大的前提下,如果将模型层的一些方法替换成DL的方法,或许可以进一步提升。

补充

目前只能找到第三名和第五名的方案,第三名的方案如下:

img

除此之外,还可以看到一些方案。通过构建一个二分类器(给定一个词,判断是否是电力领域专业词汇)的实现,通过构建大量的特征来进行讨论,这也是一个思路,但是仍然要回到有监督学习问题中标签的构建问题。标签不一定要比赛方提供,存在于互联网上的大量数据本来就可以当做一种标签。

参考

1.第五名

2.某参赛者的一个实现

3.新词发现的信息熵方法与实现