该比赛任务定义简单,问题经典。但是目前只能看到部分解决方案的分享,主要包括比赛的第三名(部分分享)和第五名的方案,借此可以简单梳理一下经典的统计机器学习方法。
电力行业积累了大量的文本数据,这些数据包括电力科技论文,项目报告,电力规程,电力操作手册等。虽然数据类型丰富,但是电力行业还没有建立较全的电力主题词典。
对给定的电力文本数据,利用专业领域词发现算法来挖掘电力专业词汇。
包含10000篇电力科技论文(已打乱顺序)的文本数据,其中每行为文献中的一句话且句子间已经被无序打乱。
ROUGE = 用户提交的正确词汇去重后的总数 / 人工抽取的电力领域词汇总数
或许可以采用监督学习的思路,可以建模为一个命名实体识别的任务。但是比赛方提供的数据没有标签,因此需要解决的第一个问题是标签哪里来的问题?一种方法是将电力领域的科技论文的关键词(摘要下侧)作为实体。
官方提供的数据没有标注信息,因此采用无监督的思路或许也是一个方法。比如新词发现任务,借助传统统计机器学习的方法。
该方案是无监督的方案。可以将种子词理解为“搜索词”,候选词集理解为“召回集”,相似度计算对应一个“排序过程”,这样就可以理解的相对清晰了,模型的优点和缺点也容易分析。该框架不仅可以适用于电力领域,也可以适用于其他领域的词汇挖掘。在数据量较大的前提下,如果将模型层的一些方法替换成DL的方法,或许可以进一步提升。
目前只能找到第三名和第五名的方案,第三名的方案如下:
除此之外,还可以看到一些方案。通过构建一个二分类器(给定一个词,判断是否是电力领域专业词汇)的实现,通过构建大量的特征来进行讨论,这也是一个思路,但是仍然要回到有监督学习问题中标签的构建问题。标签不一定要比赛方提供,存在于互联网上的大量数据本来就可以当做一种标签。
1.第五名