some extracted method for summary
自动文本摘要主要分为两种,分别是抽取式和生成式。
-
抽取式生成文本摘要的系列算法最重要的假设是,认为文章有些核心语句可以涵盖全篇的重要信息; 算法的任务就是找出那些涵盖重要信息的语句。
-
目前的抽取式算法有: · 基于统计:统计词频,位置等信息,计算句子权值,再简选取权值高的句子作为文摘, 特点:简单易用,但对词句的使用大多仅停留在表面信息。
· 基于图模型:构建拓扑结构图,对词句进行排序。例如,TextRank/LexRank
· 基于潜在语义:使用主题模型,挖掘词句隐藏信息。例如,采用LDA,HMM
· 基于整数规划:将文摘问题转为整数线性规划,求全局最优解
-
生成式文本摘要是试图让算法在理解文档的基础上,从文档中抽象出能表达文档核心意义的语句。
-
随着神经网络研究的兴起,生成式算法日新月异,目前前沿的生成式算法主要是端到端的模型架构, 加上词向量训练的强大表征能力,实现的摘要结果可以超越最好的抽取式模型。而BERT模型同样可以 用于文本摘要生成任务。这部分将在后续补充。