关键句采集 原创(基于gensim的摘要自动生成算法研究与实现吴国文) -足球即时指数
优采云采集器 发布时间: 2021-09-03 19:08关键句采集 原创(基于gensim的摘要自动生成算法研究与实现吴国文)
基于gensim的摘要自动生成算法研究与实现
肖元君吴国文*
[abstract] abstract 为了让计算机能够从中文文章中提取摘要,提出了一种自动中文摘要生成算法。该算法基于gensim自然语言处理框架实现,在原有基础上进行了改进。算法主要分为两个阶段。在关键句生成阶段,对中文语料进行预处理,放入gensim框架中的word2vec模型中进行训练。修改textrank算法,接受词向量的输入,生成无向图来寻找关键句;摘要生成框架构建阶段,根据gensim框架中lda主题模型中提取的文章结构和关键词,给句子赋予不同的权重,将几个得分高的句子组合起来生成文章摘要. rouge文摘评价结果表明,该算法生成的文摘可以收录文章关键信息。与其他自动抽象算法相比,提高了句子含义的平滑度。
[期刊名称]“计算机应用程序和软件”
[年(卷)、期] 2019(036)012
[总页数] 6
[关键词]关键词gensim 框架 word2vec 模型 textrank 算法摘要生成框架 lda 主题模型 rouge 摘要评测
0 简介
自动摘要技术是指利用计算机对文本进行处理,挖掘出最合适的句子。是自然语言处理领域一个非常重要的分支。
在当今学术领域,生成文本摘要的方式主要有两种,1)提取,顾名思义,就是将文章中最关键的一句话选为文章summary。例如,李娜娜等。 [1] 提出了一种基于textrank的自动摘要优化算法,利用词频统计找出文章的关键句,
优采云采集器是一个根据用户提供的关键词,云端自动采集相关文章并发布到用户网站的网站采集器。它能够自动识别各种网页上的标题、正文等信息,不需要用户编写任何采集规则就可以实现全网采集。采集到内容后,会自动计算内容与所设定的关键词的相关度,只把相关的文章推送给用户。支持标题前缀、关键词自动加粗、插入固定链接、自动提取tag标签、自动内链、自动配图、自动伪原创、内容过滤和替换、电话号码和网址清理、定时采集、百度主动提交等一系列seo功能。用户只需设置好关键词和相关需求,就能实现全托管、零维护的网站内容更新。不限网站数量,不管是单个网站还是大批量站群,都可以非常方便的进行管理。