曾剑平
- 作品数:48 被引量:96H指数:5
- 供职机构:复旦大学更多>>
- 发文基金:国家自然科学基金教育部人文社会科学研究基金上海市自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理电子电信文化科学更多>>
- 基于重叠度与完整度的LDA主题优选方法被引量:4
- 2019年
- 以LDA为基础的许多主题模型能够从一定数量的文本中推断出主题个数及主题描述,其存在的问题是主题个数难于确定,也难于决定描述每个主题的特征词汇。针对这个问题,结合LDA与TF-IDF量化的效果,同时考虑对原文本集的涵盖程度以及主题间的独立性,提出了一种Overlap-Completeness得分法的主题区分度优选方法。该方法在LDA建模的基础上,利用TF-IDF获取主题最具代表性的词汇,定义主题词汇间的重叠度、表达的完整度,给出了主题优选的评价方法。最终不仅能得到最佳主题数目,而且还能得到每个主题的最合适的描述词汇。在信息安全新闻文本集上进行了实验研究,结果表明该方法与基本的LDA模型相比,更能选择出有区分度的主题和有代表性的词汇。
- 柏志安曾剑平
- 关键词:LDA模型TF-IDF主题识别
- 一种基于微簇的分布式聚类算法
- 2011年
- 由于信息化的不断拓展,一方面数据广泛分布于不同的部门,各部门需求在不泄漏自身数据的情况下进行充分合作;另一方面由于数据量的巨大,集中式的运算已经很难满足各种应用的需求。在这一个背景下,分布式数据挖掘已经成一个研究的热点,通过将系统划分为中心节点和边缘节点,分层管理并减少数据交流给系统带来的负担;文章还将给出微簇的定义,并在边缘节点中进行算法的描述。实验说明在保证各部门的数据不泄漏的情况下,分布式算法具有跟集中式的K-means算法相近的准确率,说明算法具有可行性和有效性。
- 何青松吴承荣曾剑平
- 关键词:分布式聚类
- 投资者情绪指数、分析师推荐指数与股指收益率的影响研究——基于我国东方财富网股吧论坛、新浪网分析师个股评级数据被引量:13
- 2014年
- 本文基于我国东方财富网股吧论坛和新浪网分析师个股评级数据,通过构建向量自回归VAR模型,检验了投资者情绪指数、分析师推荐指数和上证指数收益率之间的动态关系,得出如下研究结论:1、分析师推荐指数的上涨会导致股指收益率短期上涨。2、投资者情绪与分析师推荐之间存在双向格兰杰因果关系。3、投资者情绪指数的上涨会导致股指收益率的下降。本研究不仅有助于理解我国投资者情绪对股票收益的影响机制,而且也为监管层对市场的监管提供一定的决策依据。
- 段江娇刘红忠曾剑平
- 关键词:股指收益率VAR模型
- 一种多模型集成的网络论坛流量预测模型被引量:3
- 2020年
- 论坛流量预测对网络规划、舆情管理等任务具有重要意义,针对线性预测模型无法预测非线性关系、非线性预测模型的特征工程过于复杂的问题,利用历史时间序列作为特征,建立一种基于不同算法的集成模型以预测论坛发帖量。运用差分自回归移动平均、长短期记忆神经网络、Prophet以及梯度提升决策树4种模型分别对时间序列进行预测,参照加权投票法的思想,各模型投票选出时间序列单位下密度较大的预测值区间,依据各模型预测值所处区间的密度大小对各预测值进行权重分配,然后通过加权平均得到最终的预测结果。实验结果表明,与算术平均模型、基于均方根误差的加权平均模型相比,该模型预测结果的RMSE值以及相对误差值更小。
- 廖含月曾剑平吴承荣
- 关键词:时间序列预测
- 一种社交媒体中企业硬件设施敏感信息防护方法
- 本发明属于隐私保护技术领域,具体为一种社交媒体中企业硬件设施敏感信息防护方法。本发明首先建立硬件基础设施信息库,然后通过构建硬件分类模型和硬件型号匹配算法确定社交媒体描述信息所涉及的硬件型号;最后通过获得的硬件型号有针对...
- 曾剑平崔战伟
- 文献传递
- 基于层次注意力的银行间资金面情绪分析方法
- 本发明提供了一种基于层次注意力的银行间资金面情绪分析方法,具有这样的特征,包括以下步骤:步骤S1,根据现有的多个词典和现有财经新闻文本构建三级情感词典;步骤S2,根据三级情感词典、现有财经新闻文本和现有的BERT‑BiL...
- 曾剑平刘亚妮李智鑫
- 基于DOM树与模板的自适应网络信息抽取方法被引量:2
- 2022年
- 针对论坛型网站的特性,包括标签的重复出现和文本内容的特定模式等,提出一种基于DOM树与模板的自适应信息抽取算法。以拥有共同父节点的邻近结构的相似子树为基础,提出生成候选集以及候选集过滤细分的抽取规则生成方法。该算法能很好地适应论坛网页结构的变化,当网页结构改变后自动生成新的抽取规则。实验结果表明,在多个不同论坛型网站页面及相应改版页面上,该方法能够有效生成抽取规则以实现Web论坛信息抽取,并获得比现有信息抽取方法更好的性能。
- 柏志安廖健曾剑平
- 关键词:信息抽取自适应DOM树
- 中文语境下的口令分析方法
- 现今的大部分网络信息系统均采用基于口令的用户身份鉴别方式,用户口令的安全性直接关系到个人信息的安全性.目前口令分析挖掘的研究主要针对英文使用习惯的口令,并且也局限在一些常见的单词或姓氏上.本文针对中文语境下,主要是古诗、...
- 曾剑平陈其乐吴承荣
- 关键词:信息安全评价指标
- 基于时间信息的关键子话题提取方法
- 本发明属于文本分析技术领域,具体是一种网络文本信息分析方法,尤其涉及一种基于时间信息的关键子话题提取方法。其步骤是,下载文本信息记录,提取其中的时间信息,再对相同时间点的文本的话题进行识别,然后定义并计算时间引用网络的节...
- 吴承荣曾剑平王巍
- 文献传递
- 一种支持多数据源的索引维护方法
- 本发明属于搜索引擎技术领域,具体涉及一种支持多数据源的索引维护方法。本发明将整个索引库分为一系列子索引库,每个子索引库存储一定时间粒度内的索引,子索引库包含一个独立的目录及相关文件。操作步骤分为三个流程:子索引库的数据加...
- 曾剑平吴承荣