曹亚男
- 作品数:42 被引量:92H指数:7
- 供职机构:中国科学院信息工程研究所更多>>
- 发文基金:国家自然科学基金中国科学院战略性先导科技专项国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 一种微博热点事件的地理位置发现方法
- 本发明公开了一种微博热点事件的地理位置发现方法。本方法为:1)基于行政区规划地理词词典及中文简称词的命名规则构建一简称词词典,然后将该简称词词典与全称词词典进行关联;2)根据事件关键字,获取包含该事件关键字的微博信息;3...
- 敖吉牛温佳曹亚男张鹏乔治谭建龙郭莉
- 一种用于生成式摘要的评估方法及排序网络
- 本发明公开了一种用于生成式摘要的评估方法及排序网络。本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度;第二,使用相似度模型评估文本和摘要之间的语义相关性;第三,为了有效评估实体、专有词的复现程度,引入...
- 曹亚男徐灏尚燕敏刘燕兵谭建龙郭莉
- 文献传递
- 融合链接拓扑结构和用户兴趣的朋友推荐方法被引量:7
- 2015年
- 提出一种新的朋友推荐方法,该方法同时使用用户兴趣和朋友关系这2种因素来为目标用户推荐朋友,对PageRank算法进行改进,提出一种能同时融合上述2种因素的Topic_Friend_PageRank(TFPR)模型。首先,采用LDA(latent Dirichlet allocation)分析用户发布的消息内容,将用户表示为若干主题上的分布,从而建模用户的兴趣。接下来,使用加权的PageRank算法建模用户在整个链接拓扑中的重要程度和用户之间朋友关系的相似性。最后根据主题感知的PageRank思想,将用户兴趣融入前面提到的加权PageRank中,形成同时融合用户兴趣和朋友关系的TFPR模型。采用新浪微博数据验证所提模型的性能,实验证明该模型能同时得到较高的准确率和召回率。
- 尚燕敏张鹏曹亚男
- 关键词:社交网络朋友关系主题模型PAGERANK算法
- 基于异质图自监督学习的恶意域名检测方法及装置
- 本发明公开了一种基于异质图自监督学习的恶意域名检测方法和系统。所述方法包括:将DNS场景建模为一个原始异质图;其中,所述原始异质图中的节点包括:域名、客户端和IP地址;在数据层面上引入轻微的扰动来生成所述原始异质图的轻微...
- 袁方方李志平曹亚男张啸梁卢毓海曹聪刘燕兵
- 基于线性阈值模型的影响力传播权重学习被引量:8
- 2014年
- 度量用户间影响力对商品的营销和推广具有重要作用。然而,已有工作通常假设用户之间的相互影响行为是独立的,忽略了影响力在传播过程中具有的累积效应。为解决此问题,该文在线性阈值模型的框架下,提出一种影响力传播权重的计算方法。该方法将社交网络中用户的历史行为日志看作样本,借鉴最大似然估计的思想对用户间影响力学习问题建模,并设计一种优化的粒子群算法对问题求解。实验使用真实数据验证了该方法的有效性。
- 郭静曹亚男周川张鹏郭莉
- 关键词:社交网络
- 一种面向知识图谱复杂逻辑推理的生成式方法
- 本发明公开了一种面向知识图谱复杂逻辑推理的生成式方法。本发明包括查询转换模块和扩散推理模块,逻辑查询转换模块将一阶逻辑查询转换为输入序列,扩散推理模块展示了前向和后向的双向生成过程,并设计了一个结构增强自注意力机制的变换...
- 曹亚男 刘瑜 尚燕敏 方芳 林希珣 尹鹏飞刘燕兵
- 基于社会正则的行为定向
- 2013年
- 行为定向又称为兴趣定向,是在线广告的一种有效投放手段,主要指网络媒体或广告联盟网络根据用户的历史行为信息为用户投放其感兴趣的广告.用户的历史行为信息包括搜索历史、网页浏览历史、广告点击和交易历史等,研究表明这些行为数据具有稀疏性、实时性和海量的特点.如何针对这些特点设计更好的行为定向方法已成为研究界和工业界面临的主要难题.针对行为数据具有稀疏性这一特点,提出一种新的融合社会信息与用户历史行为信息的行为定向方法.该方法的基本思想是基于Homophily理论:朋友之间对某一事物的喜好或态度具有一定的相似性,单个用户对该事物的喜好可通过其朋友们对该事物的态度来判断.首先将行为定向看作一个优化问题—采用泊松回归建模用户对广告的浏览和点击次数,并通过使数据似然最大的方法构建目标函数;然后将社交网络的朋友关系数据抽象为社会正则项,并将该正则项作为优化问题的一部分,以建模朋友之间的相互影响.本文中,我们根据朋友们喜好的相似度差异提出两个社会正则项:均值正则项———朋友们的喜好相似度较高;个体正则项———朋友们的喜好相似度差异较大.将这两个社会正则项分别加到上述优化问题中,对应均值模型和个体模型.实验表明这两个模型的性能要优于传统的只使用用户历史行为信息的行为定向方法;尤其当用户的历史行为数据稀疏时,我们的模型在点击率提升度上比传统方法提高了5%的精度.
- 尚燕敏张鹏曹亚男
- 一种文档的篇章级事件论元抽取方法、系统及介质
- 本发明公开了一种文档的篇章级事件论元抽取方法、系统及介质,属于文本信息抽取领域,针对上下文一致性检索、模式一致性检索和自适应混合检索这三种检索方式,通过构建基于T5模型的检索增强生成模型,执行对应的检索增强策略,可以回忆...
- 曹亚男毕冠群任昱冰尹鹏飞刘燕兵
- 一种零样本对话状态追踪方法
- 本发明公开了一种零样本对话状态追踪方法,其步骤包括:1)划分阶段:对于每一段对话状态标注的对话文本C<Sub>t</Sub>,利用预训练语言模型f将对话文本C<Sub>t</Sub>转换成对话文本向量e<Sub>t</S...
- 曹亚男王青悦方芳尚燕敏尹鹏飞刘燕兵
- 一种基于微博的事件实时监测方法及系统
- 本发明涉及一种基于微博的事件实时监测方法及系统,所述方法包括:异常事件检测步骤,输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存...
- 李凌云张鹏曹亚男乔治敖吉谭建龙郭莉