国家自然科学基金(60903098) 作品数:19 被引量:108 H指数:6 相关作者: 左万利 彭涛 刘露 王俊华 王英 更多>> 相关机构: 吉林大学 烟台大学 哈尔滨工程大学 更多>> 发文基金: 国家自然科学基金 中央级公益性科研院所基本科研业务费专项 吉林省重大科技攻关项目 更多>> 相关领域: 自动化与计算机技术 更多>>
基于信誉模型的众包质量控制算法 2023年 针对目前众包平台会产生大量恶意工人以及较少考虑激励工人多次提供可信服务的问题,提出一种基于信誉模型的众包质量控制算法——信誉期望最大化(reputation expectation maximum,Rep-EM)算法。根据可信因子和惩罚因子建立信誉模型;基于工人信誉值和对任务的熟悉度提出一种工人选择机制;将工人匹配度作为权重赋予相应的工人并使用多数投票方法进行初始值选取,解决期望最大化(expectation maximum,EM)算法对初始值敏感和收敛困难的问题,避免算法陷入局部最优,提高评估结果的准确率;利用公开的众包数据集Adult2和Duck对Rep-EM算法和本研究提出的机制进行验证。试验结果表明,Rep-EM算法在评估准确率和运行时间方面有很大的提升,也从任务完成率和平均数据质量验证了本研究提出的工人选择机制的有效性。 褚佳静 潘庆先 潘亚楠 刘庆菊关键词:众包 EM算法 基于证据理论的单词语义相似度度量 被引量:4 2015年 单词语义相似度度量一直是自然语言处理领域的经典和热点问题,其成果可对词义消歧、机器翻译、本体映射、计算语言学等应用具有重要影响.本文通过结合证据理论和知识库,提出一个新颖的度量单词语义相似度度量途径.首先,借助通用本体Word Net获取证据;其次,利用散点图分析证据的合理性;然后,使用统计和分段线性插值生成基本信任分配函数;最后,结合证据冲突处理、重要度分配和D-S合成规则实现信息融合获得全局基本信任分配函数,并在此基础上量化单词语义相似度.在数据集R&G(65)上,对比本文算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,相关度达到0.912,比当前最优方法 P&S高出0.4个百分点,比经典算法re LHS、dist JC、sim LC、sim L和sim R高出7%~13%;在数据集M&C(30)和Word Sim353上也取得了比较好的实验结果,相关度分别为0.915和0.941;且算法的运行效率和经典算法相当.实验结果显示使用证据理论解决单词语义相似度问题是合理有效的. 王俊华 左祥麟 左万利关键词:词计算 统计学习 证据理论 本体定义及本体代数 被引量:3 2010年 基于现有的本体定义,采用函数式描述语言精确定义了本体建模基元,给出一种新的本体形式化描述,并给出了本体间近义关联的定义,在新本体形式化描述和本体间近义关联定义的基础上,提出一种具有封闭性的本体代数定义,同时结合函数式描述语言,给出了其形式化描述. 王俊华 左万利 赫枫龄 王英关键词:形式化描述 基于启发式信息的Deep Web查询接口属性抽取 电子商务网站以查询接口的方式提供商务信息,查询接口也是隐藏在后端的Deep Web数据库模式信息的载体.有效解析查询接口是访问Deep Web资源的第1步,但是由于查询接口在不同的设计模式和开发语言下实现,所以导致了属性... 梁浩 左万利 任斐 赫枫龄关键词:电子商务 查询接口 语义关系 启发式信息 文献传递 Deep Web查询转换研究 由于Web数据库具有自治性和异构性的特点,造成了各查询接口在内容、形式以及查询能力上都不尽相同,使得用户的查询请求受限于其给定的查询接口的表达能力,这给查询转换的准确性带来了更大的挑战。因此,对Deep Web查询转换进... 王英 左万利 王鑫 彭涛关键词:本体 查询转换 文献传递 基于本体的Deep Web查询接口集成 被引量:3 2012年 Deep Web中的海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,引入本体技术,提出基于本体的Deep Web查询接口集成方法.Deep Web查询接口集成主要完成两个方面的工作:模式匹配与模式融合.模式匹配采用本体的"Bridge(桥接)"效应建立不同接口模式间的属性映射关系,以准确发现不同接口属性间的语义关联.模式融合根据模式匹配的结果,合并DeepWeb数据库查询接口集合中表示同一语义的属性,并尽可能地保持该领域查询接口的结构特征和属性顺序,以获得集成查询接口.通过实验分析,基于本体的DeepWeb查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度.因此,基于本体的Deep Web查询接口集成方法是高效可行的. 王英 左祥麟 左万利 王鑫关键词:本体 DEEP WEB 接口集成 异质网中基于张量表示的动态离群点检测方法 被引量:7 2016年 挖掘隐藏在异质信息网络中丰富的语义信息是数据挖掘的重要任务之一.离群点在值、数据分布、和产生机制上都明显不同于正常数据对象.检测离群点并分析其不同的产生机制,最终消除离群点具有重要的现实意义.目前,针对异质信息网络动态离群点检测的研究工作相对较少,还有很多问题有待解决.由于异质信息网络的动态性,随着时间的变化,正常数据对象也可能转变为离群点.针对异质网络提出一种基于张量表示的动态离群点检测方法(TRBOutlier),并根据张量表示的高阶数据构建张量索引树.通过搜索张量索引树,将特征加入到直接项集和间接项集中.同时,根据基于短文本相关性的聚类方法来判断数据集中的数据对象是否偏离其原聚簇来动态检测网络中的离群点.该模型能够在充分降低时间和空间复杂度的条件下保留异质网络中的语义信息.实验结果表明:该方法能够快速有效地进行异质网络环境下的动态离群点检测. 刘露 左万利 彭涛关键词:聚类 一种基于密度的分布式聚类方法 被引量:13 2017年 聚类是数据挖掘领域中的一种重要的数据分析方法.它根据数据间的相似度,将无标注数据划分为若干聚簇.CSDP是一种基于密度的聚类算法,当数据量较大或数据维数较高时,聚类的效率相对较低.为了提高聚类算法的效率,提出了一种基于密度的分布式聚类方法 MRCSDP,利用MapReduce框架对实验数据进行聚类.该方法定义了独立计算单元和独立计算块的概念.首先,将数据拆分为若干数据块,构建独立计算单元和独立计算块,在集群中分配独立计算块的任务;然后进行分布式计算,得到数据块的局部密度,将局部密度合并得到全局密度,根据全局密度计算中心值,由全局密度和中心值得到每个数据块中候选聚簇中心;最后,从候选聚簇中心选举出最终的聚簇中心.MRCSDP在充分降低时间复杂度的基础上得到较好的聚类效果.实验结果表明,分布式环境下的聚类方法MRCSDP相对于CSDP更能快速、有效地处理大规模数据,并使各节点负载均衡. 王岩 彭涛 韩佳育 刘露关键词:聚类 分布式计算 MAPREDUCE 基于Pareto分布的众包工人欺骗行为处理方法 被引量:3 2019年 由于众包的组织模式自由松散,致使众包工人在完成任务的过程中存在欺骗行为。如何识别工人的欺骗行为并降低其影响,从而保障众包任务的完成质量,已经成为众包领域的研究热点之一。通过对任务结果的评估与分析,针对众包工人统一型欺骗行为,提出了一种基于广义Pareto分布(GPD)的权重设置算法(WSABG)。该算法对GPD进行极大似然估计,并用二分法逼近似然函数的零点以计算出尺度参数σ和形状参数ε。算法中定义了新的权重公式,并利用众包工人完成当前任务的反馈数据赋予每位工人一个绝对影响权重,最终设计出了基于GPD的众包工人权重设置框架。所提算法可以解决任务结果数据之间差异性小且容易集中在两极的问题。以烟台大学学生评教数据为实验数据集,提出了区间转移矩阵的概念,证明了WSABG算法的有效性和优势。 潘庆先 江珊 董红斌 王莹洁 潘廷伟 殷增轩关键词:众包 广义PARETO分布 基于聚类和决策树的链路预测方法 被引量:5 2017年 链路预测是数据挖掘研究的主要问题之一.由于网络的复杂性、数据的多样性,根据网络结构及已有信息对异质网络中的不同类型的数据进行链路预测的问题也变得更加复杂.针对双类型异质信息网络,提出了一种基于聚类和决策树的链路预测方法 CDTLinks.通过将网络中2种类型对象互为特征的方法得到对象的特征表示,并分别进行聚类.对于双类型异质网络提出了3种启发式规则来构建决策树,根据信息增益来选择树中不同分支.最后,根据聚簇分布结果以及决策树模型来判断任意2个不同类型节点之间是否存在链接.另外,定义了潜在链接节点并引入层数的概念,在降低算法运行时间的同时提高了准确率.在DBLP和AMiner数据集上验证了提出的CDTlinks方法,结果表明:在双类型异质网络中,CDTlinks模型能够有效地进行链路预测. 杨妮亚 彭涛 刘露关键词:链路预测 聚类 决策树 启发式规则