杨沐昀
- 作品数:185 被引量:335H指数:10
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学政治法律更多>>
- 基于词汇时间分布的微博查询扩展被引量:10
- 2016年
- 该文提出了一种面向微博检索的基于词汇时间分布的查询扩展方法.该方法利用扩展词与查询词的时间分布的相似性来度量扩展词与查询词之间的相关度,建立了基于词汇时间分布的查询模型.具体而言,该文在提出词汇时间分布的定义和估计方法的基础上,给出了查询词与扩展词的时间分布相似性的度量,以此作为它们的相关度,完成扩展词的选择和查询模型的重估.该文方法利用时间信息而不是内容来扩展查询,避免了基于内容的查询扩展方法因微博内容短而无法准确估计扩展词的不足.由TREC 2011和TREC 2012微博检索评测数据上的实验结果表明,基于词汇时间分布的查询扩展模型有效地提高了微博检索的性能,不仅显著优于经典的基于内容的查询扩展模型,而且优于其他利用时间进行查询扩展的方法.
- 韩中元杨沐昀孔蕾蕾齐浩亮李生
- 关键词:查询扩展查询模型社交网络社会媒体
- 机器翻译系统跨领域移植方法的研究被引量:1
- 2005年
- 机器翻译系统跨领域移植是降低系统开发代价的关键性因素。论文以翻译模板对训练语料库机器译文评测分数的贡献为依据,对其进行评价。从模板库中过滤出适应目标领域的翻译知识,以实现系统向新领域的快速移植。利用论文所提出的方法将一个通用领域的机器翻译系统向旅游领域进行移植,并使用来自旅游领域的2469句汉语句子作为测试语料进行开放测试。实验结果表明在开放测试中,机器译文的5元Nist评分提高了2.2807,上升了71.1%。
- 张春祥赵铁军杨沐昀李生时晓升
- 关键词:机器翻译系统
- 基于等价伪译词模型的无指导译文消歧研究被引量:3
- 2008年
- 该文提出了一种基于等价伪译词进行无指导译文消歧的方法。该方法利用源语言岐义词不同语义下目标语译文的单义同义词集合,定义并构造等价伪译词。利用等价伪译词从目标语语料中自动获取大量已标注语义的目标语实例。由这些实例得到的目标语语义知识,可直接形成该等价伪译词的语义分类器。利用Hownet可将含目标歧义词的英语实例映射成汉语词集合,然后利用这个语义分类器进行译文消歧。在国际标准语义评测集上进行的测试表明,该方法优于其余两种自动获取已标注语料的系统,且与Senseval-2 ELS上可比较的最好无指导系统的性能相当。
- 刘鹏远赵铁军杨沐昀李壮
- 关键词:词义消歧译文消歧目标语
- 一种基于自学习策略的专利成果转化推荐方法及装置
- 一种基于自学习策略的专利成果转化推荐方法及装置,方法包括:获取专利数据集;从每个企业的专利中各抽取一件专利,组成训练集;采用多种方法计算所述训练集中每件专利的摘要文本与所述数据集中剩余专利的摘要文本的相似度;根据采用预设...
- 杨沐昀吴禹橦徐冰曹海龙朱聪慧赵铁军
- 基于回归支持向量机的信息检索
- 2010年
- 使用回归分析策略以文档满足用户的信息需求程度作为回归分析的目标值,利用回归支持向量机构建了信息检索模型.新模型不仅提供了融合不同来源特征的灵活框架,而且由于使用回归支持向量机寻找具有ε不敏感损失的回归函数,因此具有良好的泛化性能.实验表明,新模型性能优于目前主流的基于语言模型的信息检索方法.
- 韩咏齐浩亮杨沐昀李生
- 关键词:信息检索支持向量机
- 面向信息检索的近邻语言模型被引量:2
- 2011年
- 面向信息检索的语言模型对单篇文档构建语言模型,存在较严重的数据稀疏问题。该文认为利用文档的近邻信息能够更合理地反映词在文档中的分布,有助于数据稀疏问题的解决,因此将文档的近邻信息加入语言模型的平滑算法中,提出近邻语言模型。该文在TREC评测的典型文档集美国能源署文件(DOE)和《华尔街日报》(WSJ)数据集上测试了在不同近邻选择来源上近邻语言模型的性能。实验结果表明,近邻语言模型对检索性能有一定的提升。
- 韩中元李生齐浩亮杨沐昀
- 关键词:信息检索语言模型
- 利用语义相似度解决双语词汇知识获取的错误累计问题
- 在利用大规模英汉双语平行语料库进行双向双语翻译词典建设时发现:由于错误累计问题.现有词对齐技术无法直接获取质量较高的双语词汇知识.由此提出一种基于HowNet以及WordNet进行相似度计算,然后设定相似度阈值来进行词义...
- 刘鹏远赵铁军李生杨沐昀
- 关键词:词对齐知识获取HOWNET语义相似度语义词典双语翻译
- 文献传递
- 计算机专业研究型人才培养模式初探
- 随着我国进入WTO以来,我国的高等教育事业也正在经历建国以来最大的一次变革。产业化、远程化等国际教育的发展趋势正在冲击着我国的高校,各个高校都在努力寻找自己在新形势下的目标和定位。哈工大作为全国知名的重点大学,提出的建设...
- 杨沐昀赵铁军
- 文献传递
- 一种基于深度学习面向公检法领域的相关事件识别方法
- 本发明公开一种基于深度学习面向公检法领域的相关事件识别方法。步骤1:采集网络上各种热点信息标题,进行非中文、非英文、非数字字符的清理并存储在数据库中;步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识...
- 赵铁军徐冰杨沐昀郭常江朱聪慧曹海龙
- 一种面向多语言大模型的词语表示学习方法
- 本发明提出一种面向多语言大模型的词语表示学习方法。所述方法在表示能力上能够显著高于主流的静态和动态词向量模型。本发明突破性地将单语词的向量表示改进为多点的流形表示。这种新的框架有望增加词向量空间的整体容量,更好地应对一词...
- 曹海龙杨沐昀朱聪慧赵铁军徐冰傅畅