董诚
- 作品数:79 被引量:643H指数:15
- 供职机构:中国科学技术信息研究所更多>>
- 发文基金:国家自然科学基金国家社会科学基金中国地质调查局地质调查项目更多>>
- 相关领域:文化科学天文地球经济管理自动化与计算机技术更多>>
- 国家重点实验室网站科技资源信息开放共享评估被引量:4
- 2016年
- 阐述国家重点实验室网站信息公开评估的必要性,构建包括信息公开程度、互动交互能力、网站性能三个一级指标的三级指标体系,对评估结果从多个方面进行揭示,最后分析国家重点实验室信息公开目前存在的主要问题,提出加强开放共享文化建设、将科技资源信息开放作为考核的内容之一、建立开放标准规范等建议。
- 董诚李沛
- 关键词:信息公开资源共享科技资源
- USPTO专利发明人重名辨识方法综述被引量:1
- 2018年
- 英文专利发明人姓名歧义现象越来越严重,极大阻碍了英文专利数据的研究应用。为了解英文专利发明人重名辨识方法的研究现状,进行了方法调研和总结:首先,介绍专利发明人重名辨识研究的意义及困难;其次,对国内外现有的专利发明人重名辨识方法进行梳理,主要将其分为基于规则的方法和基于机器学习的方法;最后,对发明人重名辨识方法的优缺点进行总结分析,并对未来方法研究进行展望。建议将深度学习算法和语义指纹算法融入到专利发明人重名辨识方法中,以便更加高效准确地进行发明人重名辨识。
- 于永胜董诚韩红旗李仲
- 关键词:聚类
- 基于契约的产业技术创新战略联盟组织管理机制研究
- 2013年
- 产业技术创新战略联盟是目前国内外的一种重要产业组织形式,对产业的提升和企业的快速发展具有重要的意义。在对产业技术创新战略联盟的内涵,我国产业技术创新战略联盟的组织管理机制、特点以及现阶段我国产业技术创新战略联盟存在的主要问题进行阐述的基础上,分析契约在产业技术创新战略联盟管理中的重要作用。
- 赵家栋董诚
- 关键词:产学研产业技术创新战略联盟契约技术创新
- 国家重点实验室科技资源信息开放共享评价被引量:2
- 2013年
- 国家重点实验室是利用国家财政性资金设立的科学技术研究开发机构,按照国家相关法规,有责任对其拥有的科技资源进行公开、共享。信息共享是科技资源共享的基础。文章对开展的网络环境下国家重点实验室科技资源信息开放共享评估工作进行了介绍。提出了以可见性、可得性和可用性为一级指标的评估指标体系,对总体评估结果和领域评估结果进行了分析,形成了结论和建议。
- 张新民董诚李善青
- 关键词:科技信息资源
- 科技政策术语自动识别技术初探被引量:3
- 2017年
- 在对科技政策领域术语的特点分析基础上,提出一种适用于科技政策领域的术语识别方法,即结合科技政策术语的语言特点,采用统计计算的方法进行两次术语过滤过程,实现科技政策术语的自动识别。实验结果表明,本文提出的基于科技政策术语语言特点和统计计算相结合的科技政策术语自动识别的方法具有一定的可行性,将用于科技政策词典的构建和科技政策文本内容的深层次语义分析。
- 曾文李智杰王小玉董诚
- 关键词:自动识别
- 我国科学数据机构共享绩效评估研究被引量:23
- 2007年
- 本文系统分析了科学数据机构绩效评估的框架体系、评估方法、评估机制;建立了指标体系框架,从机构的保障能力、科学数据自身条件、对外服务能力和综合效能4个方面制定了指标体系。
- 董诚赵伟涂勇
- 关键词:数据共享绩效评估
- 基于BERT和多相似度融合的句子对齐方法研究被引量:6
- 2021年
- 【目的】实现双语句子的自动对齐,为构建双语平行语料库、跨语言信息检索等自然语言处理任务提供技术支持。【方法】将BERT预训练引入句子对齐方法中,通过双向Transformer提取特征,每一个词汇由位置嵌入向量、单词嵌入向量、句子切分嵌入向量三种向量叠加表征词汇的语义信息,进而对源语言与译文、目标语言与译文实施双向度量,融合BLEU得分、余弦相似度和曼哈顿距离三种相似度进行句子对齐。【结果】通过两种任务验证方法的有效性。在平行语料库过滤任务中,召回率为97.84%;在可比语料过滤任务中,当噪声比率分别为20%、50%、90%时,精确率依次为99.47%、98.31%、95.00%。【局限】文本向量化与相似度计算方法可以采用更具有语义表征的方式进行改进。【结论】本方法在平行语料过滤和可比语料过滤两个任务中均优于基线系统,能够获得大规模、高质量的平行语料。
- 刘文斌何彦青吴振峰董诚
- 关键词:机器翻译句子对齐平行语料
- 科技资源共享研究框架体系的探讨被引量:10
- 2007年
- 科技资源共享是一项复杂的系统工程,既需要实践也需要理论研究。本文系统地探讨了科技资源共享的理论研究方法和内容,首先建立了科技资源共享研究框架体系,包括共享的基础研究、过程研究和价值实现研究三大部分,在此基础上,分别对科技资源的属性和特点、实证和模型、价值规律、共享与人文、产权关系、共享服务、评估与监督、共享的实践和科技资源的产业链等方面进行了研究。
- 张渝英董诚王运红
- 关键词:科技资源共享资源价值
- 基于术语抽取与分级匹配的项目指南推荐方法被引量:1
- 2018年
- 信息推荐是自然语言处理领域的重要技术,为进一步向科研人员进行有效的项目指南推荐,本文采用术语词表征文本特征的方式,进行分级匹配推送。通过基于词性规则和句法信息相结合的方法抽取候选术语词,并利用基于统计的方法如C-value、SCP(Symmetrical Conditional Probability)等进行术语词过滤,提高抽取质量。由指南和科研人员术语词进行分级匹配来表征二者之间的相似度,进而实现对科研人员的个性化指南推荐。对国家科技管理信息系统公共服务平台2017年发布的42篇指南设计实验进行验证,分析术语抽取结果,评价指南推荐的准确率,结果表明基于C-value+SCP的方法取得了更优的术语抽取质量,指南的个性化推荐准确率最高达到80%。
- 古迎志董诚裴兵兵杜永萍
- 关键词:术语抽取
- 英国BBSRC的数据共享政策及启示被引量:1
- 2015年
- 科研资助机构作为科学共享领域重要的利益相关者,其所制定的共享政策对促进科学数据的共享具有重要作用。为了全面了解科技资助机构制定的数据共享政策所应涵盖的内容且更有效地促进科学数据的共享,文章以BBSRC的数据共享政策为研究对象,阐述了政策内容,与NIH的数据共享政策进行了对比分析,对我国科研资助机构制定数据共享政策提出建议。
- 王小玉董诚曾文
- 关键词:数据管理