都云程
- 作品数:24 被引量:135H指数:5
- 供职机构:北京拓尔思信息技术股份有限公司更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金北京市属高等学校人才强教计划资助项目更多>>
- 相关领域:自动化与计算机技术文化科学自然科学总论更多>>
- 基于分解转移矩阵的PageRank迭代计算方法
- 提出了一种基于分解转移矩阵的 PageRank 的迭代计算方法。该方法对 PageRank 理论模型进一步推导, 把其 Markov 状态转移矩阵进行了分解,从而降低存储开销和计算复杂度,减少 I/O 需求,使得 Pag...
- 刘松彬都云程施水才
- 关键词:PAGERANK搜索引擎矩阵分解
- 文献传递
- 网页结构模板生成新方法研究被引量:4
- 2007年
- Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性。为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法。该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集。利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取。实验表明,该方法准确率可达97%。
- 冯少卿都云程
- 关键词:DOM样本集
- 一种将启发式规则和HMM相结合的web信息抽取方法
- 目前web已经成为人们获取信息的主要来源,如何从web上抽取信息成为了信息抽取领域研究的热点。由于web文档是基于html语言的半结构化文档,不具备很强的统计学规律故而很难将传统的文本抽取领域中的HMM抽取模型应用在we...
- 伍丹都云程李渝勤王弘蔚
- 关键词:启发式规则WEB信息抽取文本抽取
- 文献传递
- 基于字同现频率的关键词自动抽取被引量:4
- 2011年
- 为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。
- 都云程周伟韩艳铧吕学强
- 关键词:关键词自动抽取
- 基于模板匹配及曲线拟合的视频字幕细化研究
- 2014年
- 在视频字幕识别过程中,由于字幕像素比较低,使得二值化后,汉字边缘出现不规整的锯齿。针对该类汉字的细化,提出基于模板匹配及曲线拟合的方法。用角度为0°、45°、90°、135°的线段作为模板,分别匹配汉字中"横"、"撇"、"竖"、"捺"笔划,实现笔划提取;用二次Bezier曲线拟合"撇"、"捺"笔划,实现笔划重绘。对比实验表明,该方法对视频字幕的细化是有效的,且结果可以更好地被识别。
- 李钦瑞都云程刘坤吕学强
- 关键词:笔划
- 中国软件专利的现状和特点:基于软件发明的实证分析被引量:5
- 2009年
- 由于软件专利比计算机著作权有更广泛的保护范围,软件的专利权保护成为一种新的趋势。目前对软件专利的研究主要基于法律、经济和创新管理三个学科的视角,但是缺乏对中国软件专利现状和特点的实证研究。通过对专利摘要进行关键词检索,搜集了在国家知识产权局申请的所有软件专利,分析了软件专利在中国的增长、地域分布、代表机构分布和技术领域分布,并与相关研究进行了国际比较。研究发现,我国软件专利的年增长速度高于同期世界软件专利的增长速度;外国在华的软件专利份额与其在全球软件产业中的地位是一致的;我国软件专利的代表机构绝大部分为有着巨大专利存量的大型制造企业,软件厂商仅占据极少的份额,这与世界软件专利的代表机构分布是一致的;我国软件专利的技术领域分布与世界软件专利的技术领域分布类似但更加集中;我国软件专利的核心部门是计算机和通信部门,次要部门是电和电子部门。
- 向渊博刘小青都云程
- 关键词:关键词检索
- 基于多层条件随机场的中文命名实体识别被引量:27
- 2009年
- 命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。
- 胡文博都云程吕学强施水才
- 关键词:条件随机场命名实体识别
- 一种通用HTML网页主题信息提取方法
- Web页面所表达的“主题”信息通常隐藏在大量无关结构和文字中,准确完整地提取网页主题信息是影响Web应用服务质量的关键技术之一。目前的提取方法多依赖于网页模板信息,而Web上的网页模板不计其数,因此这些方法缺乏通用性。且...
- 许文都云程李渝勤施水才
- 关键词:服务质量
- 文献传递
- 基于CRF的英文人名实体及其子类型识别研究
- 实体识别是自然语言处理的基础研究领域,是信息抽取、机器翻译等多种自然语言处理技术的基础。本文主要利用CRF工具包,选取了不同的特征以及特征模板,对英文人名实体及子类型识别进行了研究,通过不同的实验考察了不同的特征集和不同...
- 陈雄都云程王弘蔚施水才
- 关键词:条件随机场英文人名自然语言处理
- 文献传递
- 基于模板的网页主题信息抽取
- 快速准确地抽取网页主题信息是影响 Web 应用服务质量的关键。网页模板就是已经做好的网页框架,由模板生成的网页结构布局是基本一致的。本文提出了利用模板技术进行网页主题信息抽取的算法。该方法充分考虑了网页的结构特征,能够明...
- 冯少卿都云程施水才
- 关键词:DOM网页样本集信息抽取
- 文献传递