陈飞 作品数:6 被引量:54 H指数:3 供职机构: 清华大学信息科学技术学院计算机科学与技术系 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
网页质量评价体系的研究 被引量:4 2011年 网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regres-sion模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论:互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。 魏超 陈飞 许丹青 张敏 刘奕群 马少平关键词:信息检索 ORDINAL LOGISTIC 基于查询子主题分类的多样性搜索评价方法 被引量:1 2015年 多样化检索结果的评测通常假设一个查询词包含多个权重各不相同的用户子意图,并在此假设的基础上对检索结果进行评测.虽然大多数已经存在的多样化检索评测方法利用了这些特性对检索结果进行评测,但在评测过程中,它们都忽略了查询子意图的类型信息;而不同类型的查询子意图对信息需求具有不同的特点.首先,通过引入衰减函数对这种特点进行描述,进而对用户子意图的分类方法进行抽象;在此基础上,提出了利用查询子意图类型信息进行多样化检索结果评测的框架,该框架定义了利用查询子意图类型信息进行多样化检索评测的方法应该具有的结构;然后,讨论了在用信息类和导航类作为子意图分类方法的前提下,其对应的衰减函数的形式;最后,在TREC与NTCIR测试集上的实验结果表明了所提出方法的有效性. 陈飞 刘奕群 张敏 马少平基于条件随机场方法的开放领域新词发现 被引量:44 2013年 开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果. 陈飞 刘奕群 魏超 张云亮 张敏 马少平关键词:新词发现 CONDITION RANDOM 中文分词 新型电光调Q腔内倍频绿光激光器 被引量:2 2000年 本文报道了一种新型的LD泵浦Nd∶YVO4 -KTP电光调Q绿光激光器 ,用单块KTP晶体同时作为电光调Q开关和Ⅱ类相位匹配的倍频晶体 ,减少了腔内损耗 ,提高了效率 ,得到了脉宽为 12ns的绿光脉冲序列。激光器采用纵向同轴泵浦方式、独特的整体控温技术和小焦距非球面聚焦透镜 ,并把全部元件固化为一个整体 ,进一步提高了器件的效率。 陈飞 霍玉晶 何淑芳 冯立春关键词:KTP 绿光激光器 电光调Q开关 倍频晶体 LD泵浦Nd:YVO_4-KTP绿光激光器整体控温的设计 2000年 报道一种微型全固态绿光激光器的整体控温技术。对绿光激光器的温度敏感性做了详细的分析。采用单片机系统模糊控制使温度稳定度小于 0 .1℃。 陈飞 霍玉晶 何淑芳 冯立春关键词:绿光激光器 模糊控制 LD泵浦 基于HITS算法的查询结果多样化方法 被引量:3 2011年 现有的查询结果多样化研究很难准确得到用户多样性需求并提供与用户查询各个方面需求相关的文档。针对这个问题,本文基于HITS算法的网页间链接分析特性,根据网页链接图直接计算查询结果列表中的文档可能满足用户多样性需求的程度,并将其应用到结果列表的重排序中以实现搜索结果多样性。在TREC大规模数据集合上的实验结果表明了该方法的有效性。 陈飞 张敏 刘奕群 马少平关键词:HITS PAGERANK 权威性 中心性