国家自然科学基金(60303024) 作品数:13 被引量:78 H指数:6 相关作者: 张亚非 李向阳 陆建江 徐宝文 周晓宇 更多>> 相关机构: 东南大学 解放军理工大学 武汉大学 更多>> 发文基金: 国家自然科学基金 软件工程国家重点实验室开放基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
一种受限非负矩阵分解方法 被引量:17 2004年 提出一种获取潜在语义的受限非负矩阵分解方法 .通过在非负矩阵分解方法的目标函数上增加 3个约束条件来定义受限非负矩阵分解方法的目标函数 ,给出求解受限非负矩阵分解方法目标函数的迭代规则 ,并证明迭代规则的收敛性 .与非负矩阵分解方法相比 ,受限非负矩阵分解方法能获取尽可能正交的潜在语义 .实验表明 ,受限非负矩阵分解方法在信息检索上的精度优于非负矩阵分解方法 . 黄钢石 张亚非 陆建江 徐宝文关键词:非负矩阵分解 潜在语义 信息检索 C程序单元级依赖性分析 被引量:5 2004年 程序依赖性分析是软件分析的一个基本内容 ,目前的相关工作大多集中在语句级的分析方面。人们同样需要单元级的依赖信息来考察单元间的信息流向及整个程序的构架。本文针对C程序中函数间的调用依赖、参数传递依赖、全局数据依赖以及文件间的包含依赖和外部变量定义依赖进行了分析 ,并提出单元依赖图表达这些关系。基于此图 ,本文采用基于信息论的方法度量了单元间的耦合性。单元依赖图中保留的函数调用间的互斥关系提高了度量的准确性。相关的分析思想和技术适用于分析使用其它高级程序设计语言编写的软件。 周晓宇 黄文伟 史亮 徐宝文关键词:函数调用 内聚性 BP Network Based Users’Interest Model in Mining WWW Cache 2006年 By analyzing the WWW Cache model, we bring forward a user-interest description method based on the fuzzy theory and user-interest inferential relations based on BP(baek propagation) neural network. By this method, the users' interest in the WWW cache can be described and the neural network of users' interest can be constructed by positive spread of interest and the negative spread of errors. This neural network can infer the users' interest. This model is not the simple extension of the simple interest model, but the round improvement of the model and its related algorithm. ZHANG Wei-feng XU Bao-wen ZHANG Xiao-fang CUI Zi-feng ZHOU Xiao-yu关键词:WWW 基于语义提升HMM的语义标注 被引量:3 2005年 语义标注所用标签数目众多 ,训练数据更为稀疏 ,用 HMM作语义标注面临参数估计不准的难题。不同于传统的解决数据稀疏方法 ,以《同义词词林》的层次式结构为依据 ,提出了利用语义层次的提升来改善HMM( hidden Markov model)中参数的估计质量 ;在算法实现中 ,采用选择受限策略来解决因语义提升而引起的模型辨别力下降问题。测试表明 ,在训练数据相对稀疏的情况下 ,适度调整模型的语义层次可大幅提高语义标注的精度 。 李向阳 张亚非 陆建江关键词:语义标注 隐马尔可夫模型 自然语言处理 一种基于自举原理的语义模式自动获取方法 被引量:3 2005年 语义模式的自动获取是解决信息抽取系统可移植性问题的关键之一。文章提出了一种基于自举原理的语义模式自动获取方法。该方法是一种新的双循环自举机制,由内自举和外自举两部分组成。内自举借助通用的《同义词词林》扩张模式的语义范围;外自举利用模式之间的交叉项作为链接点自动寻找新模式。用于从未标注的文本中自动发现语义模式,启动时只须用户提供少量的抽取示例作为种子,运行中即可增量式地发现新语义模式。测试表明,该方法产生的语义模式在信息抽取中具有较好的准确率和召回率。 李向阳 张亚非关键词:语义模式 信息抽取 基于源代码插桩的C程序内存使用错误动态检测 被引量:8 2004年 针对C程序内存使用错误的预防和处理方法分基于静态分析和动态分析两类。静态分析工具研制复杂 ,目前还没有得到广泛使用的高效工具。动态分析又分为基于目标代码和源代码插桩分析两类。由于缺少完整的语法、语义信息 ,基于目标代码的分析有时对错误的捕捉、定性不够精确。基于源代码的分析由于其信息的完整可以达到对错误的最精确报告。本文对C程序中的内存使用错误进行了分析 ,并讨论了一个C程序内存错误动态检测工具的设计思想 ,给出了系统流程、关键数据结构。 周晓宇 黄文伟 史亮 徐宝文关键词:内存错误 插桩 软件测试 一种基于语义的汉语短语识别方法 在简单分析语法上识别汉语短语困境的基础上,提出一种利用语义搭配关系识别汉语短语的方法。首先,利用同义词词林对词的语义类进行编码,并借助这种语义编码来表示语义关系;在此基础上,定义短语与已知语义知识的相似性,计算词语搭配的... 李向阳 张亚非关键词:短语识别 语义搭配 语义相似性 信息抽取 文献传递 挖掘典型的语言值关联规则 被引量:3 2004年 通过给定的最小支持率和最小信任度来挖掘语言值关联规则往往会得到很多规则 ,因此用户很难获得真正关注的语言值关联规则 .本文提出一种挖掘典型语言值关联规则的算法 ,此算法将挖掘得到的语言值关联规则按照相同的后件进行分组 ,然后对每个分组中的语言值关联规则根据规则之间的不相似性进行聚类 .最后从每个类中挑选出代表类原型的语言值关联规则作为典型的语言值关联规则 .典型的语言值关联规则是语言值关联规则集合中最具有代表意义的规则 . 陆建江 徐宝文关键词:数据挖掘 语言值 关联规则 一种Web信息抽取规则的优化方法 被引量:5 2006年 提出一种Web信息抽取规则的优化方法,用于提高信息抽取的效率.采用分级制的思想,将原有规则中的限制条件分为粗规则和细规则两部分.粗规则面向网页中所有的信息片断,用于信息的初步过滤;细规则面向过滤后的信息片断,用于抽取最终的信息.由此,避免了将规则中的限制条件应用于网页中的所有信息片断,达到了减少计算量、提高抽取速度的目的. 李向阳 戴江山 张亚非关键词:分级制 信息抽取 一种军用文图自动转换方案 被引量:6 2004年 军事标图自动化是军队指挥自动化的基础性工作之一。信息抽取是一种实用性强的自然语言处理技术。提出一种军用文图自动转换方案,它利用信息抽取技术实现,无须计算机完全理解标图文书,具有可操作性强的特点。同时,该方案以图标信息作为文本与图形的接口,可保证领域之间的独立性,便于领域信息的保密和不同领域之间的合作。对抽取标图信息的MIE(军用信息抽取)系统的抽取情况进行了初步评估,评估结果表明MIE系统具有一定的实用性。 李向阳 张亚非关键词:信息抽取 军事标图 自动转换