饶高琦
- 作品数:51 被引量:578H指数:9
- 供职机构:北京语言大学更多>>
- 发文基金:国家社会科学基金国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学经济管理更多>>
- 时代精神:基于1946年到2015年报刊语料和隐含主题模型的历史热词提取被引量:1
- 2016年
- 语言监测是语言规划学的基础任务。一定时间范围内的热词或关键词则是语言监测工作的重要研究对象。目前向前挖掘历史热词的工作较少。本文采用计算语言学中广泛使用的隐含主题建模方法,对第二次世界大战后70年的大陆中文报刊历时语料库进行了主题词簇的抽取,获得了相应时间段的时代热词与年度词。相比于依照频率排序的方法,使用隐含主题模型的方法获得的热词与历史直观较为吻合。所提取出的2006年以后的热词与'汉语盘点'活动中的专家与投票相结合所获得的评选结果有较好可比性。这都验证了隐含主题模型加少量人工修正的方法在历时热词提取方面的性能。
- 饶高琦
- 关键词:语言监测
- 文言信息的自动抽取:基于统计和规则的尝试被引量:1
- 2015年
- 文言信息的自动抽取有利于语言监测和语料库构建。同时该文的计算研究也验证了语言学界关于汉语文白系统连续性的自省结论。该文将从混合语料中标注文言文的问题视为短文本分类的问题进行处理。使用基于规则和基于统计的方法对文言文、白话文本进行分类。在基于规则的方法中,考虑文言常用虚词和句式的影响,对N-gram、朴素贝叶斯、最大熵、决策树模型的性能进行了研究。结果表明监测虚词系统的一元语言模型的F值达到了0.98。
- 虞宁翌饶高琦荀恩东
- 关键词:文本分类统计模型
- 服务国际中文教育的词语搭配知识库建设
- 2022年
- 搭配知识库是一类重要的语言教学资源,词语搭配知识在教学中具有重要的实践价值。然而专门服务国际中文教育的词语搭配知识库在规模和覆盖面上均有不足。本文基于针对性、常用性、规模性、动态性和可控性的构建理念,以《国际中文教育中文水平等级标准》为难易度控制标准,采用了知识抽取相关算法,获得了140余万条词语搭配知识,构建了等级可查、难度可控、应用方便的国际中文教育词语搭配知识库。该知识库在自学、助教等典型教学场景中可以发挥重要作用。该知识库现已投入智慧汉语教学平台的建设中,并已取得良好效果。
- 王雨肖叶荀恩东饶高琦
- 关键词:词语搭配知识库知识抽取
- “国际中文教育工程化问题”大家谈被引量:23
- 2022年
- 《语言教学与研究》编辑部近些年特别关注语言学研究及相关应用研究的新观念,新理论,新方法,新领域,新学科的生长过程和实践活动,并以大家谈或专栏形式不定期地刊发相关探新成果﹐以期深入参与和推动创新性探索过程。所刊作品不求成熟,重在予人启发﹐引人思考。欢迎学界同仁积极参与,大力推进相关研究和实践工作。面对新冠疫情背景下的国际中文教育现状,有学者提出了国际中文教育工程化这个新观念。这是一个具有普遍性意义的观念,将会成为后疫情时代推动国际中文教育发展的一个重要队识。本期刊发的“大家谈”是该研究在理论和实践两方面的初步探索,我们期望由此引起学界对相关问题的关注﹐并深入到具体研究和实践中去。本刊后续将不定期刊登语言教学与研究新探索的大家谈或专栏文章,敬请关注。
- 魏晖施春宏饶高琦张崇张俊萍闻亭
- 关键词:中文教育专栏文章工程化语言学研究
- 基于长时间跨度语料的词义演变计算研究
- 该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两个方面展开研究,计算并辅助识别汉语词语的词义历时演变现象.采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共...
- 孙琦鑫饶高琦荀恩东
- 关键词:汉语词语词义演变
- 从图灵测试到ChatGPT——人机对话的里程碑及启示被引量:83
- 2023年
- 图灵奖得主、深度学习之父辛顿(Geoff Hinton)说:“深度学习的下一个大的进展应当是让神经网络真正理解文档的内容。”机器学习著名学者乔丹(Michael Jordan)说:“如果给我10亿美元,我会用这10亿美元建造一个NASA1级别的自然语言研究项目。”图灵奖得主杨乐昆(Yann LeCun)说:“深度学习的下一个前沿课题是自然语言理解。”微软全球执行副总裁沈向洋说:“下一个十年,懂语言者得天下。”微软创始人比尔·盖茨(Bill Gates)2019年6月在华盛顿经济俱乐部午餐会接受采访时说:“我将创建一家人工智能公司,目标是让计算机学会阅读,能够吸收和理解全世界所有的书面知识。”
- 冯志伟张灯柯饶高琦
- 关键词:自然语言理解人机对话人工智能图灵奖图灵测试
- 三元搭配视角下的汉语动词语义角色知识库构建被引量:1
- 2020年
- 动词语义角色一直是国内外语言学界研究的重点和难点。在自然语言处理领域,相关的语言资源也在逐步构建。对于汉语而言,国内大部分工作集中在语义角色标注上。该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系。在该体系指导下,对汉语动词进行了穷尽式的语义角色认定及相关知识加工,以构建汉语动词语义角色知识库。截至目前,该工程考察了5260个动词,加工了语义角色及引导词的动词数量为2685个,加工认定语义角色4307个。
- 王诚文钱青青荀恩东邢丹李梦饶高琦
- 关键词:语义角色实例化引导词
- 应急语言能力建设刍论被引量:58
- 2020年
- 国家应急语言能力是国家运用语言处理国内外突发公共事件的能力,是应急语言服务的基础和支撑。通过梳理国内外语言应急服务与语言能力建设的案例,提出了我国应急语言能力建设的四维度、十七个分项目标体系和能力分析模型,阐述了国家应急语言能力建设的构成侧面、阶段目标、任务类型和服务语言品种,并对国家应急语言能力的规划和发展进行了展望。
- 李宇明饶高琦
- 关键词:语言沟通
- 基于词汇聚类方法的现代汉语分期与分期体系构建
- 当前对现代汉语史的研究多借用政治-社会史的分期方式将现代汉语分为新文化运动到1949年、1950年到1966年、1967年到1976年和1977年至今四个时期,并在这一基础上开展了许多研究.语言尤其是书面语虽然与社会政治...
- 饶高琦李宇明
- 关键词:现代汉语
- 语料库自然标注信息与中文分词应用研究(英文)被引量:2
- 2013年
- 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
- 饶高琦修驰荀恩东
- 关键词:中文分词大规模语料库