黄伟
- 作品数:20 被引量:127H指数:6
- 供职机构:北京语言大学更多>>
- 发文基金:国家社会科学基金中央高校基本科研业务费专项资金国家教育部“211”工程更多>>
- 相关领域:语言文字自动化与计算机技术文化科学更多>>
- 汉语语体的计量特征在文本聚类中的应用被引量:35
- 2009年
- 提出了将语言计量研究成果应用于文本聚类研究的方法。通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本表示特征准确地将实验文本聚类为口语体(相似度89.84%)和书面语体(相似度86.93%)两类。以语言结构的计量特征表示文本的方法加强了聚类/分类研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语体特征计量研究是汉语语体描写研究的重要方法,阐述了其理论基础。
- 黄伟刘海涛
- 关键词:文本聚类语体特征语言结构汉语口语汉语书面语
- 多模态汉语中介语语料库建设刍议被引量:11
- 2015年
- 多模态语料库是语料库语言学中的一个新兴领域。本文在对多模态语料库建设与研究进行简要回顾的基础上,讨论了汉语中介语多模态语料库建设方面的基本问题。建设多模态汉语中介语语料库,在收集语料时应注意多样性与丰富性,语料转写与标注方面应有别于文本语料库,需通过专用工具实现多层级标注信息与音视频语料的同步集成。
- 黄伟
- 关键词:多模态汉语中介语口语语料库
- 中国政府奖学金本科来华留学生预科教育“基础汉语考试”试卷设计与质量分析被引量:7
- 2014年
- 基础汉语考试作为来华留学预科生结业考试的一部分,是一项具有专门用途的考试。基础汉语考试采用知识与能力并举的原则,以分立式测验的方式考查知识,以综合式测验的方式考查能力。该考试包括听力与笔答两部分、共8个题型,成绩报告由原始分数与导出分数两部分组成。2013年,7所高校的993名预科生参加了考试。数据分析表明,本次基础汉语考试试卷质量非常高,较好地满足了中国政府奖学金本科来华留学预科教育基础汉语教学成果的考核与对学生汉语水平的评测需求。
- 王佶旻郭树军黄理兵黄伟
- 关键词:预科教育汉语水平考试
- 字形特征对汉字文化圈中高级水平学习者书写汉字的影响——基于“HSK动态作文语料库”的观察被引量:8
- 2012年
- 本文通过对"HSK动态作文语料库"中汉字的使用情况进行统计分析发现,在汉字文化圈中高级汉语水平学习者的书写任务中,笔画数效应显著,部件数效应和结构类型效应不显著。这三个字形因素对学习者书写汉字的影响程度不同。从错误率的平均值来看:独体字错误率显著低于合体字错误率;上下结构、左右结构、包围结构字的错误率递增。少笔画、中笔画独体字错误率显著低于多笔画独体字错误率,少笔画、中笔画和多笔画合体字的书写错误率显著递增。2部件、3部件、多部件合体字的错误率依次递增。
- 黄伟
- 关键词:汉字习得笔画结构类型错字
- 计量语言学的现状、理论与方法被引量:50
- 2012年
- 计量语言学以真实语言交际活动中呈现的各种语言现象、语言结构、结构属性以及它们之间的相互关系作为研究对象,通过概率论、随机过程、微分与微分方程、函数论等数学的定量方法对其进行精确的测量、观察、模拟、建模和解释,寻找语言现象背后的数理规律,揭示各种语言现象形成的内在原因,探索语言系统的自适应机制和语言演化的动因。对计量语言学现状、理论与方法进行分析,厘清该学科进一步发展的走向,旨在推动中国语言学的国际化与语言学研究的科学化水平。
- 刘海涛黄伟
- 关键词:汉语ZIPF数理语言学
- 汉字简化中的字形复杂度统计特征稳定性研究被引量:4
- 2021年
- 汉字简化研究较多关注微观字形结构变化,由于缺乏有效测量手段,对构形系统与字形使用宏观规律的认识还不够全面。本文用笔画数定义字形复杂度,测量和比较字形复杂度及其动链在不同字符集与文本中的统计特征。研究发现,字形复杂度在构形系统与文本中的分布规律,及其动链的秩频分布与长度分布规律没有因字形简化而改变。字形复杂度统计特征的稳定性是汉字构形系统与汉语词长共同演化的结果。本文为汉字简化研究提供了一种客观的视角与量化研究操作方法。
- 黄伟
- 关键词:汉字简化语言规划
- 《汉语拼音方案》的计量语言学分析被引量:4
- 2016年
- 本文采用计量语言学中的音形关系指标定量描写《汉语拼音方案》,并与德文、瑞典文、意大利文、斯洛伐克文、斯洛文尼亚文、壮文和世界语进行了比较,结果表明:《汉语拼音方案》具有较高的拼写系统经济性和较低的正字法不确定性,其形素长度、形素载荷、字母使用度和正字法改革必要性都比较小,在几种拼写系统中具有较高优势。计量语言学指标和方法能够在制订与评价拼写系统方面发挥积极作用,与以往研究相比更具精确性和客观性。
- 黄伟刘海涛
- 关键词:汉语拼音方案语言规划
- 词频分布参数可以细分汉语新闻语体吗?被引量:6
- 2017年
- 本文统计分析了口语体和书面语体的现代汉语新闻报道与新闻评论文本中的词频分布规律,发现:现代汉语新闻语体文本的词频分布符合普适的词频分布规律(齐普夫-曼德博定律);书面语体新闻文本的词频齐普夫-曼德博分布的参数a显著高于口语体新闻文本词频分布参数a;参数a还受文本长度影响,但在报道体与评论体中不存在显著差异;齐普夫-曼德博定律的另一个参数b在口语体与书面语体的新闻文本间不存在显著差异。对文本的词频分布规律在不同语体中体现出的普遍性与多样性的研究,有助于加强语体描写与语言学研究的客观性、精确性与科学化。
- 黄伟刘海涛
- 关键词:新闻语体词频分布语体特征齐普夫定律
- 教材词汇与汉语水平等级词汇的比较研究被引量:2
- 2012年
- 本文调查统计了10套(29册)对外汉语教学常用教材中的词汇使用情况,发现各教材在《大纲》词汇、等级词汇、超纲词汇及词汇量等方面缺乏一致性,许多超纲词具有常用性的特点。《大纲》内容陈旧和词汇量偏低等问题是导致教材编写无纲可依和以((大纲》对教材进行比较、评估有失公允的主要原因。教材词表和“中介语语料库”词表对于确定汉语作为第二语言词汇能力标准具有重要参考价值。
- 黄伟
- 关键词:词汇词汇大纲教材词汇中介语语料库
- 寻找机器翻译痕迹--神经机器翻译文本的句法特征研究
- 2024年
- 神经机器翻译日趋成熟,但译文还会带有“机器翻译痕迹”,如译文难以理解、语言不够地道等。现有研究尚不明确“机器翻译痕迹”的语言学表现,尤其对机翻译本的深层句法特征了解甚少。本研究自建人工译本与神经网络机翻译本依存树库,使用依存距离、依存方向等指标对比英译汉方向人、机译本的句法特征。研究发现,神经机器翻译系统对长句的句法复杂度控制不足,表现在对被动结构和介词短语的翻译不够地道,相关结构和短语可能会增加译文的理解难度;机翻译本中的状中、右附加、介宾等依存关系的使用遗留了英语对名词性结构的使用倾向,这导致人、机译本在语序分布上也存在差异。本研究在句法层面捕捉到的这些“机器翻译痕迹”,对评估翻译质量和译后编辑等具有一定参考价值。
- 沈梦菲黄伟
- 关键词:机器翻译句法特征依存语法翻译质量