大词汇连续汉语语音的MLP声学特征的研究论文
“sonder”通过精心收集,向本站投稿了4篇大词汇连续汉语语音的MLP声学特征的研究论文,以下是小编为大家准备了大词汇连续汉语语音的MLP声学特征的研究论文,欢迎参阅。
篇1:大词汇连续汉语语音的MLP声学特征的研究论文
大词汇连续汉语语音的MLP声学特征的研究论文
摘要:
短时声学特征参数如MFCC,PLP作为输入向量的高斯混合模型(GMM)的隐马尔可夫模型(HMM)的经典模型在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果。但针对短时声学特征区分性差的特点,本文提出采用神经网络多层感知器(MLP)产生的两种类型差异特征HATs与TANDEM代替短时特征,分别训练GMM参数模型。实验结果表明,差异特征的GMHMM的LVCSR系统优于传统的短时特征的系统;为了更进一步提高系统识别率,该文又将两种类型差异特征HATs与TANDEM进行复合,构成MLPs特征流重建GMHMM,系统的错字率(CER)有2%――3.8%的明显改善。
关键词:多层感知器;差异特征;隐马尔可夫;高斯混合模型
对语音信号特征参数的研究是建立良好的语音识别系统的基础与关键。在过去的研究中,语音识别系统的特征提取成分主要包括频谱包络预测,特别是经过某些简单变化后的特征,目前前端大部分是基于短时轨迹(约10ms)信号分析的美尔倒谱(MFC)或是感知线性预测(PLP)。但这些传统的短时特征参数存在着对信号变化过于敏感,不能反映连续帧之间的相关特性,区分性差等方面的不足。近年来,国外很多语音研究机构在语音信号的特征提取、声学建模方面引入了神经网络ANN,其中由Berkeley国际计算机学院(ICSI)提出用基于MLPs的特征取代传统特征,系统的识别率得到了明显改善[1-3]。基于MLPs特征的差异性的优势和GMM/HMM模型的成熟性,本文提出将变换后的MLPs差异特征后验概率看作是GMHMM的输入向量,重新构建GMHMM模型。实验结果表明MLPs特征具有更好的特性,LVCSR的识别率得到了明显的改善。
1、基于MLP的差异声学特征。
为弥补了来自言语感知和倒谱的短时分析的不足,获取时序相关联的多帧语音信息(即音素信息),文本引入了神经网络ANN的MLP,以提取基于非短时轨迹的非传统特征。本文采用的MLP特征为HATs和TANDEM两种。
(1)长时HATs特征参数。
HATs特征基于人对不同频带的感觉不同,HATs特征提取将由两级MLP实现[4-5],第一级由15个MLP即将关键频带数分为15个,第二级由1个MLP构成。HATs的基本实现步骤:
①依关键频带,分别计算每个短时窗(10ms)对应的关键频带的能量的log值(即为短时频段能量参数)。
②分别将各频带短时能量参数串联为0.5s的长时频带能量参数作为HATs第一级的输入参数。串联方法为将前25帧、后25帧和当前帧同频段的能量参数相串联(25+25+1=51),作为该关键频带的MLP的51个输入单元。即第一级的每个MLP都具有51个输入端。每一个MLP都是为了证实当前帧为某个音素的后验概率P(Pj/Xt)。因此,在语音识别系统中,每一个MLP的输出单元代表了一个音素。由于这些MLP为差别性音素提供了音素后验,所产生的特征为语音识别提供了音素差别性能力。
③采用softmax函数将每一个MLP的概率输出汇总为1,实现归一化。
xij是来自隐藏单元i的输入;wij是隐藏单元i与输出单元j的权值;zj是作为音素后验的MLP的输出。隐藏单元应用sigmoid函数限止其输出值在0-1之间。
因为每个关键频带对不同的音素反映不同,所以每个第一级的输出都提供了音素后验概率。第二级的目的在于接合所有音素后验概率,对当前帧所属音素的认定作最后的决策。从不同的`实验表明,针对于LVCSR最成功的做法是采用第一级隐藏层的结果作为第二级的输入。因为第一级softmax使所有的输出都转化为同一级别,这样就削弱甚至是抹杀了第一阶段涉及所有的MLP的鉴别力。由于第二级的输入是源自第一阶段的隐藏层,即隐藏激活hidden activation TRAPS (HATS)。第二级的输入单元的数目为15×h,h是第一级每个MLP的隐藏单元数目,本文采用60个隐藏单元。最后,从第二级MLP计算出音素后验概率。由于系统采用71个音素[10],所以HATs的输出是一个71维的音素后验概率。二级MLP的HATs特征描述如图 1所示。
(2)TANDEM特征。
本文采用的另一个MLP特征是中期特征TANDEM[6]。其MLP的网络结构如图2所示。
由于本文采用MFCC作为常规HMM的输入特征,为了最大化收集新信息,该TANDEM网络采用标准短时特征采用PLP倒谱特征。TANDEM由一个MLP网络组成,抽取相邻9帧的PLP和基音,以42×9(42维,9帧)为MLP的输入,15000个隐藏单元。隐藏单元依然用sigmoid函数,输出单元用后验softmax函数。最后MLP输出71个音素的后验概率。
2、MLPs声学特征的混合。
本文提出的声学特征的混合是基于MLP的长时HATs与中期TANDEM复合为MLPs特征流。
HATs与TANDEM是采用两套MLP系统产生的,也即每一帧都有两个音素后验概率。在文献[7]中指出,将其两种后验概率进行复合后,其MLP的特征更有效。为此,本文采用以下步骤实现音素后验的复合[8]:
(1)建立后验音素向量:采用Demspter-shafter[7]逆熵加权策略将两套音素后验概率合成音素后验向量[r1 r2…r71]。
(2)用log计算音素后验向量:为了让音素后验向量与传统特征复合,采用log函数计算使之更像高斯分布;
(3)用PCA实现降维和正交化:为了后期与其它特征复合,71维的音素后验向量需进行降维处理;因为高斯密度函数常认为是相互独立,对角协方差的,所以音素后验向量需要正交化,进行均值和方差的归一化。最终实现将两个71维的音素后验降为一个35维的MLPs。
3、模型训练。
本文的声学模型是以跨词三音子3状态左-右的HMM。基于状态共享的决策树总数为4500个上下文相关音素状态。系统采用3个级别的训练,第1级是声道长度的归一化(VTLN)的训练。为了补偿语者差异性,在第2级中采用了受限的最大似然线性回归的说话人自适应的训练(SAT/CMLLR),建立语者独立模型。最后是建立语言模型重估(LM rescoring)模型[9]。
4、语料库。
本文系统使用了230小时的广播新闻和广播对话语音数据进行训练。230小时的语料包括了30小时的HUB4,由GALE发布的100小时广播新闻和100小时广播谈话。识别中使用了2.2小时的eval06和2.5小时的dev07两组语料。详细语料信息见表 1。
5、实验结果及结论。
本文应用德国亚琛工业大学语音研究所开发的LVCSR汉语语音识别系统[9]进行实验。采用230小时语料库为71个汉语音素基元模型分别建立基于MFCC的HMGMM模型及MLPs/ pitch混合声学特征的HMGMM模型,在识别阶段均使用eval06与dev07的语料进行识别,其识别结果用连续识别的字错误率(Character Error Rate CER%)进行评价。其结果如表 2所示。
采用MLP的特征比传统的短时特征都有良好的识别特性,TANDEM特征系统的CER约有0.5%的改善,HATs的特性比TANDEM更好,系统的CER减少约1%~2.5%,采用MLPs复合声学特征,系统的识别率有了最大的提高,CER得到了2%-3.8%的改善。本文复合的声学特征为中时(9帧)和长时(51帧)的信息,能否将短时特征再与其复合以提高系统识别率,还待进一步研究。
参考文献:
[1] ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI’s conversational speech recognition system[J]. in Proc. DARPA RT Workshop .
[2] Jing Zheng. Combining Discriminative Feature, Transform, and Model Training for Large Vocabulary Speech Recognition[C].inProc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, Hawaii, (4):633-636.
[3] 阎平凡,张长水,“人工神经网络与模拟进化计算”[M]. 清华大学出版社 .
[4] wang M Y.Building a highly accurate mandarin speech recognizer[J].in Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Kyoto, Japan, Dec., 2007:490-495.
[5] Chen B. Learning long-term temporal features in LVCSR using neural networks[J].in Proc. Int. Conf. on Spoken Language Processing, Jeju Island, Korea, Oct., 2004.
[6] Hermansky H, Ellis D P W, Sharma S. Tandem connectionist feature stream extraction for conventional hmm systems[C]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, :1635-1638.
[7] Valente F, Hermansky H. Combination of acoustic classifiers based on dempster-shafer theory of evidence[J]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, HI, USA, Apr.,2007.
[8] Morgan N, Chen B Y, Zhu Q, et al. Trapping Conversational Speech: Extending TRAP/Tandem approaches to conversational telephone speech recognition[J].in Proceedings of IEEE ICASSP, Montreal, May 2004.
[9] Plahl C, HoffmEister B, Hwang M, et al. Recent Improvements of the RWTH GALE Mandarin LVCSR System[J].In Interspeech, Brisbane, Australia, September :2426-2429.
[10] 吕丹桔, Hwang M, HoffmEIster B. 汉语连续语音识别之音素声学模型的改进[J].计算机仿真,(5).
篇2:新时期汉语词汇教学策略研究论文
新时期汉语词汇教学策略研究论文
在新时期,汉语教学应当不断优化教育教学的发展战略,系统化整合汉语教学的各个环节和部分,提高整体性的汉语教学质量和品牌竞争力。对此,从汉语词汇教学的角度来说,笔者认为新时期背景下汉语词汇教学的策略主要有以下几点:
一、词汇教学的传统教学法
中国的汉语教学积累了丰富的教学经验,许多传统的教学方法在新时期的变革中同样适用,包括直观释义法、语境学习法、归类学习法等。汉语词汇丰富,规模和数量都给汉语的词汇教学带来了较大的困难,对此教师要坚持还原词汇的真实意义,用直观释义的教学方法给学习者留下基础的、牢靠的词汇印象。在网络媒体技术的快速发展中,多媒体技术、视频资料、图文资料等都能够被引入到课堂教学中来,以形象生动的表现方式将汉语词汇有效转化为学习者的母语意义或现实生活中的客观事物,让学生喜欢上这种词汇教学方法。在一些抽象的词汇或其他词性的词汇教学中,教师可以通过语境的还原来加深学习者对词汇的理解,并通过逻辑思维将已学过的词汇进行分类整理和合理关联,比如同义词、近义词、褒义词、贬义词等,逐步形成以常用词汇为核心的词汇集合,更好地拓展学习者的词汇掌握数量和质量。
二、词汇教学的偏误分析法
在汉语教学中,因为母语和目的语的相互影响,正迁移和负迁移的现象都是很常见的,其中负迁移所带来的词汇教学偏误对学习者的汉语词汇学习有着不良的影响,应当及时发现、有效纠正、举一反三,避免再次出现同类错误。要想更好地改善学习者对词汇学习的掌握情况和使用情况,教师还应当从教学课程设计、教学偏误总结分析和教学互动等多个方面积极创新和优化。尤其是对学习者在汉语词汇教学中所发生的偏误情况,教师和学生应当积极从自身的语言基础出发,及时记录偏误的词汇和类型,分析偏误的原因,从词汇的语义、情感色彩、文化内涵、语用情境方面着手全面归纳和总结偏误的类型,从而避免在类似的词汇学习中继续犯错。
三、词汇教学的文化教学法
语言是文化的物质载体,在汉语词汇教学中,词汇背后的文化含义既是学习者不能忽略的重要组成部分,也是帮助学习者更有效掌握词汇意义的重要方式。文化教学法是跨文化交际语境中被放大的.一个有效教学路径,它强调了文化教学对语言教学的重要价值,通过词汇中的文化解读、文化惯用词汇的学习,以及文化资料中的词汇学习等方式来实现语言词汇和文化认知的同步提升。在新时期背景下,语言词汇教学的文化性得到了进一步的发展,它是中国文化走向世界的传播渠道,也是外国学习者认识中国文化的有效学习方法,也就是说,词汇的学习最终也是服务于在不同的语言和文化主体中搭建一个相互理解和交流的桥梁。因此,在汉语词汇教学中,教师可以利用互联网技术、多媒体技术、信息技术等先进手段,促进学生在词汇交际应用中的训练和实践,在训练中学习词汇,在交流中学习词汇,在文化互动中学习词汇,通过跨文化交际能力的提升来提高词汇教学的有效性。以上就是笔者仔细研读《汉语词汇教学》之后对新时期汉语词汇教学策略的几点看法和建议。
新时期的到来,使汉语教学迎来了新的发展机遇和挑战,对词汇教学来说,教师要以汉语词汇教学的理论和实践体系为核心,充分认识学习者的语言基础、语言学习偏误情况和语言学习需求,借助新科技、新工具和新教学手段来综合提高汉语词汇教学的科学性、文化性和实践性,从而提高对外汉语词汇教学的质量和水平,为汉语语言和文化教学的国际化、现代化创新变革服务。
篇3:汉语史专书词汇研究的一部力作论文
汉语史专书词汇研究的一部力作论文
周祖谟先生曾指出:“词汇是构成语言的材料,要研究词汇发展,避免纷乱,宜从断代开始,而又要以研究专书作为出发点。又如清人研究古韵那样,先以《诗经》一书为起点,得其部类,然后旁及《楚辞》以相佐证,以确定韵部的分合,而后之人又从而逐渐加详加密,以臻完善。”[1]先秦时期是我国传统文化的奠基时期,这时期的语言是汉语语言研究的基点,这个时期的语言研究充分了,既可以上探远古汉语,又可以下衔中古汉语的发展,从而带动整个汉语史的研究。两汉汉语是上古汉语到中古汉语的过渡时期,是汉语发展的重要时期。就汉语史词汇研究而言,到目前为止,学术界还没有系统的两汉汉语词汇研究成果问世。《〈论衡〉词汇研究》一书(徐正考、王冰、李振东著,吉林大学出版社版)便是以《论衡》词汇为研究对象,综合运用词汇学相关理论,试图探讨当时词汇发展总体面貌的力作。综观此书,胜义迭出,特点良多,今仅就此书发其菁华。
一、以《论衡》为点,以点窥面
蒋礼鸿先生在《敦煌变文字义通释》序言中说:“研究古代语言,我认为应该从横纵两方面做起,所谓横的方面是研究一代的语言,如元代。其中可以包括一种文学作品方面的,如元剧;也可以综合这一时代的各种材料,如元剧之外可以加上那时的小说、笔记、诏令等。当然后者的做法更能看出一个时代语言的全貌。”[2]王锳先生在《唐宋笔记语辞汇释》的前言中就此谈了他的看法,他说:“纵横结合,熔各类体裁于一炉,这个意见无疑是中肯的。不过这应该是一个总体目标,为了达到这个目标,个别的研究者尽可能侧重于某些方面,然后集腋成裘,汇溪流为江海。另外,在横的也即共时研究的具体做法上,似乎还应强调点和面的结合。这里所谓‘点’,指的是专书词汇研究。如能选择若干部时代确切而有代表性的作品,对其中的词汇现象进行全面的穷尽式的分析排比,整理归纳,这无疑会给词汇史的研究与大型辞书的编纂打下基础。所谓‘面’,则是从一代或一个历史阶段的某一类或几类体裁的作品中去博观约取,作为专书研究的一种补充,以利于克服专人专著在词汇面上存在的局限。这样经过许多人坚持不懈的努力,汉语史词汇研究的这一段空白是完全能够较快地填补起来的。这一历史阶段新的语法词汇现象被挖掘出来之后,必将大大丰富传统训诂学的内容,并为发展普通语言学、词汇学的理论做出贡献。”[3]
以上两位学者无疑为汉语词汇史研究提供了明确的方向。一方面,我们可以从“点”着手,即专书词汇研究;另一方面,我们可以从“面”着手,即从一个历史阶段的几类体裁作品中博观约取,作为专书研究的一种补充。笔者认为做任何研究都应是一个循序渐进、逐渐积累扩散的过程,词汇史研究更是如此,只有将某个时代的某部专书研究好了,才能以此为点、为基础辐射到同体裁的或不同体裁的其他作品中。进而对那个时代词汇存在和发展情况进行较为全面的梳理和论述。诚如董志翘先生所说:“以汉语史为例,我认为个人的研究必须从基础工作入手,从专书词汇研究逐渐扩展到专人词汇研究,再渐渐扩展到断代词汇研究,然后才谈得上整个汉语史的研究。”[4](P421)徐正考等先生捃拾历史、文学和哲学价值为一炉的东汉王充《论衡》一书,并以此作为基础,对其中词汇进行全方位的综合研究,力图以此为点窥视汉代词汇存在和发展的一个侧面,是一个极好的尝试。
二、以《论衡》为体,具有较高语料价值
《论衡》作者王充,东汉著名思想家、文学家和理论家。生于东汉光武帝建武三年(公元27年),卒于和帝永元中(公元89-1)。王充所处时代,图谶符命、天人感应之说盛行,王充秉持天道自然的思想,以“疾虚妄”三字为思想线索,对当时的虚妄之说展开了猛烈的抨击,耗时三十年写出了这部哲学、文学和史学力作。
论著所选用的语料犹如其底色与体制,选用语料是否合适决定了研究结果是否有价值。一般认为有语料价值的专书应具备成书年代确定、能够反映或至少接近当时通行的口语,有较大词汇量且内容涉及面广等方面特点。而我们认为汉代以后的作品能够反映或者至少接近当时通行的口语这一特点尤为重要。先秦时代言文还是一致的,但从汉代开始,书面语便有了脱离口语的倾向。因此,汉代以后(包括汉代)的专书选取工作要充分考虑其反映口语的程度。王充所处的时代,很多文人作品“深覆典雅、指意难睹”,王充旗帜鲜明地反对“华而不实,伪而失真”的文风,主张文学贵在独创,力主使用口语、俗语。这种主张在《自纪篇》中表述得很清晰,这里不再赘述。由此我们可以确定《论衡》是能够反映当时口语的。
日本学者太田辰夫在他的专著《中国语历史文法》 “跋”《尽信书不如无书》中,将中国古典文献分为同时资料与后时资料两大类。并说到中国古典文献大多为后时资料,经过转写转刊,这对我们进行汉语史的研究是不利的。这也就是说《论衡》一书如果在辗转流传中被人们做了大量改动,那么其语料价值便会大大降低。作者注意到了这点,依据是民国时期黄晖在《论衡校释》的“自序”中考定该书“未经后人改编”,“流传到现在一千多年,还没有人加以整理或注释”。这样便保证了所用语料的价值。从中我们可看出作者在词汇研究中对所选语料的高度重视以及其严谨的治学风格。在如何处理《论衡》引文这一问题上,作者对于哪部分应算作《论衡》语言,哪部分应剔除更是做了非常细致的甄别,可见作者是在广泛收集、认真鉴别、准确识读语料的前提下分析、利用这些语料,若没有相当的训诂功力,恐怕很难完成上述工作。《论衡》作为一本集哲学、史学、文学价值为一身的巨著,其涵盖较大词汇容量并且内容涉及面广更是毋庸置疑的。
三、科学的研究方法
《〈论衡〉词汇研究》一书便是在科学方法论指导下的佳作,主要体现在以下四个方面。
1全面立体的描述方式
以此书同义词研究为例,其一方面研究其全部的同义词组,另一方面还展示全部同义词组,并且举出典型例证,在这样一个全方位立体式描述的铺垫下,揭示其类型、特点以及规律便变得顺理成章,令人信服,也有利于人们对所归纳的同义词组可靠性做出判断。虽然诸如向熹先生《诗经语言研究》以及张双棣先生《吕氏春秋词汇研究》等著作中以点代面、举一反三的方法也颇值得借鉴,但笔者认为此书所采用的方法更具有可靠性和明晰性。
2穷尽式的语料梳理
我们认为研究专书词汇理想的状态应是“穷尽”。以同义词为例,刘叔新先生认为:“互有同义关系的词语,在语言一定时期内,是确定的,而且数量上有定,是有限的.若干个。换言之,同义词组总是包含着确定的、数量有限的成员,在共时的平面上是一个完整的、稳定的、封闭的结构组织。”[5](P288)虽说理论上如此,但实际上没有一个人可以准确说出现代汉语中到底有多少个同义词组,因此在客观上很难说同义词语是一个完整的、稳定的、封闭的结构组织。同义词组如此,反义词组、复音词等更是如此。加之操作方法各异、专书字数有别等因素,做到“穷尽”的难度是很大的。但另一方面《论衡》一书的语料判定,决定了作者对《论衡》一书做穷尽式史料梳理的可能性。《论衡》词汇在共时的平面上是一个完整的、稳定的、封闭的结构组织,这就为作者所采用的穷尽式的语料统计提供了可能。作者尽力做到“穷尽”,穷尽式地归纳出《论衡》中的同义词、反义词、复音词以及相关的新词新义。这一点是值得我们充分肯定的。今后我们在研究中应大力提倡穷尽式的全面分析,防止片面性。这也是目前汉语词汇研究较为迫切的任务之一。
3从宽的归纳标准
以本书同义词研究为例,此书在研究《论衡》同义词时遵循的是从宽原则。具体做法是,只要两个或某几个词在《论衡》中在某个义项上具有同义关系,就将它们归纳为一个同义词组。至于其间的同义关系在王充时代是否普遍存在则需要与同时代的其他作品比较方能看出。这不是从事专书研究所能完成的任务。采取从宽的归纳标准既能保证保留有价值的部分,又与全面研究相辅相成。这种思路对专书词汇研究是有益的。
4共时与历时相结合、古今通观的研究方法
索绪尔的《普通语言学教程》问世标志着结构主义语言学的诞生。结构主义语言学的一个重要理论支点,即在于强调语言系统是一个自足的表意功能系统,强调语言是在共时的平面才是有意义的,这对于认识语言的本质确实是很有意义的。结构主义语言学认为语言是一个符号系统,语言符号具有任意性和线条性,这等于说,语言只有在语言符号的组合中才能表现出它的意义,单个的符号是不严谨呈现出它的意义的。或者说,语言符号的所有意义只有在语言的组合链条中才能呈现出来。这样,就催生了描写语言学。描写语言学的特点即在于特别强调语言的共时描写,而对于语言的历时发展却不屑顾及,认为历时因素在语言的共时表达系统中是没有位置的。
语言研究表明,仅仅强调语言的共时表达系统,不顾及语言的历时研究,对于科学地、全面地研究一种语言是不行的,因为语言的形成是一个历史的过程,语言的表达系统是各种语言单位以及语言表义格式经过历时发展演变逐渐形成的。如果要全面而深刻地认识一种语言现象,就要既能全面地描写一种语言现象,还要能从功能的角度来说明这种语言现象的形成与发展,对这些语言现象做出合理阐释。共时平面的语言现象不是单纯的,其中既有历时语言因素的积累,在共时平面上起作用,又有在作者所要研究的当代共时平面中新生的语言现象。只有在历时演变与共时描写相结合的研究中,才可能反映当时语言现象的全貌。本书作者很好地在书中体现了这一点,如第一章、第二章和第三章,完全是一种共时平面的描写研究,在第四章中专门论说《论衡》中的新词新义,这种共时平面和历时演变相结合的研究是有着对语言研究的科学理论认识作为支撑的。再如此书的反义词研究,作者不满足于对《论衡》中的单音节反义词做孤立的、静态的描写,还将其与《左传》《颜氏家训》中的单音节反义词做定量统计并分析比较,得到三部文献都使用的单音节反义词并对常用反义词演变趋势做了简要说明,把专书反义词研究纳入词汇史和语言史范畴,为汉语词汇史研究提供了丰富的材料。一个理想的专书词汇研究,也不应固守于静态描写,应具有系统观念和史的观念,将专书词汇研究纳入到整个词汇系统和词汇史研究的轨迹中去,此书作者敏锐地察觉到这一点并付诸实践。
四、周密、严整的理论框架
我们注意到,此书一个最大的也是贯彻始终的特点便是在对《论衡》各专题词语进行研究时,并没有急于对词语进行描绘与论述,而是首先进行理论方法上的探索,主要是对已有理论的反思,相关判定标准的确立以及有关词汇现象的产生机制进行探讨。如在进行复音词研究时首先关注的是复音词确定的标准,在综合各家学者意见的基础上,提出针对专书词汇研究复音词判定应以意义为主的标准,进而指出:“几个成分组合后,组合体的意义不是几个成分的意义的简单相加,而是融合在一起,形成了一个完整的、单一的意义,这个组合就是复音词。”[6](P20)但应该指出,这种判定标准并没有达到真正意义上的“科学”,并不能无一例外地将复音词科学地鉴定出来。究其根源是同汉语词汇发展的总趋势密切关联的。汉语词汇从上古向中古演进,复音化速度加快且是基本规律。从历时的角度看,利用词素组合的复音词从两个词素合成词组再凝固成一个复音词是一个相当复杂的过程,有时在书面文献中是找不到任何痕迹的。因此,“对每一个具体的词来说,这个渐进的过程何时完成不太好判断”[7](P229)。不过,这恰恰体现了作者治学的精神和态度。除了借助相关理论、总结梳理前人的观点,更多的是进一步加强理论的思考。在参考借鉴前人的理论观点的基础上,充分考虑到研究对象、研究材料等不同因素,提出相对科学的符合研究实情的理论框架。这也正与从特殊到一般再到特殊的思维方法和研究方法相契合。
再如作者在旧著《〈论衡〉同义词研究》的基础上做了更为深入细致的分析与研究。在第一章中专门设立了《论衡》字序对换的同义词等章节。这在汉语词汇史研究中独具特色。虽然对这些语言现象人们可能有不同看法,但作者将这些语言现象归纳整理,重新做出解释是很有启发意义的。一般人们认为,先秦汉语词汇发展到汉代,都有一个同义词连用,逐渐凝固成词,从而有一个由短语凝固成一个词的过程。王力先生在《古代汉语》上册中说:“汉语大部分的双音词都是经过同义词临时组合的阶段的。这就是说,在最初的时候,只是两个同义词的并列,还没有凝固成一个整体、一个单词。”[8](P89)“最初某些同义词的组合没有固定的形式,几个同义词可以自由组合,甚至可以颠倒。”[8](P89)这似乎是说,如果两个语素可以颠倒,就还没有凝固成一个词。但接着又说:“今天我们读古书的时候,应该把这些词当作复音词来解释,这样才能得到一个完整的概念。”[8](P89)本书作者认为这些词语是词,理由很充分。首先,从历史上看,“同素异序词在西周时期已经产生,先秦诸子中也存在一批同素异序词”[9](P34-35)。这是从语言发展的历时角度来进行说明。其次,作者认为:“考察同素异序词现象应从专书或断代开始。”[9](P35)作者在考察《论衡》一些异序同义词之后说:“上述同素异序复合词,我们认为都是词,是因为它们在同一篇文章中甚至一句话中可自由运用,是能够独立运用的最小的语言单位。”[9](P37)“这些词的出现是语用因素起关键作用,字序对换以适应不同的语境,表达不同的意味和情感。”[9](P37)这是从语言的共时角度考察所得出的结论。最后,作者又能贯穿汉语词汇的古今发展来说明问题。“我们对《论衡》的研究表明,凡是保留下来的大部分是在历史上曾高频出现过的,《论衡》同素异序同义词在现代汉语中得发展演变清楚地说明了这一点”[9](P39)。这种对汉语专书词汇贯穿古今、纵横交错的研究方法,使作者的结论建立在科学的理论框架内。虽然探讨的是一个具体的同素异序词的判定问题,实际上反映的是作者注重理论的挖掘和探讨。作者在相对周密、严整的理论框架下对《论衡》词汇以及相关问题进行深入研究与阐释,自然可得出相对准确的结论。
五、结语
古汉语专书词汇研究如何做才能达到理想的境界,我们并无成熟的想法。但科学的理论方法与严谨的治学态度是必不可少的条件。从这个意义上讲,《〈论衡〉词汇研究》是做得比较好的,在古汉语专书词汇研究中可称佳作。我们期待有更多的古汉语专书词汇研究的优秀著作问世。
[参考文献]
[1]周祖谟,等吕氏春秋词典·序[M]济南:山东教育出版社,1993
[2]蒋礼鸿敦煌变文字义通释·序[M]上海:上海古籍出版社,
[3]王锳唐宋笔记语辞汇释·前言[M]北京:中华书局,
[4]董志翘漫谈汉语史论文写作[C]//马景仑科研论文阅读与写作南京:江苏古籍出版社,2001
[5]刘叔新汉语描写词汇学[M]北京:商务印书馆,1990
[6]徐正考《论衡》同义词研究[M]北京:中国社会科学出版社,
[7]华振红《洛阳伽蓝记》词汇研究[M]北京:中国文史出版社,
[8]王力古代汉语:上册[M]北京:中华书局,
[9]徐正考,等《论衡》词汇研究[M]长春:吉林大学出版社,
篇4:非汉语词汇对汉语的发展作用研究论文
摘要:从汉语发展的脉络过程来看, 非汉语词汇对汉语的发展起到了十分重要的推动作用, 不仅仅丰富了汉语的词汇总量, 也促使了词汇音节的发展, 同样对词语的功能性也起到了一定的促进作用, 是中国语言发展中的重要部分。
关键词:非汉语词汇; 少数民族语言; 性质; 文化交流; 汉语;
近年来, 语言学的研究出现了一些趋势, 其中一项就是由单一的语言研究转变为多方法多角度的研究。中华民族多元一体, 在漫长的历史长河中, 少数民族对整个中华文化的发展起到了重要的推动作用。从少数民族分布状况来看, 大杂居小聚居是基本特征, 中国历史的发展过程实际上就是汉族与各少数民族不断交流融合的过程, 因而这一独特的历史背景也决定了研究古代汉语就必须要重视其中的非汉语词汇。
1 古代汉语中非汉语词汇的词源
1.1 上古时期
中国有着悠久的历史, 如果追溯有文字可记载的历史大约有四千年。如果要对语言文字出现的确切年代做一个界定, 从目前的研究来看尚无法定性。但从远古时期汉语的记载来看, 仍旧可以发现非汉语词汇的一些踪迹。汉族自古就与周边地区有着交流往来, 春秋战国时期的“行人”是专门负责接待外宾的官职, 《礼记》里也记载周代时期有专门记录不同少数民族地区语言的官员。由此可以看出, 上古时期的统治者们已经十分重视不同民族之间的文化交流, 因而非汉语词汇很早就出现在汉语之中。例如“剑”这一词汇, 中原地区本没有这种武器, 而根据郭沫若的《两周金文辞大系考释》中, “剑”是西北地区的武器, 因而属于外来词汇的一种, 不是汉语中本来就有的词汇, 相关的记载在《史记》、《正义》等古籍中也能找到。除了这些词汇外, 上古时期汉语中的外来词汇有很多来自匈奴。汉代时期, 中原政权与匈奴之间交往密切, 既有战争, 也有文化往来, 最终匈奴一部分与汉族融合, 一部分消失在历史的长河之中, 不知踪迹。来自匈奴的非汉语词汇有很多, 例如“胡”字, 胡是匈奴人的自称, 意思大致和“人”差不多;“单于”则是匈奴王的称号, “阏氏”是匈奴的王后, 也是单于的正妻, 有时也写作“烟支”, 造成表述不同的原因尚未有定论。
1.2 中古时期
中古时期, 非汉语词汇受到佛教的影响比较大, 大多来自佛经翻译所带来的词语, 以及与古印度交往中所带来的外来词汇。在这一时期, 古代汉语中的非汉语词汇大量增多, 涉及到的内容也更加多方面、多层次, 由此也可以说明民族之间的交往上升到多个角度, 不再是单一的表层文化, 更多的已经涉及到文化的各个方面。
首先是佛教的.影响。中国有着悠久的文化历史, 佛教虽然不是本土宗教, 但佛教有着极大的包容性。在传入中国后, 佛教与中国本土文化相结合, 成为世俗化宗教的典范。长久的发展, 佛教文化已经与中国文化紧密相连, 我们甚至可以说没有任何一种外来文化可以像佛教文化那样与中国社会紧密结合起来, 从而具有极强的生命力。佛教文化博大精深, 涉及到哲学、心理学、历史学等许多方面的内容, 而佛教用语同样引人瞩目, 对汉语语言的发展有着深远影响。从佛教传入的历史轨迹来看, 早在东汉时期佛教词语已经传入, 但到魏晋南北朝时期才真正兴盛。佛教词汇传入中国主要有三个阶段, 一是东汉时期通过西域翻译佛教经典;二是从印度等地的僧人到中国来传教, 将佛教词汇传入;三是玄奘取经后的传入。从总体上看, 这一时期非汉语词汇的传入与佛经的翻译以及僧人们的传教有着密切联系, 佛经中的故事也丰富了汉语词汇、语言表述等方面的内容。常见的如“六度”、“三毒”、“刹那”等等, 这些都属于佛教词汇, 可以说古代汉语中的佛教词汇数不胜数。佛教在中国的发展有着深厚的历史, 随着佛教与中国社会的不断融合, 很多佛教词汇也逐渐有了更多层含义, 不仅仅局限在宗教意义层面, 乃至后人把很多词汇都看做了常规的汉语词汇, 例如“世界”“境界”“烦恼”等等。从东汉开始, 中国对佛经的翻译工作一直持续到宋元时期才逐步消减下来, 从事佛经翻译的古代学者有很多, 如安世高、鸠摩罗什等等, 他们不仅为佛教文化与中国文化的发展做出了贡献, 更是对古代汉语的发展做出了重要贡献。我们今天看到的佛经有些易懂, 有些仍旧深奥, 其实在翻译之处, 佛经的翻译难度远比我们想象的要艰难许多。作为一种外来文化, 佛经中的很多词语、语句等都无法用汉语词汇来直接翻译, 只能通过音译转换成汉语, 如“般若”“菩提”等等。虽然这些词汇在通用汉语中一般很少使用, 但仍然可视为汉语语言中的重要成分。
其次, 中古时期汉语中的非汉语词汇还有很多少数民族的独有物品, 在战乱、民族融合之中, 这些物品逐步传入汉地, 也有了自己的汉语名称。例如“苏幕遮”, 这一词汇我们首先想到的是词牌名, 殊不知其实苏幕遮最早由唐代传入中国, 是一种帽子饰物, 见于西域少数民族舞蹈时所佩戴。
1.3近古时期
近古时期, 少数民族与汉族之间的交往更加密切, 在很长一段时间内, 少数民族掌握了统一政权, 或是统治一些地区, 因而这一时期汉族与少数民族之间的交往既有战争, 也有和谐交流的一面。契丹、女真、蒙古、满族是这一时期最主要的少数民族, 分别建立了辽、金、元、清。在少数民族统治时期, 政治上的优势使得少数民族文化在中原地区深入的传播开来, 少数民族词汇自然会融入到汉语语言之中。但是由于汉语语言的主导性, 不少少数民族都自觉的选择了汉化。很多少数民族统治者为了更好的巩固政权, 不得不任用大量汉族官员, 并且主动地去学习汉语, 因而虽然有很多少数民族语言出现, 但最终仍然是汉语为主导, 少数民族则为汉语语言增添了更多的词汇容量。
契丹语, 契丹族建立了辽国政权, 契丹贵族崇尚汉族文化, 在学习汉族文化的同时, 也将一些契丹词语带入了汉语语言之中。例如“可汗”, 是契丹族的首领;“猛安”, 指的是契丹的部落。女真语, 女真与满族有着很深的联系, 学界不少人认为女真族是满族的源头之一。女真族政权全盛时期建立了金国政权, 但女真族的文化影响到汉族文化的并不多, 因而对汉语词汇的影响不是很大。蒙语, 蒙古族是草原游牧部落, 是游牧文化的代表, 成吉思汗统一了蒙古各族部落, 建立了蒙古帝国。蒙语属于东胡后裔语言的分支, 到元朝政权正式建立后, 汉族与蒙古族之间的接触更加频繁, 统治者为了更好的维护政权, 不得不任命汉族官员、学习汉族文化, 很多蒙语词汇也随之融入到汉语之中。例如“那达慕”, 指的是蒙古族运动会, 十分盛大;“敖包”, 指的是路标, 也有借指山神居住的地方;“安答”, 意思是兄弟、朋友。这些词有些虽然并不经常使用, 但是也成为了汉语中的专有词汇, 是古代汉语中非汉语词汇的典型例子。满族, 满族建立了清朝政权, 虽然满语是满族的母语, 但是出于统治需要, 清朝统治者不得不使用汉语, 以至满语逐渐衰落, 到最后几乎湮没在历史之中。清王朝统治了近三百年时间, 但由于几乎没有使用过满语, 导致满语进入汉语的词汇并不是很多, 而随着清王朝灭亡后, 这些词语更是很难见到, 只有很少的专有词汇进入了汉语词库之中。例如“牛录”, 是一种军事组织的名称;“阿玛”, 是满语中父亲的意思;“额娘”, 满语中指母亲;“萨其马”, 一种糕点的名称。但这些词如今很少使用, 只是作为一些专有名词存在于汉语之中。
2 古代汉语中非汉语词汇中的文化融合
语言的交互影响所体现的是一种文化的融合, 当一种语言吸收另一种语言时, 往往会用自己的语言习惯来改变被吸收的语言习惯。古代中国各民族在交往的过程中, 汉语在吸收非汉语词汇的同时, 也在用汉语的习惯来改变这些少数民族词汇, 以此让非汉语词汇更好的融入到汉语语言之中, 使其成为汉语的一部分。这种影响不仅仅体现在语义、语法, 同样对语音乃至汉字的表述形式上都有影响。
古代汉语中的非汉语词汇是文化融合的表现, 这种融合表现在内容与形式两个方面。
首先在内容方面, 民族交往是不同文化的交往, 不同的文化交往也是不同事物的碰撞过程, 古代汉语中的很多非汉语词汇实际上都是吸收了来自于少数民族的概念, 如“般若”“萨其马”等等。从语义的层面来说, 汉语中本来是没有这些词汇所相对应的事物的, 但是随着民族文化的交流, 来自异域的事物出现后, 自然也就有了相对应的词汇产生, 这些词汇大多是直接音译, 加上汉语的语言习惯融合而形成的。
其次在形式上, 最直接的改变来自于语音的变化。来自少数民族的词语受到不同语系背景的影响, 很多词汇在发音上并不能符合汉语的语言习惯, 因而古代汉语在吸收这些词汇时, 虽然很多是音译, 但并不是直接的音译, 而是根据汉语的语言习惯而进行深层次的改造。这种改造会使得非汉语词汇更好的与汉语语言融合, 汉语语音的一大特色是音调的变化, 而一些少数民族词汇在原有的发音中并没有鲜明的音调变化, 因而与汉语的融合首先就需要确定不同的声调, 再根据含义来确定相对应的字词, 以完成转化。
3 结语
语言是人类历史文明发展的见证, 中华民族多元一体, 作为一个多元化的社会, 对于语言研究自然也应当从多元化的角度来进行。语言是民族文化的代表, 记录了一个民族、文化的发展, 是延续历史的桥梁。研究古代汉语中的非汉语词汇对于整个汉语语言的研究有重要意义, 但更重要的是我们要正确的面对这些词汇, 规范的使用词汇, 才能真正让汉语语言不断延续发展。
参考文献
[1]闫慧颖.谈对外汉语教学中的古代汉语教学[J].齐齐哈尔师范高等专科学校学报, 2017 (2) :98-99.
[2]王仲轲.古汉语中词类活用现象的多视角研究综论[J].焦作大学学报, 2017 (2) :34-36.
[3]牟青.古代汉语词类活用的类型及规律--以《论语》为例[J].辽宁教育行政学院学报, 2017 (2) :86-89.
[4]李春玲, 王静.古代汉语兼词之定位研究述略[J].青海师范大学学报, 2017 (6) :128-133.
[5]康振栋, 王健.古代汉语“可以”的历时演变略考[J].辽宁师范大学学报, 2018 (2) :110-114.
【大词汇连续汉语语音的MLP声学特征的研究论文】相关文章:
1.汉语语音教学论文






文档为doc格式