Simplified Chinese
什么是语料库?
用正式的语言来说,语料库就是通过一定的理论原则而选择,通常包含口语或书面语的用法,并且以电脑档案方式储存的自然语言用法的集合。书面形式的语料库资料来源可以是新闻媒体、文学作品或者个人书写作品。口语形式的语料库则来自录音带或录像带的叙事、访问、交谈或者其他口语资料,再将其转换成书面形式。语料库的大小可以有数万字至数千万字不等。较大的语料库通常是供大型研究计划所需,例如字典的编纂或著文法书的编写,但即使区区数万字的小型口语语料库也可以对语言教学发挥作用。语料库建立后,可以用软件来加以分析并产生词频列表,逐字索引以及其他的资料。
如何将语料库运用在中文教学上?
使用语料库可以让语言教师在许多方面获益。举例来说,经由语料库产生的词频列表可以得知在不同文本里的字词的频率。表格一列出口语语料库(谈话)与文字语料库(新闻报导)的词频列表,经由比较可以得知在这两种不同的语料库里词语频率的差异。
[表格一:自然语言里字的频率]
例如,虽然代名词你、我、他在谈话中常见,这几个代名词并未出现在新闻报导中前二十个频率最高的字中。这类看似简单的发现其实很有意义,可以帮助我们用来设计教材。
将一本教科书电子化后,我们可以从中产生词频列表并拿来与自然语言语料库的词频列表作比较,如表格二。如果只注意人称代名词的出现次数,我们只能确定这本教科书着重在说的方面胜过于写的方面。实际上这两个词语频率表看起来十分相近,但进一步分析,可发现除了在排序上有所不同,在某些特定的助词或词汇上它们也有显著的差异。这些差异值得作更深入的研究。(例如:助词 “就” 在自然会话中频率极高但没有出现在教科书的列表中;同样地,指示词 “这” 和 “那”的频率在这两个语料库里也有差异。)
[表格二:自然语言里与教科书里字的频率]
逐字检索也称KWIC (关键词检索)是一个重要的语料库工具,用来研究某一特殊语法结构或者词汇在真实语料库里的实际用途。检汇结果会列出在语料库里包含该搜寻字的所有文句。通常该关键字会自成一行而将上下文放置其左右。被搜寻出的句子可依不同标準排列(通常以关键字右方的第一个字为标准)以方便阅读;上下文的范围也可以按照使用者的需要来作调整。以下用三个简单的例子来说明如何使用此一工具。
范例一:把
许多教科书解释说,“把”字结构需要一个有定名词作为宾语(受词)(例如:他把那个苹果吃了),却忽略了许多有不定成分的“把”字结构句子。虽然一些学者指出“把”字结构也可以包含不定宾语(受词),但他们举出的例子常常很不自然。真实文本的纂集在此时便极为有用。以关键字所作的检汇结果可以让使用者轻易找出关于某特定结构的例句用法。以下即为“把”字结构的检汇结果例子。这些例子是由以新闻文本为主的语料库里取得并以关键字右方的第一个字为整理依据,从这些例子可看出“把”+ 不定宾语(受词)的用法颇为常见。
范例二:其实
从以下检汇结果的列表可看出“其实”作为词组连接词(在子句内并连接子句内的词语)和作为篇章连接词(放在主要子句外,用来连接大篇幅的篇章)这两种用法的差异。从检汇结果可以很容易地看出: 在篇章连接词的用法里,通常在关键字前或后会有标点符号,显示出该用法的独立性。相反,作为词组的连接词通常嵌入在子句中。
范例三:看看
第三组检汇结果列表显示叠词“看看”的不同用法:跟多数语法书所说不同,重叠既可以表示引导注意力 (“看看”),表示持续密集的动作 (“拿到太阳底下再看看”),也可以表示比较随意轻松的动作(“看看表”)。
由于电脑可快速搜寻语料库,我们可在极短时间内取得大量真实语言用法的例子。这意味着可节省许多分析语言及准备教材的宝贵时间。除此以外,语言教师还可借教学之便从学生写出或说出的语言来建立语言学习者的语料, 并借由各种语料库分析技巧来分析此一语料库能发现典型的学习错误。简而言之,语料库是一个丰富待探索的资源;不只是老师和研究人员可从中获益, 同时学生也可提高学习欲望。现今学生通常都有足够的电脑技巧,应多加鼓励通过他们使用语料库资源来提升自我学习能力及研究能力。
现今有哪些中文语料库可供中文教师使用?
现在网际网路上有不少免费中文语料库,下面我们给出部份例子。
中国大陆
北京语言大学 (Beijing Language and Culture University) 的BCC(BLCU Corpus Center) 汉语语料库,总字数约150亿字,包括报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料。可以用其自定义的检索式进行全库检索,也可以选择其中一个子语料库进行检索
URL: http://bcc.blcu.edu.cn/lang/zh
北京大学现代汉语语料库为另一资源:
URL: http://ccl.pku.edu.cn:8080/ccl_corpus/
由中国国家语委开发的另一个线上汉语语料库:
URL: http://www.aihanyu.org/cncorpus/index.aspx
台湾
中央研究院的现代汉语平衡语料库,搜集许多台湾报纸文章。这个语料库可以依词性(POS)搜寻以及叠词搜寻。
URL: http://asbc.iis.sinica.edu.tw
中央研究院另有全球华语文数位教学资源中心。这个网址提供字词频率表以及可依文法和语意搜寻的阅读资料。
URL: http://elearning.ling.sinica.edu.tw/
其他地方
由Tony McEnery和Richard Xiao在Lancaster大学所建立的华语文学习者语料库(The Lancaster Corpus of Mandarin Chinese; LCMC)。LCMC为一平衡语料库,主要资料来源为中国大陆。涵盖的主题有新闻报导、评论、宗教文章、技术性文件、贸易及休闲嗜好类文章、常识、传记类文章、散文、小说以及其他。这个语料库是以Freiburg-LOB Corpus of British English (FLOB)为对照的中文语料库。可以从以下网址以XML格式下载。
URL: http://ota.ox.ac.uk/desc/2474
华语地区共时语料库
LIVAC 汉语共识语料库(香港城市大学语言资讯科学研究中心共时语料库),是从香港、台湾、北京、上海、澳门和新加坡等地具代表性的报纸及电子媒体搜集的资料。LIVAC提供检汇结果列表和字频分析。由于这个语料库持续更新,可以从中看出语法随着时间的演变(在该语料库设定的时间范围内)。
URL: http://www.livac.org/index.php?lang=tc
多语语料库:含中文及其他语言
Babel汉英平行语料库有327篇英文文章及其中文翻译。这个语料库有544,095字 (253,633个英文词和287,462个中文词次)。这个语料库可以通过北京外国语大学多语言在线语料库检索平台(BFSU CQPweb)访问,用户名和密码均为test。
URL: http://111.200.194.212/cqp/
有哪些免费的软件可作语料库工具?
除了许多商业软件可用来准备和/或分析中文语料库,网络上也有一些免费软件可供下载,其中有一些十分实用。
由Erik Peterson研发的DimSum Chinese Language Tool是一个以Java为主的程式,可作断词(word segmentation)、英文注释、字词列表、汉字与拼音转换。可以在Windows, MacOS和Linux等作业系统执行。
URL: http://www.mandarintools.com/dimsum.html
由Laurence Anthony研发的AntConc,可在Windows和Linux上执行,包括索引、索引定位、文件查看、词从、N元模式、搭配、词单、关键词单等工具 。可用于多种语言文本。
URL: http://www.antlab.sci.waseda.ac.jp/software.html
其他资源
还有许多与 “语料库语言学” 、 “语料库” 和 “华语文语言暨语言学”有关的网站、书籍和文章。这里是其中一小部分:
网站:
Corpus4U.Org 是个讨论中英语料库语言学及其应用的网络论坛。
URL: http://www.corpus4u.org
Marjorie K.M. Chan的ChinaLinks有许多关于华语语言学的资讯。
URL: http://chinalinks.osu.edu
Tianwei Xie的线上学习中文网页(Chinese On-line)提供许多链结到华语教学网站。
URL: http://web.csulb.edu/programs/learningchineseonline/#page-top
参考书籍:
Concordance in the Classroom : A Resource Book for Teachers by Chris Tribble and Glyn Jones (Houston: Athelstan, 1997) 对於想在课堂使用电子文本的教师提供了许多概念,虽然这本书是以英文为主。
Corpus Linguistic by Douglas Biber, Susan Conrad, and Randi Reppen (Cambridge: CUP Press, 1998)是一本语料库语言学的入门读本。
语料库语言学by Huang Changning和 Li Juanzi (Beijing: Commercial Press, 2002) 是另一本语料库语言学的入门读本。
文章: