绿林网

《语料库应用教程》的读后感大全

《语料库应用教程》的读后感大全

《语料库应用教程》是一本由梁茂成 / 李文中 / 许家金著作,43.90元出版的2010-7图书,本书定价:241,页数:,特精心收集的读后感,希望对大家能有帮助。

《语料库应用教程》读后感(一):杂谈

1、个人感觉语料库中用到了好多的Python东西,看来这个Python还得好好学!可惜自己的Python课本好像给了别人。 2、虽然这本书是语料库的,并非统计学或者计算机的,但是最基本的原理或者思想还是要说一下的吧… 3、统计学和Python还是得学。要知其然,也要知其所以然。 4、BI与语料库中对词语的分析是有一定的相似度,两者可以相互借鉴。如果将BI中的一些思想应用到语料库中,说不定会有新的发现。 5、类似的工具书还是得多翻翻,《数据化管理:洞悉零售与电子商务运营》 6、讲理论的东西真的难搞,还不如搞一个实证上手的东西。 7、虽然这本书很经典,但是还是有点年代了,十年前的书,对前沿的研究要少一些。 8、虽然语料库是一个语言计算机交叉的学科,但是仅从这本书来看,目前语料库还是很简单的研究,统计学、计算机虽有涉及,但明显不足。

《语料库应用教程》读后感(二):如何使用这本语料库工具书?

梁茂成的《语料库应用教程》,讲的是语料库创建和应用方面的方法和技术。语料库语言学涉及到的学科繁多,该书系统详尽介绍了其中概念和操作。在理论环节后,又有实践举例分析,初学者十分容易上手,并且逐步登堂入室。对XML语言和正则表达式的系统说明,体现了语料库语言学的最新进展。书后还附有作者推荐的可靠软件来源。

该书共七章,可概括分为三大部分。第一部分是语料库语言学基本知识与实践基础上的语料库的基本操作。初学语料库,大家可能都会有一些疑问:语料库是什么?我能利用语料库做什么?学习语料库需要知晓哪些概念和操作?在第一部分中,本书对这三个问题做了解释和说明。以下我将分别回答。

语料库语言学是语言学科中飙升最快的学科之一。语料库,是一个按照一定的采样标准采集而来的,能够代表一种语言或者某语言的一种变体或文类的电子文本集。在不同的学者看来,语料库或是一门独立的学科,有自己独到的理论体系和操作方法,或是一种研究方法,基于大量的真实语言,可以用来回答通过其他途径很难探索出的问题,从而丰富了已有的研究方法。而通过不同的分类标准,语料库有多种类型,可用于多种用途。

如果想开始学习语料库语言学,一些基本的概念知识必不可少。关于语料库本身的有:文本,标注,词,形符,类符,概率和频率(一对常用的重要概念),索引,索引工具,搭配,类连接,多次序列,词义韵,正则表达式。而由此延伸出的基本问题就是:如何采集、整理文本?如何标注元信息?如何检索、索引?当通过语料库研究获取了一定的结果,如何进行统计和分析?而语料库应用也需要经历三个基本的阶段:建库阶段,数据提取阶段,统计和数据分析阶段。对于每个阶段,都需要借助一定的专业软件工具。我的本科毕业论文恰巧是在导师带领下做的基于小型自建平行语料库的一个词的语义韵和类连接分析,其中我曾用过的软件在本书出现的有PowerGREP, AntConc,ParaConc。而本学期需要学习的软件SPSS也在本书中有所推荐。

第二部分重点介绍了语料库在外语教学在外语学习中的应用。虽然对语料库有了不少认识,但是如果将语料库作为一种教学方法,那么它都适用于哪些领域呢?作者总结三点:词汇大纲,词汇中心教学法,数据驱动学习。词汇大纲是基于大规模语料出现的词频表,用于编制工具书和指导语言教学。词汇中心教学法,强调尽可能扩大有意义的语言输入,并以此作为教学的出发点。其次,将词项而不是句子作为语言的基本单位。数据驱动学习的理念符合“以学习者为中心”的思想,即课堂练习或活动都以自主学习为主。

第三部分侧重介绍语料库与外语研究的关系。作为一门新兴学科和新兴起的研究方法,语料库语言学不止是停留在空中理论,这部分旨在举出具体的研究课题来帮助读者提高认识。如果我们做出以下假设:

1. 在英国英语中,whom在书面语中较口语中更为常见。

2. 在英语学习者书面语中,人称代词的使用比英语母语者更为频繁。

3. 被动语态是学术英语的重要特征。

在第一个假设中,我们可以把口语和笔语作为自变量,把whom在口笔语中的使用频率作为因变量,研究口笔语中whom的使用频率之间,是否存在显著差异。最适合的语料库是英国英语书面语语料库和英国英语口语语料库。

在第二个假设中,可以把学习者书面语和本族语者书面语作为自变量,把人称代词在学习者书面语和本族语者书面语中的出现频率作为因变量。最适合的语料库是英语学习者书面语语料库和英语本族语者书面语语料库。

在第三个假设中,我们需要验证的是学术英语中的被动语态的使用频率是否显著高于非学术英语。可以将被动语态分为长被动结构(即带有by+施事者)和短被动结构,也可按照被动结构中的助动词是否是be动词,或者按照被动结构的时态。最适合的语料库是学术英语语料库和通用英语语料库。

之后,通过选择合适的语料库处理工具,对相关语言特征进行标注、提取,统计分析。最后进行数据解释和得出结论。

这本书澄清了长久以来我在建库时文本处理方式的误区,比如对正则表达式的不熟练使用,造成大量手动清洁文本工作,十分浪费时间。其次,让我明白了阅读工具书应获得的是研究问题的方法,而非现成的答案。研究方法是为一定的研究目的服务,我们要学习的研究理论和方法相辅相成,缺一不可。

最后,推荐之前教过我的钱多秀老师的著作《计算机辅助翻译》,比这本书更浅显易懂,如果觉得这本书有难度,可以先从钱老师的讲解开始。

《语料库应用教程》读后感(三):日语语料库制作

注:以下内容整理自一本讲日语语料库制作的书。未搜到,记于本书下。介意请关闭页面。

现在,除了一小部分偏误语料库外,大多数语料库都是无标签语料库。无标签语料库是指没有对构词成分加注标记的语料库。给例句加注标签(方法和工具见《加注标签软件与日语研究》),可以解决面对大量例句而束手无策的问题,提高发现规则的速度和精度。

专业语料库与业余语料库的不同是,可以自由地抽取句式、各类构词成分之间的搭配用法的例句。

【日语语料库】

日语复合动词。3037个。csd.ninjal.ac.jp/comp/index.php

众议院和参议院各类会议的记录。kokkai.ndl.go.jp

日语学习者的偏误用法。teramuradb.ninjal.ac.jp/db

专门检索搭配关系。nlb.ninjal.ac.jp

【中日对译语料库】

《中日对译语料库》。2000+万字,可在日研中心购买

21个国家日语学习者的作文。1575篇。Jpforlife.jp/taiyakudb.html#p1

JV Finder。视频语料库

【准备】

出现乱码-->改变语言设定

下载最新版Java( www.java.com/ja/download),必要时关闭防火墙。

秀丸:hide.maruo.co.jp/software/hidemaru.html——似乎和notepad++很像

Edamame:www2.ninjal.ac.jp.lrc——将语料转换成语料库格式

Himawari:下载地址同上——全文检索软件

【收集】

- 来源

已有的免费语料库语料

青空文库(zip格式)、天声人语

人民网中日对译

Pdf+ocr(读取革命 等日文读取软件)

- 保存(为txt格式)

总文件夹的名称-->语料库的名称

各小类文件夹的名称(?)、文件名-->作为例句的出处自动添加在例句后面(例如“作者+年代+题名”名称里的信息越多,检索时越方便)

文件夹名称不能有中文字符

【清理】

正则表达式删除注音假名:删除“《》”及其中内容

删除空格和空行(p84)

*原则:凡是与原作者的内容相混淆的符号和文字都必须删除。

【转换格式】

转换后有两个文件

【制作语料库(!注意:不适用于对译语料库)】

将转换好的2个文件分别拖放至Himawari文件夹空白处。

双击Himawari图标—>新建—>config_你的语料库名称

工具-->生成检索目录

【使用】

如何搜索活用形?——走[らりるれろっ]

如何展示全文?——双击例句

如何保存例句?如何打开保存后的例句?——保存部分例句时,直接复制粘贴。保存全部例句时,file-->保存,格式自动为txt。用excel打开时,可以清晰地突出目标词,方便清除垃圾例句。方法:点选“所有文件”-->“下一步”-->勾选第1、3项的「タブ」「カンマ」,点击“下一步”-->“完成”。

单个语料库太大时,转换格式和生成检索目录都容易出错。可以建几个小语料库,以其中某个为首,汇总为一个综合语料库(修改Himawari中的config),组合检索。

修改config的方法

如何给例句加注标签?——翻译语料库专用的加注标签软件TNR_TranslationCorpus(见随书附赠光盘)。该软件中1个文件夹、4个文件、1个软件的用途(照片P122)。

翻译语料库要加注那些标签?

——表示SVO结构的标签。当句子以动词结句时,加注VP;以形容词结句时,加注AP;以名词结句时,加注“NP述语”;表示句子成分的标签。如“助词”(词类),“接续”(语法),“比较”、“意志、愿望句”(句型),“主体”、“对象”(语义);表示句子成分之间关系的标签。

《汉日日汉翻译语料库的制作》《语料库应用教程》

本文由作者上传并发布(或网友转载),绿林网仅提供信息发布平台。文章仅代表作者个人观点,未经作者许可,不可转载。
点击查看全文
相关推荐
热门推荐