介绍
【前言】
近年来,各类大规模语料库陆续建成并投入使用,为语言学研究者提供了丰富、可靠、翔实、多元的语言资源。同时,随着互联网技术的不断进步以及网络对人们日常生活的日益渗透,网上的电子化语言资源飞速膨胀。运用爬虫技术,我们能够快速、低成本地获取这些数据,从而方便、经济地掌握几乎无限的语言资源。可以说,语言数据不再是当前语言学研究的主要瓶颈。但是,充沛的语言资源在给语言学研究带来崭新机遇的同时,语料规模的飞速膨胀也对研究者的数据处理能力形成了重大挑战。如何科学、高效地处理这些资源,从海量数据中提炼出可信度高、具有潜在价值的有效信息和隐含规律,成为研究者亟待解决的难题。
面对大规模语料带来的重大机遇和挑战,研究者开始汲取数据科学发展的最新成果,不断尝试将数据挖掘技术应用于词汇、语法、句法等研究。在传统的描述性统计方法的基础上,引入卡方检验、主成分分析、聚类分析等推断性统计方法,并进一步拓展到决策树、随机森林和主题模型等机器学习方法,产出了许多颇具创新性的研究成果,有效地拓宽了研究视角,提升了研究深度。但总体而言,数据挖掘所需工具仍不完备,运用这些技术的二语习得研究成果尚不多见。
本书正是在这一领域的探索。笔者结合开展二语习得研究的实际需要,通过Python编程,编制数据挖掘系列工具,完成语料采集和预处理,实现自动分词赋码,检索关键词,统计类符形符比,生成高频词表,提取文本特征指标,构建词语共现网络以及进行情感分析。在此基础上,以语料库语言学、认知语言学为理论支撑,以数据挖掘为技术手段,以中国日语学习者动态语料库为基础数据,以大规模本族语基准语料库和本族语使用者作文语料库为本族语参照,以“多维对比十偏误分析→认知研究”为基本路径,在学习者与本族语使用者之间、不同级别学习者之间开展多维度对比,分析典型特征,考察常见偏误,验证数据挖掘技术在二语习得研究领域的应用成效,探索学习者认知机制、二语发展规律以及常见难点问题,并探讨相应对策。
希望本书能够进一步丰富我们对于数据挖掘技术应用方式以及二语习得机制的认识,深化对学习者认知机制的剖析和理解,为我国外语教学改革提供数据支撑,并为我们改革教学内容、改进教学方法、改善教学效果提供有益启示。
在本书成书过程中,得到了许多学界前辈、师友的热情支持和宝贵指导,在此一并表示感谢!受学力所限,在论述过程中多有疏漏、不当之处,恳请不吝赐教!
2023年3月
目录
【目录】
第1章 数据挖掘技术在日语语言学研究中的应用
1.1 数据挖掘方法的应用概览
1.2 语言学研究中数据挖掘方法的应用
1.3 代表性专著概览
1.4 问题与展望
1.5 小结
第2章 学习者语料库建设应用一体化网上平台的规划与实现
2.1单用户系统开发模式的局限
2.2 中国日语学习者动态语料库(CJLMC)的语料采集
2.3 中国日语学习者动态语料库(CJLMC)的平台及模块设计
2.4标注和标注校对子模块的功能设计
2.5应用子系统的功能设计
2.6小结
第3章 数据采集与预处理
3.1 文件格式转换的程序实现
3.2 文本整形的程序实现
3.3 文本编码转换的程序实现
3.4数据挖掘在汉日隐喻对比及学习者认知机制研究方面的应用
3.5小结
第4章 日语自动分词赋码的技术实现及赋码器对比研究
4.1 日语自动词性赋码的原理解析
4.2短单位赋码器的调用方式
4.3短单位赋码器的速度对比
4.4影响短单位赋码精度的因素分析
4.5学习者语料的短单位赋码精度分析
4.6基于爬虫技术的长单位赋码
4.7长单位赋码在学习者机能辞习得研究中的应用
4.8小结
第5章 KWIC关键词检索的实现及应用
5.1 KWIC关键词检索的程序实现
5.2关键词检索的功能进阶
5.3关键词检索在学习者动词习得研究中的应用
5.4小结
第6章 词表的自动生成及应用
6.1词表自动生成的程序实现
6.2基于高频词表的词汇分布特征分析及文本信息挖掘
6.3基于词表分析的中国日语学习者作文高频词目研究
6.4小结
第7章 类符形符比的统计及应用
7.1文本特征评价参照系的建立
7.2类符形符比统计的程序实现
7.3类符形符比在二语习得研究中的应用
7.4小结
第8章 文本特征指标的提取及应用
8.1 文本特征自动提取的程序实现
8.2 文本特征提取在文体学研究中的应用
8.3 文本特征提取在二语习得研究中的应用
8.4小结
第9章 词语共现网络的构建及应用
9.1 词语共现网络构建的程序实现
9.2词语共现网络分析在舆情研究中的应用
9.3词语共现网络分析在二语习得研究中的应用
9.4小结
第10章 情感分析技术的实现及应用
10.1情感分析技术的程序实现
10.2 情感分析工具的精度对比
10.3 情感分析技术在二语习得研究中的应用
10.4小结
第11章 数据挖掘技术的扩展应用
11.1语料库文体学研究的范式
11.2语料库文体学研究的主要领域
11.3存在的问题与展望
11.4小结
第12章 总结与展望
12.1本书内容的回顾
12.2数据挖掘技术的未来发展趋势
12.3数据挖掘技术在二语习得研究领域的应用展望
12.4结语
附录
附表1 标准类符形符比单因素方差分析及事后分析结果
附表2 文本特征指标单因素方差分析及事后分析结果
参考文献
英语文献
日语文献
汉语文献