总结,确定史料文本的关键句以及其与非关键句的关系,直接获得用户感兴趣的史料信息。这就避免了“完全检索”和“全文阅读”带来的资源浪费,提高了信息获取速度和效率。下面谨就3篇代表性研究文献分析归纳面向古汉语史料的信息抽取的一般方法流程。
3.1 《上古汉语分词及词性标注语料库的构建——以《淮南子》为范例》的信息抽取
《上古汉语分词及词性标注语料库的构建——以《淮南子》为范例》是留金腾(香港城市大学)、宋彦(香港理工大学)、夏飞(华盛顿大学)发表于《中文信息学报》2013年06期的研究论文。文章从古汉语语料库的简介入手,进而分析《淮南子》与上古汉语词语的特点(包括:上古汉语复音词构词特点、上古汉语词语形态特征、古汉语的词性转化),落实了语料库的标注与校正。在语料库标注与校正方面,采取动标注和人工校正交替进行的工作流程(见图1),显著提升了准确率。
基于语料库信息的掌握,研究从词汇词性两个角度分析整个语料库的词频、词长和词性标注的统计分布,获得高频词分布、词语长度分布、词性标注分布的具体数据,提出了上古汉语分词及词性标注语料库构建的基本模式。
3.2 《基于先秦语料库的古汉语地名自动识别模型构建研究》的信息抽取
《基于先秦语料库的古汉语地名自动识别模型构建研究》是南京农业大学信息科学技术学院黄水清、王东波、何琳三位教授发表于《图书情报工作》2015年12期的研究成果。文章通过对《春秋左氏传》中地名的内部和外部特征进行统计分析,将条件随机场模型和最大熵模型应用于古汉语地名自动识别模型的构建,并借助语料库地名的内部和外部特征统计、语料的预处理、自动识别模型的构建与测评等技术环节,得出条件随机场模型优于最大熵模型,基于人工标注的语料构建条件随机场自动识别模型能起的较好识别效果的理性化结论
3.3 《条件随机场图模型在《明史》词性标注研究中的应用效果探索》的信息抽取
《条件随机场图模型在《明史》词性标注研究中的应用效果探索》发表于《复旦学报(自然科学版)》2014年03期,是复旦大学硕士研究生朱晓在其导师金力教授指导下完成的研究论文。论文选择编年体体裁的《明史》作为研究语料,通过交叉检验法比较了基于条件随机场的无边图模型、完全图模型、和嵌套图模型在古汉语词性标注中的应用。在关于条件随机场模型的特征设置、三种图模型的选择及交叉检验的方法上突出优选,阐述了在《明史》词性标注中完全图模型和嵌套图模型优于无边图模型、分词在某种意义上能够提高古汉语词性标注效率的重要发现。
4 结语
综上所述,利用信息技术面向海量古汉语史料进行相关信息的抽取,从而为历史研究人员提供相应的数据资源及佐证信息,已经成为历史人物研究的一个重要潮流趋势。而分析并利用古漢语特有的句法结构特征,则是面向古汉语史料进行信息抽取的一个必不可少的技术途径。
参考文献
[1] 留金腾,宋彦,夏飞.上古汉语分词及词性标注语料库的构建——以《淮南子》为范例[J].中文信息学报,2013(06):6-15.
[2] 朱晓,金力.条件随机场图模型在《明史》词性标注研究中的应用效果探索[J].复旦学报(自然科学版),2014(03):297-304.
[3] 郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015(02):14-16.
[4] 黄水清,王东波,何琳.基于先秦语料库的古汉语地名自动识别模型构建研究[J].图书情报工作,2015(12):135-140.
[5] 虞宁翌,饶高琦,荀恩东.文言信息的自动抽取-基于统计和规则的尝试[J].中文信息学报,2015(06):127-134.
[6] 叶辉,姬东鸿.基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J].中医药信息研究,2016(05):14-17.
推荐访问: 抽取 史料 综述 面向 方法