PSYCH OpenIR  > 社会与工程心理学研究室
基于大规模语料库的古文词典构建及分词技术研究
其他题名Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation
邢付贵1,2; 朱廷劭1,2
第一作者邢付贵
通讯作者邮箱tszhu@psych.ac.cn
心理所单位排序1
摘要

古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。

其他摘要

The classical Chinese word segmentation is an important step to analyze existing ancient documents. In this paper, we first collect unstructured classical Chinese online corpus and accumate a basic dictionary. Then the candidate new words are discovered by a multi-feature fusion strategy, including mutual information, information entropy, and position word probability. Finally, a CCIDict of 349,740 words is applied with the forward maximum matching to segment the words in classical Chinese texts, achieving 14% improvements in F-value compared with the open-source Jiayan.

关键词古汉语分词 大数据 语料库
2021
语种中文
发表期刊中文信息学报
ISSN1003-0077
卷号35期号:07页码:41-46
期刊论文类型数据论文
收录类别CSCD
项目简介

国家社会科学基金(17AZD041)

CSCD记录号CSCD:7029840
引用统计
被引频次:2[CSCD]   [CSCD记录]
文献类型期刊论文
条目标识符https://ir.psych.ac.cn/handle/311026/40472
专题社会与工程心理学研究室
通讯作者朱廷劭
作者单位1.中国科学院心理研究所
2.中国科学院大学心理学系
第一作者单位中国科学院心理研究所
通讯作者单位中国科学院心理研究所
推荐引用方式
GB/T 7714
邢付贵,朱廷劭. 基于大规模语料库的古文词典构建及分词技术研究[J]. 中文信息学报,2021,35(07):41-46.
APA 邢付贵,&朱廷劭.(2021).基于大规模语料库的古文词典构建及分词技术研究.中文信息学报,35(07),41-46.
MLA 邢付贵,et al."基于大规模语料库的古文词典构建及分词技术研究".中文信息学报 35.07(2021):41-46.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于大规模语料库的古文词典构建及分词技术(523KB)期刊论文出版稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[邢付贵]的文章
[朱廷劭]的文章
百度学术
百度学术中相似的文章
[邢付贵]的文章
[朱廷劭]的文章
必应学术
必应学术中相似的文章
[邢付贵]的文章
[朱廷劭]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于大规模语料库的古文词典构建及分词技术研究.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。