基于大规模语料库的古文词典构建及分词技术研究 | |
其他题名 | Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation |
邢付贵1,2; 朱廷劭1,2![]() | |
第一作者 | 邢付贵 |
通讯作者邮箱 | tszhu@psych.ac.cn |
心理所单位排序 | 1 |
摘要 | 古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。 |
其他摘要 | The classical Chinese word segmentation is an important step to analyze existing ancient documents. In this paper, we first collect unstructured classical Chinese online corpus and accumate a basic dictionary. Then the candidate new words are discovered by a multi-feature fusion strategy, including mutual information, information entropy, and position word probability. Finally, a CCIDict of 349,740 words is applied with the forward maximum matching to segment the words in classical Chinese texts, achieving 14% improvements in F-value compared with the open-source Jiayan. |
关键词 | 古汉语分词 大数据 语料库 |
2021 | |
语种 | 中文 |
发表期刊 | 中文信息学报
![]() |
ISSN | 1003-0077 |
卷号 | 35期号:07页码:41-46 |
期刊论文类型 | 数据论文 |
收录类别 | CSCD |
项目简介 | 国家社会科学基金(17AZD041) |
CSCD记录号 | CSCD:7029840 |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | https://ir.psych.ac.cn/handle/311026/40472 |
专题 | 社会与工程心理学研究室 |
通讯作者 | 朱廷劭 |
作者单位 | 1.中国科学院心理研究所 2.中国科学院大学心理学系 |
第一作者单位 | 中国科学院心理研究所 |
通讯作者单位 | 中国科学院心理研究所 |
推荐引用方式 GB/T 7714 | 邢付贵,朱廷劭. 基于大规模语料库的古文词典构建及分词技术研究[J]. 中文信息学报,2021,35(07):41-46. |
APA | 邢付贵,&朱廷劭.(2021).基于大规模语料库的古文词典构建及分词技术研究.中文信息学报,35(07),41-46. |
MLA | 邢付贵,et al."基于大规模语料库的古文词典构建及分词技术研究".中文信息学报 35.07(2021):41-46. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
基于大规模语料库的古文词典构建及分词技术(523KB) | 期刊论文 | 出版稿 | 开放获取 | CC BY-NC-SA | 浏览 请求全文 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[邢付贵]的文章 |
[朱廷劭]的文章 |
百度学术 |
百度学术中相似的文章 |
[邢付贵]的文章 |
[朱廷劭]的文章 |
必应学术 |
必应学术中相似的文章 |
[邢付贵]的文章 |
[朱廷劭]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论