温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
区域
生长
算法
汉字
笔画
统计
分析
蔡志伟
第 25 卷第 3 期2023 年 5 月大 连 民 族 大 学 学 报Journal of Dalian Minzu UniversityVol 25,No 3May 2023收稿日期:2023 01 13;最后修回日期:2023 03 12基金项目:辽宁省自然科学基金项目(2020 MZLH 19);贵州省科技支撑计划项目(2021 534)。作者简介:蔡志伟(1998),女,河北承德人,大连民族大学计算机科学与工程学院硕士研究生,主要从事图像处理研究。文章编号:2096 1383(2023)03 0261 04基于区域生长算法的汉字笔画统计与分析蔡志伟1a,1b,奚海丹2,田云松1a,1b(1 大连民族大学 a 计算机科学与工程学院;b 大连市汉字计算机字库设计技术创新中心,辽宁 大连 116605;2 沈阳开放大学,辽宁 沈阳 110003)摘要:针对现阶段汉字笔画数据集划分时所含笔画类别较少的问题,设计符合汉字特征的生长控制策略和算法框架,实现汉字笔画小类别的划分。同时,采用统计学方法,对汉字不同笔画的出现频率进行分析,并探究笔画与汉字语义之间的联系,构建了新的汉字笔画数据集,为字体设计中汉字笔画拼接奠定基础。使用 GB2312 编码和 Unicode 编码对 信息交换用汉字编码字符集 中的6 763 个汉字及32 类笔画进行编码。通过对样本数据的实验验证,算法在汉字笔画的识别和统计分析方面表现良好,构建的汉字笔画数据集为汉字的研究以及文化传承提供了有力的技术支持。关键词:汉字笔画;区域生长算法;数据集中图分类号:TP391 1文献标志码:AStroke Statistics and Analysis of Chinese CharactersBased on egion Growing AlgorithmCAI Zhi wei1a,1b,XI Hai dan2,TIAN Yun song1a,1b(1 a School of Computer Science and Engineering;b Dalian Chinese Font Design TechnologyInnovation Centre,Dalian Minzu University,Dalian Liaoning 116605,China;2 Shenyang Open University,Shenyang Liaoning 110003,China)Abstract:In view of the problem that there are a few stroke categories in the division of Chinesestroke data set at the present stage,a growth control strategy and algorithm framework with Chi-nese character characteristics should be designed to realize the division of small categories ofChinese strokes At the same time,statistical methods are used to analyze the occurrence fre-quency of different strokes of Chinese characters,the relationship between strokes and Chinesesemantics is explored,and a new data set of strokes of Chinese characters is built,which lays afoundation for the stitching of strokes of Chinese characters in font design GB2312 encoding andUnicode encoding are used to encode 6763 Chinese characters and 32 strokes in the Coded Char-acter Set of Chinese Characters for Information Exchange Through the experimental verificationof sample data,the algorithm performs well in the recognition and statistical analysis of Chinesestroke,and the constructed Chinese stroke data set provides strong technical support for the re-search of Chinese characters and cultural inheritanceKey words:Chinese stroke;region growing algorithm;data setDOI:10.13744/21-1431/g4.2023.03.012笔画是汉字的组成部分,研究汉字的组成结构等离不开笔画。统计汉字笔画的编码及笔画类别、笔画数量、各种笔画在字库中出现的频率等数据,对于基于笔画的汉字输入法和汉字的联机手写识别等方面具有重要的指导意义1。汉字数以万计,是中华民族传统文化的核心和信息交流的主要工具。每个汉字不论简体或繁体都需要按照笔画顺序进行书写。因此,汉字的笔画及其笔顺对于汉字书写和设计至关重要。1研究现状1 1汉字笔画数据集构建研究现状(1)汉字笔画数据集现状。林华2 于 2004 年通过提取汉字笔画轮廓线抽取汉字笔画,实现计算机辅助汉字笔顺教学;吴建国等人1 于 2005 年统计汉字笔画的相关信息并将其应用于标准键盘和数字键盘;导夫3 于 2013 年按汉字内码扩展规范 总笔画数进行排序、统计。(2)图像分割现状。覃学标等4 于 2023 年提出基于目标检测及边缘支持的鱼类图像分割方法;齐小祥等5 于 2021 年提出基于边缘检测的SA 图像自适应区域分割;李建华等6 于 2022 年提出基于 Canny 算子和距离正则化水平集的乳腺植入物图像分割算法。1 2现有汉字笔画数据集及其构建的不足(1)汉字笔画类别少。经统计,现阶段所用的数据集大都以基本笔画横(一)、竖(丨)、撇(丿)、捺()、折()等为基本单位进行统计,而根据GB13000 1 字符集汉字折笔规范 汉字笔画多达32 种7 见表 1。(2)汉字笔画数据集中只含有总笔画数,未出现笔画细节及个数。现流行数据集大多只存储汉字编码、汉字字形、笔画总数以及笔顺等信息,丢失单个字形所含有的笔画类别及数量信息如图 1。图 1汉字笔画数据集示例表 1汉字笔画种类示意图编号名称横类横竖类竖撇类撇捺类捺提类提点类点折类弯钩、斜钩、卧钩、竖弯、横折折、横折钩、横撇、横折弯钩、竖折折钩、横折提、横折折撇、横撇弯钩、横折弯、横折折折、横折、横钩、竖折、竖提、竖钩、撇点、撇折、竖折折、竖弯钩、横折折折钩、竖折撇、横斜钩1 3主要研究内容采用文献 8提出的汉字笔画分割数据集(Chinese character stroke segment dataset,CCSSD),对汉字笔画分割数据集进行笔画统计,由于 CCSSD将笔画交叉区域划分为新一类,并且将所属横折折撇的两种写法如图 2。记作两类,共计 34 类,在统计汉字笔画类别数量时,采用区域生长算法将交叉类归还给原笔画,根据连通域数量计算笔画类别,采用统计学方法对汉字笔画进行分析。图 2横折折撇示例图2区域生长算法区域生长算法是一种常用的图像分割方法,其核心思想是通过将具有相同性质的像素点逐步合并以实现图像分割的目的。在该算法中,首先针对每个区域指定一个种子点作为生长节点,然后将其周围的像素点与该种子点进行对比,将相似性质的像素点合并至同一区域,随后继续对新的像素点进行对比,直至该区域的生长完成。而当没有满足条件的像素点被包含进来时,该区域的生长也即告结束。具体步骤见表 2。表 2区域生长算法步骤步骤操作一扫描图像,找到第一个没有归属的像素,记为(x0,y0)262大连民族大学学报第 25 卷续表 2区域生长算法步骤步骤操作二以(x0,y0)为中心,考虑 8 邻域像素(x,y),若满足生长准则,则将其合并,同时将(x,y)压入堆栈三从堆栈中取出一个像素,将其当作(x0,y0),执行步骤二四如果堆栈为空,执行步骤一五重复步骤一至四,直至图像中每个点都有归属,此时生长结束3基于区域生长算法的汉字笔画统计本文采用应用于图像分割的 CCSSD 数据集,利用其灰度图像,不同笔画类别以不同灰度进行标注,笔画交叉区域作为第 34 类,采用区域生长算法,从每个笔画类别入手,采用八邻域搜索,判断周围是否拥有笔画交叉区域,若有将其归属于一类,判断结束,根据连通分量进行统计笔画数量并保存。具体流程如图 3。图 3基于区域生长算法的笔画统计流程区域生长算法的好坏取决于:1 初始点(即种子节点)的选取;2 生长准则;3 终止条件。为了提高算法的准确性,本算法采用每个笔画类别的第一个像素值的位置作为种子节点,将相同类别和交叉类别作为生长准则,若无相同笔画类别或交叉笔画,则终止生长。假设采用如图4,大小为5 5 的图像矩阵,以7 作为种子节点,像素生长准则为 7 或 9,按照区域生长算法对该图像进行分割。图 4图像矩阵采用八邻域搜索方式加快查找速度,生长区域为 7 或 9,第一次生长结果如图 5。第二次生长如图 6。图 5第一次生长结果图 6第二次生长结果第三次生长可见周边邻域内没有满足生长条件的像素点,故停止生长,至此,将生长区域标记为 1,未生长区域标记为 0,分割结果如图 7。图 7分割结果图4实验结果与分析标准宋体“安”字按照灰度图分割所得笔画如图 8,方正兰亭黑“安”字分割所得笔画如图 9。可以看出,算法适用于不同种类字体,且对于连通分量计算笔画个数更为准确。362第 3 期蔡志伟,等:基于区域生长算法的汉字笔画统计与分析图 8标准宋体“安”笔画示意图图 9方正兰亭黑“安”笔画示意图此外,本文采用连通域统计,计算各汉字各笔画种类数量,并按照 GB2312 编码顺序将其包含的 6 763 个中文汉字进行编码分析,由于横折折撇有两种写法,但是同一个 unicode 编码,故将这两种归属于横折折撇类,6 763 个中文汉字共计32个种类,笔画编号、类别及编码见表 3,其中每个含有该 32 个种类的汉字数量见表 4。统计各种类笔画总数量占比如图10。基于笔画的汉字输入法键盘设计具有重大意义,从图 10可以看出,横、竖、撇、点、横折占比最多,说明字体设计中这五种作为常用笔画。字库中包含某笔画的汉字数量见表 4。可以看出点、横、撇、竖、提作为基本笔画,应用广泛。本文构建新数据集下载网址:https:/githubcom/caixiaocai1234/glyph。表 3笔画基本信息表编号名称样式Unicode 编码1点丶U+4E362小撇U+FF893斜钩U+31C24横一U+4E005横斜钩U+2E846横钩乛U+4E5B7横撇U+31C78横撇弯钩U+31CC9横折U+200CD10横折钩U+200CC11横折提U+31CA12横折弯U+31C513横折折U+31CD14横折折撇U+31CE15横撇弯钩U+31E116弯钩U+31C117捺U+31CF18撇丿U+4E3F19撇点U+21FE820撇折U+200CB21竖丨U+4E2822竖钩U+4E8523竖提U+2010C24竖弯U+31C425竖弯钩乚U+4E5A26竖折U+200CA27竖折撇U+312328竖折折U+31DE29竖折折钩U+31C930提U+31C0