印章文字识别技术开发
项目组成员:刘健(182055235),郭秋阳(182111407) |
起止时间:2020.3-2021.3 |
项目负责人:孟星煜 |
班级学号:182055214 |
项目组成员:刘健(182055235),郭秋阳(182111407) |
|
指导教师:孔令德 |
职 称:教授 |
一、 项目研究目的背景
印章艺术是我国特有的一个艺术品种。它是我国悠久历史文化的一个组成部分。印章艺术具有物质文化和精神文化、实用价值和审美价值的双重性。印章至少在春秋战国时已出现,一般用作于文件上的鉴定或签署,制作精美的印章堪称是精湛瑰丽的典范。随着汉字的演变,印章所篆刻的内容也在发生着变化,虽然不同的印文代表着不同的含义,也有着不同的用途,但是,印文的简洁性一直传承至今。印文一般平整端庄、稳重大方,在平整的前提下,往往有许多小小的变化,不仅没有破坏整体的统一规矩,反而显得生动有变化。受印章艺术的启发,印章创作和研究的日益兴起给中国各个地域的视觉艺术带来了一股俊爽之气,它拓宽了视觉艺术的审美疆界,给视觉艺术带来了鲜活的生机与活力。
而印文,也就是汉字,不单纯的是一个语言交流工具,它是中华民族文化传承的载体,它承载着中华民族文化的特性。而在信息化与数字化生存的时代,汉字的表现力具有重要的意义,它以独特的外形获得强烈的视觉感染力。汉字艺术是中华民族的一种艺术形式,因为汉字的象形性,它成了更多艺术家创作的基础和灵感。在汉字艺术的背后,是数千年的文化积淀,在汉字的演变过程中,每一个汉字具有其自身的创造理念和独特意义。近年来,以汉字为创作元素的文创产品也在不断地快速增长。这些产品内容丰富多样,极大地扩展了汉字的应用空间。使汉字摆脱了文字符号这一单一认知功能的束缚,将汉字的形、神、韵作为一种精神气质和产品功能有机地融合在一起。
在这样的背景下,我们的项目实现的不仅仅是技术上的创新,更多的是利用技术去传承文化。我们希望将文化作为引子,推动技术的创新,将科技与文化结合起来,让文化需求来决定技术创新点,让技术创新传承汉字与印章文化。所以,在文化的推动力之下,我们最终要对研究成果进行宣传,不仅要实现印章的数字化,更要阐述印章和汉字背后的历史渊源。我们希望将印章的三维模型以及印文信息以数字化信息保存到数据库中,这样不仅可以在平台上对印章进行三维观赏,还可以结合数据库中现有的印章形式进行再创新,创作出新的印章模型。同时,我们还想从文化角度出发,制作微课视频,让传承变得永久,让创新变得简单。
二、 项目主要研究内容、研究方法及实施过程(包括预期目标、实验手段、实施效果等)
我们的研究内容主要包含:建设汉字数据库、实现图像的镜像变换、对汉字图像的预处理、汉字的提取与识别、印章的3D打印制造等。在研究过程中,需要搜集不同字体的汉字,来建设汉字的数据库,并且拍摄印章, 实现汉字图像的镜像变换,并利用一些计算机视觉库提供的类对图像进行识别。对图像的预处理主要包括灰度化、平滑处理、二值化、直线消隐等,来改善图像数据,以便提取图片中的印章内容,识别汉字。
项目预期目标要实现印章数字化,将文字载体存入计算机。要利用数字化印章完成文字内容的识别,还有紫砂壶底部钤印的识别,同时要完成印章模型的创新,利用3dsMax等建模软件,对不同的印章进行建模。
实施过程中,首先是资源准备阶段,小组各成员根据自己的分工,分别准备自己需要的资料,并做一定的规划,讨论各自遇到的问题,进行资源共享,最重要的是确定项目创新点。然后是项目深化阶段,要基本完成项目雏形,实现较简单的文字识别。接着是项目攻坚阶段,期间要对项目做一定的应用,并发现项目的提升空间。下面是项目提升阶段,根据中期答辩所指出的问题,改进项目。最后是项目收尾阶段,完成项目成果展示,并申请一些专利。
三、 项目研究成果及创新点
利用Tesseract实现了对印刷体汉字的识别。使用Python语言制作做一个OCR工具,结合百度AI提供的图像识别应用库,输入图片进行识别。基于TensorFlow预训练模型,实现了基本汉字的识别。
开发了独孤信印渲染系统,将实物数字化,区别于以往对照片中文字的识别,极大方便了项目的研究,并且将独孤信印的历史渊源与系统开发的相关技术录制微课视频,供大众参考。与此同时,将研究成果申报专利,申请了软件著作权,产生了间接的社会价值。
在大创项目的基础上,设计了作品“文映华夏”,其中包含了大量文创产品的设计思路和众多实例,我们使用该作品参加了第六届“互联网+”老员工创新创业大赛并获得省级奖项。
四、其他需要说明的事宜(包括存在问题、建议等)
首先,文字识别的准确率还需提高,印刷体识别的准确度在目前看来已经接近完美,但是手写体识别的准确度很不乐观。其次,对于印章实物数字化,我们开发的系统通用性不强,仍有很大的提升空间。