{$cfg_webname}
主页 > 计算机 > 论文 >

基于模式识别的手写汉字识别毕业设计论文

来源:56doc.com  资料编号:5D4022 资料等级:★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9A5D4022
资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用. 帮助
资料介绍

摘要
模式识别就是通过计算机用数学技术方法来研究模式的自动处理和识别。随着计算机技术的发展,人类对模式识别技术提出了更高的要求。在我国如何将汉字方便、快速地输入到计算机中已成为关系到计算机技术普及的关键问题。特别是对于大量己有的印刷资料和手稿,计算机自动识别输入己成为必须研究的课题,所以汉字识别在文献检索、办公自动化、邮政系统、银行票据处理等方面有着广阔的应用前景。
对手写汉字进行识别,首先将汉字图像进行处理,抽取主要表达特征并将特征与汉字的代码存储在计算机中,这一过程叫做“训练”。识别过程就是将输入的汉字图像经处理后与计算机中的所有字进行比较,找出最相近的字就是识别结果,这一过程叫做“匹配”。
本文主要介绍了模式识别的基本原理和手写的10个汉字字符的识别系统的设计实现过程。第一章介绍了与模式识别有关的概念、描述方法、有关的数学运算和此学科的发展状况。第二章分析了模式识别的过程、图像文件的格式,并详细介绍了BMP格式图像的结构;由于本文设计的识别系统是在VC++环境下开发的,所以给出了CDib类的定义和功能介绍。第三章主要讨论了分类器设计过程中的特征空间优化设计问题、分类器设计准则、基本方法和判别函数的知识。第四章在前三章知识的基础上,给出了模板匹配法识别图像的原理,类GetFeature的功能及定义,识别系统设计的开发流程及实现过程,并对实验结果做出简单的分析。
关键词:模式识别  BMP位图  分类器 手写汉字识别 模板匹配

I
ABSTRACT
The pattern recognition researches how to treat with and recognize pattern automatically through computer with math arithmetic. Along with the development of computer technology, human need more advanced pattern recognition technology. In our country it is a key problem for computer technology’s popularization that how to input Chinese characters into computer fleetly and conveniently. Especially for large numbers of printed data and manuscript, the automatic recognition and input of Chinese characters becomes a stringent task, therefore the Chinese character recognition will have a broad application prospect on literature retrieval, office automation, postal service system, bank bill processing.
In order to recognize Chinese characters, the first task we have to do is feature extraction of a map, after that we have to store the feature in the computer. This process is called "the training". The second process is called “match”, This process compares the hand-written Chinese character’s feature and the stored features in the computer.
This paper mainly introduces the basic principles of pattern recognition and the design、 realization process of ten hand-written Chinese characters recognition system. The first chapter mainly introduces the concepts related to the pattern recognition, the description method, the mathematics operation and this discipline’s development condition. The second chapter introduces the pattern recognition’s process, the picture format, especially the BMP form which is used in this paper. This article designs the recognition system under the VC IDE, therefore we introduce a CDib class’s definition and the functions. The third chapter mainly introduces characteristic space optimization design, the classification’s design criterion, the essential method and the knowledge about knowledge function. The fourth chapter produces the principle of template match recognition arithmetic, the class  GetFeature’s definition and the functions, the recognition system’s design flow and the realization’s process, finally we produce the experimental result and the simple analysis.
Kewords: Pattern Rocognition BMP  Classification  Template Match
Hand-written Chinese Characters Recognition

II
目 录
第1章 绪 论 1
1.1模式识别中的一些基本概念 1
1.2模式的描述方法 1
1.3模式识别学科介绍及现状 3
1.4论文的主要研究工作 3
第2章 模式识别系统及位图基础 4
2.1模式识别系统结构 4
2.2图像识别 5
2.2.1图像识别简介 5
2.2.2图像识别过程 5
2.3位图基础知识 6
2.3.1图像文件格式介绍 6
2.3.2 BMP文件结构 8
2.3.3 CDib类的建立 10
第3章 分类器设计 12
3.1 特征空间优化设计问题 12
3.2分类器设计准则 13
3.3类器设计基本方法 14
3.4 判别函数 14
3.5训练与学习 16
第4章 模板匹配分类器识别汉字系统的实现 17
4.1系统的功能描述 17
4.2模板匹配法的理论基础 17
4.3特征类的设计 18
4.4系统的设计流程及功能的具体实现 19
4.5实验结果和分析 22
结束语 24
致谢词 25
参考文献 26
附录 27

III
第1章 绪论
1.1模式识别中的一些基本概念
模式识别(Pattern Recognition)就是机器识别、计算机识别或机器自动识别,目的在于让机器自动识别事物。如本文所研究的手写汉字识别就是将手写的汉字分到具体的汉字类别中。模式识别研究的内容是利用计算机对客观物体进行分类,在错误概率最小的条件下,使识别的结果尽量与客观物体相符合。
模式识别中的一个基本概念是相似度(similarity),这和已知的其它一些学科方法都不相关。一般认为两个对象相似是因为他们具有相似的特征,相似度经常被描述成更加抽象的概念,它并不是在几个对象之间衡量,而是在一个对象和一个目标概念(concept)之间进行衡量。让机器辨别事物的最基本的方法是计算待识别事物与标准模板之间的相似度。
在模式识别学科中,就“模式”与“模式类”而言,“模式类”是一类事物的代表,而“模式”则是某一事物的具体体现。例如每一个汉字及标准符号是模式类,而用户任意手写的汉字则是“模式”,识别系统要识别的就是这样一个个“模式”。
1.2模式的描述方法
在模式识别技术中,被观测的每个对象称为样品,例如本文中的每个手写汉字可以作为一个样品,共写了10个汉字,所以就有10个样品(X1,X2,X3,X4,X5,X6,X7,X8,X9,X10),一共有10个不同的类别。对于一个样品来说,必须确定一些与识别有关的因素作为研究的根据,每一个因素称为一个特征。模式就是样品所具有的特征描述。模式的特征集由处于同一个特征空间的特征向量表示,特征向量的每个元素称为特征,该向量也因此称为特征向量。一般用小写字母x, y, z来表示特征。如果一个样品X有n 个特征,则可把X看成一个n维列向量,该向量称为特征向量X,记作:

X= = T         (1.1)
抽取图像特征的目的是为了进行分类,识别图像。也就是把图像变成n维空间的一个向量,实际上就是看成n维空间中的一个点,这样有利于从几何上考虑问题,计算上比较方便。
    如果一个对象的特征观察值为{x1,x2,…,xn},它可构成一个n维的特征向量值X,即X={x1,x2,…,xn}T,式中x1,x2,…,xn为特征向量X的各个分量。在模式识别的过程中,要对许多具体对象进行测量,以获得许多观测值,其中有均值、方差、协方差与协方差矩阵。
1.均值
     N 个样品的均值可表示为:
             (1.2)
      其中 是第i 个特征的平均值,
                            (1.3)
2.方差
方差用来描述一批数的分散程度,第i 个特征的N个数的方差公式是:         (1.4)     
3.协方差与协方差矩阵:
在N个样品中,第i个特征和第j个特征之间的协方差定义为:
     (1.5)
对于同一批样品来说,很明显有:
 
    如果一批样品有n个特征x1,x2,…,xn。求出没两个特征的协方差,总共得到n2个值,将这n2个值排列成以下的n维方阵,称为协方差矩阵:
                   ,协方差矩阵是对称矩阵,而且主对角线元素sij就是特征xi的方差si2,i=1,2,3,…,n。
1.3模式识别学科介绍及现状
分类识别是人类最重要的基本活动之一,在人类的日常生活、社会活动、科研生产以及学习、工作中无时无处不在进行着分类识别。模式识别是研究分类识别理论和方法的科学,是一门综合性、交叉性学科。在理论上它涉及代数学、矩阵论、概率论、图论、模糊数学、最优化理论等等众多学科的知识,在应用上又与其他许多领域的工程技术密切相关,其内涵可以概括为信息处理、分析与决策,它既是人工智能研究领域的重要分支,又是实现机器智能必不可少的技术手段。该学科的理论任务是运用一切相关科技研发分类识别的理论和方法,而其应用目标是创造能进行分类识别决策的智能机器系统以代替人类的分类识别工作。
文字识别始于20世纪50年代初期的欧美。最早从事汉字识别研究的是美国IBM公司的R. Casey和G.  Nagys。手写体汉字识别的研究最早始于70年代中期的日本,我国则在80年代初期开始进行手写体汉字识别的研究。目前进行手写体汉字识别研究的国家和地区主要集中在中国、日本、中国台湾、美国和加拿大。
我国手写体汉字识别研究一直处于平稳上升阶段,并逐步向实用化目标迈进,印刷体汉字识别系统、联机手写体汉字识别已经走出实验室。目前国内手写体汉字识别主要是进行识别方法的研究,而且把研究重点集中在方法实验和软件研制上,而几乎没有硬件专用设备的研制。
1.4论文的主要研究工作
    本论文主要介绍了模式识别的一些基本知识和发展概况,然后介绍了模式识别系统的组成结构和实际中图形的文件格式,详细介绍了BMP格式的结构和在VC++环境中CDib类和GetFeature类的实现方法,然后讨论了模板匹配分类器的设计原理,最后本文叙述了利用最小距离算法识别汉字的开发过程。

第2章 模式识别系统及位图基础
2.1模式识别系统结构
一个典型的模式识别系统如图2-1所示,由数据获取、预处理、特征提取、分类决策及分类器设计五部分组成,一般分为上下两部分。上半部分完成未知类别模式的分类;下半部分属于设计分类器的训练过程,利用样品进行训练,确定分类器的具体参数,完成分类器的设计。而分类决策在识别过程中起作用,对待识别的样品进行分类决策。

                   图2-1  模式识别系统结构
模式识别组成单元功能介绍如下。
1.数据获取。用计算机可以运算的符号来表示所研究的对象,一般      获取的数据类型有以下几种。
二维图像:文字、指纹、脸谱照片等。
一维波形:脑电图、心电图、季节震动波形等。
物理参量和逻辑值:体温、化验数据、参量正确与否的描述。
2.预处理。对输入测量仪器或其他因素所造成的退化现象进行复原、去噪声、提取有用信息。
3.特征提取。对原始数据进行变换,得到最能反映分类本质的特征。将维数较高的测量空间转变为维数较低的特征空间。

推荐资料