ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

华为AI全栈成长计划课程——AI应用篇——第一周笔记

2020-11-12 09:02:09  阅读:355  来源: 互联网

标签:文字 字符识别 识别 AI 检测 华为 文本 全栈 OCR


第1章 企业应用最广泛的AI案例开发:OCR文字识别

1.1 OCR介绍

    OCR简介

  • OCR光学字符识别
  1. 发展时间较长
  2. 使用普遍


    OCR流程

  • 机器学习
  1. 图像预处理:去噪、灰度化、图像增强等
  2. 文本检测:滑动窗口算法遍历整张图片
  3. 字符分类:划分单个字符,识别单字
  • 深度学习方法
    文字区域检测:将图片中出现的文本位置检测出来,可能存在不同语言,不同文字大小,不同角度倾斜,不同程度遮挡 等情况。
  1. CTPN:CTPN网络结合了CNN与LSTM深度网络,通过固定宽度的anchor提取proposal,能有效的检测出复杂场景的横向分布的文字区域,不定长度文本识别效果较好,是目前使用广泛的文字检测算法。

  2. EAST:EAST网络分为三部分:特征提取,特征融合和输出层,实现了端到端的文本区域检测,通过FCN网络生成图片文本参数,然后通过NMS筛选,得到检测结果。

  3. PixelLink:PixelLink算法采用了实例分割的方法完成文本区域检测,通过将统一实例中的像素链接,通过链接区域分割出文本实例,然后从分割结果中提取文本边界框,进行回归计算。

**字符识别算法,将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取,然后对固定特征进行提取和比对,得出识别结果。

  1. CRNN+CTC:CRNN卷积循环神经网络,将特征提取,序列建模以及转录整合到统一的模型框架中。CRNN网络分为:卷积层、循环层和转录层三部分,CTC为无词典的转录方式,不会被局限在预定义词汇范围中。


    OCR相关的开源资源

  • Tesseract
      2006年开源的光学字符识别引擎,因为开源使用以及精准的检测效果,Tesseract的使用十分普遍。
  • MNIST手写数字数据集
      MNIST数据集包括了大量的手写数字图片,包括6万张训练数据集和1万张测试数据集,是广泛使用的开源数据集之一,很多深度学习任务的入门练习数据集。
  • COCO-text
      包含日常生活里复杂场景中的文字,数据集提供了边界框的位置,区分了打印文字和手写文字,清晰和模糊的文字,文字的内容等标注信息,数据集包括了超过173,589标注了的文本区域,超过63,686张图片。
  • CTW中文街景数据集
      数据集中包含了32285张图片,共计1018402个汉字,3850个汉字类别。标注信息包括了文字行的边界框、文字单字的边界框、是否遮挡扭曲、是打印文字或者手写文字等。

    OCR面临的挑战

  • 汉字字符识别
      汉字字符的识别难度相比较英文字符要更大,字符的识别过程可以近似为分类,引文字符的分类数远小于汉字单字的数量,所以分类的难度更高。除此之外,多语言混合也是字符分类任务中的挑战,字符识别更加复杂。
  • 手写字符识别
      印刷字体遵循固定的规则,而手写字符的识别相比较就更加复杂,每个人的书写习惯都不同,同一个人书写同样的字符也不完全相同,识别难度大大增加。


1.2 华为云OCR调用指南




1.3 CTPN+CRNN端到端实现文字识别

    CPTN

  • 网络结构:CNN-VGG16、RNN、FC


    CRNN

  • 卷积循环神经网络:卷积层(提取特征)、循环层(深度双向LSTM)、转录层(将RNN输出做softmax)


    完整的端到端OCR流程

  • 准备一张含有文字的原图;
  • 对原图进行文字位置的检测,检测结果可能是水平矩形框,也可能是倾斜矩形框;
  • 从原图中吧文字框对应的图片切下来,并旋转正,得到水平的文字块切片图;
  • 对每个文字块切片图依次进行字符识别,每个切片图的识别结果汇总起来,就得到原图的文字识别结果。
  • 因此完整的端到端OCR流程是:输入原图->文字检测->文字块切片->字符识别->识别结果汇总。


    动手实践

标签:文字,字符识别,识别,AI,检测,华为,文本,全栈,OCR
来源: https://www.cnblogs.com/Sno-W-olF/p/13962092.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有