中国银行本票样本（光大银行企业级“图像数字化智能平台”建设实践）

时间：2023-08-13 22:02:53 浏览量：

作者：中国光大银行信息科技部处长陈林

中国光大银行信息科技部张彬

中国光大银行信息科技部处长陈林

中国光大银行信息科技部张彬

光大银行从建设通用OCR识别平台开始，就将OCR技术应用在金融场景中，通过建设通用卡证识别接口、通用票据识别接口，替代人工录入到银行内部系统的人工处理方式，节省时间和成本，极大提升工作效率。

近年随着智能手机和移动设备的普及，图片作为信息传播的载体在越来越多的场景中被广泛使用，随之而来的是银行业务中有越来越多的个性化图片文字识别需求。在此背景下，银行典型场景有各类金融票据信息的识别和提取，通用识别OCR已经不能满足个性化识别需求，而传统OCR单独采购定制化专有模型时间长、成本高、样例数据涉密等痛点，严重制约了OCR场景支持效率的提高。

一、平台建设背景

为助力光大银行数字化、智能化转型，降低AI开发的门槛，光大银行于2019年初开始持续建设人工智能平台。该平台面向全行建模用户提供机器学习和深度学习训练环境。从数据源管理、数据上传、数据预处理、模型训练到模型管理，模型结果预测，提供了一站式的服务，支持行内通用模型建设需求，助力我行加快智能化转型。为满足行内OCR模型个性化需求快速响应、模型灵活定制，自2020年来，光大银行在人工智能平台基础之上探索建设以融合CV、ML等AI技术的垂直领域训练平台——图像数字化平台。该平台实现了行内自定义图像文档泛OCR业务模型自主研发，大大缩短OCR领域的建模周期，与现有OCR识别成熟引擎形成有效互补，全面覆盖我行金融垂类泛OCR应用场景。

二、AI开发运维流水线

建设平台AI模型自研能力，需要覆盖AI开发运维流水线（MLOPS）全过程，即从数据采集、预处理、传输、存储到模型的构建、训练、优化、发布上线以及后续运行监控，其完整功能架构如图1所示。其中，图像数字化智能平台作为一项重要组成部分提供垂直领域训练能力，实现物料（图片、文档）的检测、分类、抽取、OCR等功能。光大银行MLOPS核心功能模块架构主要包括AIBASE、统一标注、基础训练平台、垂类训练平台、AI中台应用等子模块。

图1 MLOPS核心功能架构示意

（1）在统一标注平台对样本数据进行采集、标注、审核、版本管理等操作，产生符合各类图像识别模型训练标准的数据。

（2）在训练平台中利用处理完成后的样本数据进行AI模型训练完成建模，通用建模平台提供自动化、可视化、NOTEBOOK建模，图像数字化平台提供OCR\TXET垂类建模PIPELINE。

（3）在AI中台将训练好的模型应用程序进行发布、提供注册第三方AI能力、组合编排多种AI能力提供多模态服务，提供识别接口及运维监控等服务，识别接口的数据会回流至数据管理中心不断迭代优化模型。

（4）在基础公共平台AIBASE提供统一账号体系、鉴权体系，提供基础的数据和监控服务，包括样本管理、数据管理、配置管理、交易监控等功能。提供统一数据存储体系，统一分配算力资源，对接行内基础资源层，如全栈云、容器云、大数据平台。

通过上述AI能力群能够快速支持AI应用场景的定制化。

三、图像数字化智能平台简介

1.架构介绍

图像数字化智能平台通过构建图像自动识别基础能力，提供影像切分、版式识别、内容识别、模型构建与训练等功能，为全行提供了图像识别基础服务解决方案。平台主要分为两部分，训练模块与推理模块，具体如图2所示。

图2 图像数字化平台整体架构

其中，训练模块提供数据标注、训练流程管理、OCR预训练模型、OCR算子、文档算子等能力；推理模块负责对外提供图片、文档的提取、解析AI预测能力。可将模型发布到行内AI中台成为在线服务引擎，为业务提供服务。

2.核心技术方案介绍

图像数字化智能平台逻辑架构分为五层（如图3所示），分别是支撑层、工具层、服务层、交互层、应用层。

图3 图像数字化智能平台逻辑架构

支撑层为图像识别平台提供Paddle、Caffe、TensorFlow、Torch等图像识别领域的基础训练框架，数据源、计算池分别来自行内数据湖、GPU、云平台。

工具层可实现平台所具备的样本管理、模型管理、服务部署、运维监控等功能。是学习平台提供了各类结构化及非结构化的数据标注工具，能够根据需要采用不同框架进行识别模式训练，并对训练数据及模型进行版面管理。

服务层包含平台对外提供版面识别、证照识别、表单识别、票据识别、文档比对等服务。

交互层是图像识别平台的模型产物——在线引擎服务，各式各样的服务支持的渠道，包括后台接口和SDK以及配套控制台页面。

应用层是图像数字化智能平台所应用的场景，目前已有集中营运、对公信贷、托管平台、手机银行等多个系统接入。

3.平台使用介绍

简单4步，即可定制OCR、TEXT抽取模型，如图4所示。

图4 图像数字化智能平台操作流程示意

（1）创建任务：根据不同业务场景需求，创建不同任务，可训练所需模型并在任务内持续优化。

（2）准备数据：上传并标注训练所需数据，支持自动转写和预识别智能标注；可批量生成虚拟数据和增加扰动扩充数据。

（3）训练模型：无需调参，无需代码，选择数据集即可一键启动模型训练。

四、图像数字化智能平台核心价值

1.全面提高金融垂类OCR应用场景覆盖率

各业务条线可基于图像数字化智能平台识别能力拓展业务场景。通过图像数字化智能平台自研模型已为多个部门以及图前业务、线上资产审核、托管单据录入、中登解析等多个场景提供识别能力支撑。同时在AI中台将训练好的模型应用程序进行发布，结合已经建设的OCR识别成熟引擎支持各项业务通过渠道系统接入识别服务，提供身份证、护照、银行卡等常用卡证的识别服务，提供支票类、本票类、结算业务申请书、电汇凭证、进账单、现金存款凭证、银行汇票、华东三省一市汇票、银企对账单、收入证明、托管指令单、手写识别等光大特色自研识别服务，全面覆盖光大银行金融垂类OCR应用场景。

2.提高业务效率和用户体验

基于图像数字化智能平台开发智能识别模型，可在金融票据场景中替代人工对多种业务凭证的识别和录入工作，并对现有流程进行优化升级，提高业务处理能力，提升在智能应用领域的创新实力，为未来业务发展提供基础支撑。金融票据通过图像分类检测、分类识别等模型，自动提取票面业务要素数据。

例如，将智能票据识别模型应用到集中处理作业平台将提高平台处理效率，可释放集中处理中心碎片录入岗压力，优化全单补录和全单补录复核岗，将前台预判受理柜员释放出来，更好地服务临柜客户，推介我行优质产品。实现途径分可分三步：第一步，应用基于金融票据的识别服务，替代现有人工录入环节中两录的其中一录，降低近一半的人工工作量；第二步，打通渠道与基于金融票据的识别服务链路，减少前台员工工作量，提高业务受理速度；第三步，票据完全自动识别，仅部分置信度低或业务原因必须人工复核要素进行人工干预，实现流程自动化，从而大幅提升业务处理效率和用户体验。

3.低代码训练PIPELINE 节约建模成本

深度学习依赖大量样本进行训练，在银行业中涉及的单据、表单、凭证种类多，如果按照每种类型板式单独进行检测、识别训练，耗费的时间和人力成本过高。现在利用图像数字化智能平台PIPELINE ，可在大幅缩减建模人员时间的同时有效节约建模成本。

（1）平台提供友好的可视化操作界面，实现建模人员自主训练到服务上线。

（2）平台打通从数据存储到标注到训练格式的一键生成的全流程。实际生产中也存在部分凭证样本量不足、涉及敏感信息等问题，无法进行足量的样本学习。

（3）平台的数据扩增和数据合成技术，能迅速形成任意量级的训练数据。

（4）平台提供多个核心的原子算法模型和训练PIPELINE 供建模人员选择，在确保平台算法领先性的同时保证算法对实际场景的覆盖率，有较强的适用性。

平台提升效率场景，例如可以训练出一套通用的手写体文本识别引擎用于处理大多数涉及规则字体的凭证，缩短开发周期。对于单一版面的单据，原来单独训练模型要求样本量上千张，开发周期需要一个月。现在对一种新的单据样式，样本量降低到20张，开发周期缩短到一周。

五、图像数字化智能平台创新点

1.业内领先训练解决方案

图像数字化智能平台从视觉、文本特征出发，建立字段级别的位置回归任务、分类任务和关系任务，端到端解决文字检测和结构化信息抽取的问题（如图5所示）。图像数字化平台不仅仅支持传统文字检测、文字识别、基于NLP或者基于规则的字段关系提取，相对于以往的OCR识别技术和信息抽取方案，图像数字化智能平台将文字检测、字段关系建模到统一的框架中，从视觉维度实现了结构化字段抽取的任务，兼顾版式和语义的特征。整个网络包括两个分支，下面分支主要实现文本框的回归检测，上面分支对字段级的框进行分类和关系构建。同时，回归分支的特征会嵌入到分类以及关系的分支，将字段提取出来以便进行关系的建立。该框架以端到端的方案解决字段检测、字段分类和关系的问题，提取key-value关系的同时，避免不同value之间的干扰。

图5 图像数字化端到端训练方案

2.复杂版面的文字结构化方案

银行业的凭证存在版面众多、类型各异的情况，业务上的凭证与OCR训练的版面在概念上存在着较大的差异，例如营业执照，在业务系统中属于一个凭证，而OCR训练中存在横版、竖版等多个版面，为了解决同一种业务凭证中版面模板不固定的情况，图像数字化智能平台制定了复杂版面文字行定位训练方案，形成了复杂版面的文字行自动化定位和识别能力（如图6所示）。首先需要算法提取出场景，通过仿射变化和图像增强技术，减少背景干扰，提高图片清晰度。然后基于数据抽象出三种KV区、段落区以及表格区版面类型，结合板门分析后可覆盖大多数业务场景。

图6 复杂版面结构化业务迭代方案

（1）KV区处理场景，包含Key-Value字段直接映射关系，比如key姓名：vaule1，key日期：vaule2等。

（2）段落区处理场景，包含一段文字描述，从这段文字描述中抽取对应的姓名、身份证号、日期等要素信息。

（3）表格区处理场景，包含一个完整的表格，从表格中识别金额、币种等业务流水信息。

此外，结合文档格式处理技术配合文档解析服务、文档转换服务、版面分析与通用OCR识别服务，支持各类格式文档处理。结合段落内容抽取、文本开放域KV抽取、表格KV抽取，通过文档处理、标注训练、后处理规则低代码的三部方式解决大多数文档要素抽取的需求，达成泛OCR智能文档解析结构化扩展方案。并且随着数据的积累，模型能力持续提升，当数据积累形成预训练模型，新增场景可以快速支持，并对数据的需求逐步减少，最终可实现以数据模型小闭环（数据支持反哺模型）+业务大闭环（审核数据提升模型迭代速度）的整体解决方案。

六、展望

近年来，金融业纷纷加大对科技创新的投入，支持新产品、新模式、新市场的创新，推动金融科技快速发展。随着人工智能技术蓬勃发展，这些新技术与金融科技相结合，催生了OCR的各类新生应用，而图像数字化智能平台正是站在金融创新的前沿，将新技术与新模式结合实现的一种全新业态模式。该平台是践行2020年“123+N”数字光大发展体系的重要实践成果，提高以科技创新为核心基因的数字银行核心竞争力。该平台不仅仅从战略层面带来效益，突出品牌效益，还体现了图像识别领域金融科技成果，并将这些成果直接服务于客户，打造光大银行科技领先的品牌形象。

目前，光大银行已经完成图像数字化智能平台建设，为全行提供底层算法框架和训练资源的底座支撑。随着服务的使用，通过积累BadCase，可借助平台的数据回流机制，实现能力的闭环迭代，真正做到纯数据驱动，为AI场景规模化应用继续做好基础建设。下一步，基于丰富算法模型的图像数字化智能平台，将向行内各业务场景提供全流程训练工具，满足定制化OCR识别、提取、比对需求。

-END-

这是科技创新最好的时代，这是属于我们每个人最好的时代，关注“BanTech智库”，专注银行科技发展，探索无界金融生态！

上一篇：什么是共同海损（新版共同海损理算规则9月实施）
下一篇：国家计划生育新政策（新计生法明确实施三孩生育政策）

中国银行本票样本（光大银行企业级“图像数字化智能平台”建设实践）

其他文章