别再搞纯文本了!多模文档理解更被时代需要!传媒
都已经2021年了,互联网已经今非昔比,20年前纯文本的日子已经一去不复返,文字已经满足不了网页、文章的需求,绝大部分都会有着精心设计的表格、图片,甚至视频。PDF文档这种富文本格式拥有更加复杂的结构信息,其流行程度已经远超TXT。大到工作报告,小到收银条,形形色色的文档充斥着各个角落,如何利用这些文档中丰富的信息呢?智能文档理解成为了许多大厂的关注要点。
ML模型做文档理解的第一步往往是OCR,即Optical Character Recognition,光学字符识别,能将文档图片中的文字转化为计算机可识别的文字。寻常情况下到此为止。然而,平日里形形色色的文档经过OCR之后,只留下单调的字符串,格式布局中蕴含的海量信息并没有得到很好的利用,文档中许多文本以外的信息无法很好地被计算机所理解。
于是MSRA将多模态技术运用到文档图片中,结合3种模态:文本text、图片visual、布局layout,去年提出了LayoutLM。
今天介绍的是升级版,LayoutLMv2,通过预训练模型实现智能文档理解,关注文档图片中的信息抽取,类型识别,以及文档问答,一举刷新了6个榜单。
多模态预训练已经不是一个新话题了,已经有不少多模态预训练模型。但是针对文档图片的,LayoutLM系列可谓是一个新的尝试。现有的多模态预训练模型大多建立在照片之类的图像,与LayoutLM系列涉及的文档图片有着天壤之别,文档图片中包含的是字符,与NLP更加紧密,让多模态语言建模更加简单直接。
论文题目:
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding
论文链接:
https://arxiv.org/abs/2012.14740
LayoutLMv2论文主要介绍了三部分:多模态特征提取、相对位置Attention、3个多模态预训练任务。
1
文档图片的多模态
文档图片既是文档又是图片,平平无奇的一页纸就蕴含了多种特征。当我们将一个文档图片输入到OCR识别后,我们不仅仅能获得文字信息(text),同时得到各个文字所在的位置,是为布局特征(Layout),将图片本身输入视觉模型,就可以得到丰富的视觉信息(visual)。
针对三种特征,LayoutLMv2分别建模:
视觉信息,即文档图片本身:LayoutLMv2利用ResNeXt-FPN对整个文档图片提取特征,将得到的WxH的feature map拉平为WH长的特征序列,并通过线性层映射到固定维度,因为基于CNN的视觉模型无法学习顺序信息,LayoutLM额外加上了和BERT一样的Postion Embedding。
布局信息,即OCR识别出的文字的位置:实际上是标注文字位置的坐标,LayoutLMv2同样通过向量嵌入技术,将坐标归一化到[0, 1000]并取整,再映射到对应的向量,最后将横纵坐标对应的向量相连接。
LayoutLMv2将视觉特征和文本特征融合到一个统一的序列中,通过Segment Embedding加以区别,并与对应的布局特征分别求和。
2
考虑相对位置的Transformer
得到了融合特征,下一步就是多层Transformer了,不过LayoutLMv2在传统的Transformer中添加了考虑到相对位置的Attention机制,将不同位置之间的Attention权重增加相对应的bias,不同的bias对应位置之间的相对距离。
3
3个多模态预训练任务
多模态预训练任务不仅需要学习文本本身的特征,更需要利用好文本和其他模态之间的关联。
Masked Visual-Language Modeling: 和传统BERT类似,LayoutLMv2会mask若干词的文本特征,并在输入图片中将这些词的位置涂黑,但保留布局特征,让模型预测丢失的词。这是利用上下文和布局信息去恢复文本信息。
Text-Image Alignment: 输入图片时将若干行覆盖(cover),通过文本预测当前词是否被覆盖(cover)。这是利用上下文和文本信息去确定布局信息。