最新要闻
- 西部证券:3月20日融资买入1459.71万元,融资融券余额12.72亿元
- 环球速讯:中国罐头在海外多国热销:成为香饽饽
- 天天讯息:大反转!南京大学团队推翻美室温超导技术 复刻实验没发现超导现象
- 天天速看:又一致命真菌爆发:已遍布美国一半以上的州
- 天天微动态丨OPPO Find X6系列外观公布:拼接设计、后摄巨大
- 比亚迪汉唐冠军版发布会高能金句感受下 合资燃油车瑟瑟发抖
- 今日热讯:LCD荣光犹在!iQOO Z7开启预售:1599元起
- 全球观察:漫威后期制作总裁离职
- 当前通讯!2022年度个税汇算今起不用预约:多退少补你能退多少
- 移除雷达传感器后 特斯拉车祸数量上升:车主反映莫名刹车故障
- 鲁抗医药:3月20日融资买入477.87万元,融资融券余额2.49亿元
- 天天最新:春分迎接春天:昼夜时间等长
- 2TB硬盘开车价400多 SSD便宜到没朋友:5大巨头流泪数钱
- 焦点速讯:影响人类文明的“小方块” USB接口进化史
- 当前资讯!快来!我们发现了藏在新风空调里的“秘密”
- 焦点热门:GPT-4外逃计划曝光!教授发现它正引诱人类帮助 网友:灭绝之门
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
环球关注:论文解读TCPN
一、简要介绍
视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称为TCPN(标签、复制或预测网络),它引入了1)一种有效的编码器,可以同时对二维OCR结果中的语义和布局信息进行建模;2)仅利用关键信息序列作为监督的弱监督训练策略;和3)一个灵活和可转换的解码器,其中包含两种推理模式:一种(复制或预测模式)是通过复制输入或预测一个标记来输出不同类别的关键信息序列,另一种(标记模式)是直接标记输入序列。本方法在几个公共基准上显示了最新的性能,充分证明了其有效性。
二、研究背景
随着信息交互的快速发展,文档智能处理引起了相当多的关注。视觉信息提取(VIE)技术作为其中的一个重要组成部分,已经被集成到许多实际应用程序中。现有的VIE方法通常首先根据阅读顺序将文本块(文本边界框和字符串,由ground truth提供或由OCR系统解析)组织成纯文本,并利用有效的编码结构,从多个模态(文本,版面,视觉等)中为每个输入字符提取出最有效的特征表示。
(相关资料图)
然而,字符级别的类别监督花费了巨大的注释成本,并可能导致标签歧义。给定一个如图1 (a)所示的文档图像,最广泛使用的注释方案是对每个话语的边界框和字符串进行标记,并进一步指出每个字符/框属于哪个类别,如图1 (b).所示这样,需要一个启发式的标签分配过程来训练上述标记模型,其核心思想是将检测到的边框和识别的转录与给定的注释进行匹配,然后为OCR结果的每个字符/边框分配标签。然而,这一过程可能主要会遇到两个方面的问题。首先,错误的识别结果会给匹配操作带来麻烦,特别是对关键信息序列。第二,重复的内容会带来标签的歧义。如图1(a)和(b)所示,三个内容相同的值可以作为关键总量的答案。在大多数情况下,很难建立一个统一的注释规范来确定哪一个应该被视为ground truth。
为了解决上述局限性,本文提出了一种端到端弱监督学习框架,该框架可以直接利用目标密钥信息序列来监督解码过程。它带来的好处主要是两方面:一是大大节省了注释成本,如图1 (c)所示,通过跳过OCR结果与ground truth的匹配,缩短了训练过程;其次,作者的方法通过自动学习OCR结果与ground truth的对齐来解决标签模糊问题,可以自适应地区分重复内容中最可能的结果。此外,作者还提出了一种灵活的解码器,它与作者的弱监督训练策略相结合,有两种可切换的模式——复制或预测模式(TCPN-CP)和标签模式(TCPN-T),以平衡其有效性和效率。在TCPN-CP中,作者的解码器可以通过从输入中复制一个标记或在每个时间步中预测一个标记来生成关键信息序列,这既可以保留输入中的新内容,也可以纠正OCR错误。在TCPN-T中,解码器可以在一次正向传递中直接将每个字符的表示标记为一个特定的类别,从而保持快速的速度。值得注意的是,作者的解码器只需要训练一次就可以在不同的模式下工作。
此外,作者提出了一种二维文档表示方法TextLattice以及相应的轻量级编码器结构来同时建模二维OCR结果中的语义和布局信息。
三、方法介绍
首先,作者描述了生成TextLattice的方法,以及如何编码更高级别的特征。接下来,介绍可切换解码器和弱监督训练策略的细节。最后,作者解释了何时以及如何在不同的模式下进行推理。图2给出了作者的方法的概述。
3.1文档表示
将OCR结果重新组织为作者的2D文档表示——TextLattice的整个过程总结为:首先对检测框的y坐标归一化处理,将检测框按照从左上到右下的顺序排列并划分为多行;接着,将文本段级别的框切分成字符级别的框,并微调x坐标避免重叠;最后,初始化一个全0矩阵,并在相应位置填入字符级映射向量。具体步骤见附录。
3.2 特征编码
作者使用ResNet结合U-Net结构作为特征编码器部分,以捕获更全面的特征。同时,为了更好的感知整体版面信息,本文借鉴CoordConv[4]的思想,额外将x和y方向上的相对位置坐标信息拼接到TextLattice中。特征编码的整个过程可以表述为:
3.3弱监督训练
如图2所示,首先提出了实体类别映射向量的概念,来控制解码器输出的信息类别,而其本身也是从一个预定义好的可训练的查找表矩阵中随用随取。给定该向量,解码器可以在每个时间步考虑当前需要生成的实体类别,并迭代预测得到信息序列。这种新颖的设计避免了特定于类的解码器,缓解了单一类语料库的不足,并将传统序列标记模型中不同类别之间的序列相关性解耦为并行。
在生成序列时,作者需要模型能够在从输入中复制字符或直接预测字符之间进行切换。复制操作使模型能够再现准确的信息并保留新词,而预测操作则引入了纠正OCR错误的能力。
然后,计算固定字典中字符的概率分布,生成一个复制分数作为软开关,在每个时间步t的不同操作之间进行选择:
这样,论文的方法就获得了产生词汇表外(OOV)字符的能力,并能够自适应地执行最优操作。
到目前为止,作者的方法可以看作是一个经过序列级监督训练的序列生成模型。但是,值得注意的是,由于给出了实体类别c的映射向量,当模型决定每一步从输入中复制一个字符ki时,F中的ki特征向量也应该被线性分类器归类为实体类别c。更一般地说,作者的方法可以首先学习对齐关系,然后使用匹配的字符训练分类器。这个创新的想法使作者的方法能够监督序列标记模型。作者采用线性层对实体概率分布进行建模,可以表述为:
值得注意的是,方程(11)-(13)并不训练不属于任何关键信息序列的标记。忽略负样本可能会导致严重的缺陷,即所有的输入字符都将被归类为正样本。因此,作者构造了一个额外的辅助损失函数,用于负样本压制负样本被预测为正样本的数量:
该损失函数的主要目的是限制分类为c的输入字符的数量小于或等于实际数量。这种简单而有效的设计大大提高了模型在标签模式下的性能。综上所述,最终的综合损失函数是上述多个分量的加权和:
3.4推理
值得注意的是,由于映射向量以批的形式发送到解码器中,因此可以根据实体特定的语义特征,在不同的模式下生成同一文档中不同类别的关键信息序列。在大多数现实场景中,OCR的结果不可能是完美的。在这方面,用户可以将作者的解码器切换到公式(3) - (9)中所述的复制或预测模式,以补充缺失或错误的标记。该模式更适合于具有较强语义相关性的类别序列。由于所提出的弱监督训练策略的自动对齐特性,解码器还可以使用公式(14)在标记模式中直接进行序列标记。它更倾向于极少的OCR错误或相邻内容之间语义相关性较弱的类别
四、实验
4.1消融实验(Ablation Study)
作者首先将本文提出的文档编码方式和之前的主流方法进行对比,比较结果见表1。BiLSTM能很好地感知序列线索,但它不能有效地模拟一维形式的位置空间;GAT可以利用注意机制自适应地融合有用的特征。然而,捕获位置线索的能力很大程度上取决于特征嵌入的方式;BERT-like可以并行进行前向计算,由于加载了预训练的权值,取得了令人满意的性能;Chargrid采用更直接的方式建立输入矩阵,不能保证鲁棒性和效率。值得注意的是,TextLattice(作者的)取得了优越的性能和保持最快的速度,这充分证明了它的效率。比起位置嵌入GAT或BERT-like方法,作者的方法对位置线索的感知更直接和敏感,并确保了比Chargrid更高程度的信息集中度。
作者同样对编码器中的不同结构进行了消融实验。从表2中可以看出,每个设计对最终的性能都有重要的贡献。虽然CNN可以捕捉到相对位置关系,但CoordConv可以进一步提供相对于整个布局的全局位置线索,从而带来更高的分辨性;作者也尝试只在删除所有步幅和U-Net结构时使用ResNet来执行特征编码。但性能明显下降,说明了语义特征融合在不同接受域下的重要性;残差连接给了模型直接接收字符级语义嵌入的机会,进一步提高了性能。
4.2 与SOTA的比较
结果如表3所示,论文的方法在字符级全监督的情况下,在SROIE和EPHOIE上都表现出了优越的性能,这完全证明了作者的特征编码方法的有效性。此外,在序列级弱监督设置下的结果取得了竞争性能。这完全证实了作者的学习策略的优越性,它可以模拟输入字符和输出序列之间的对应关系。与SROIE相比,EPHOIE通常内容更少,字符类型更多,这减少了学习对齐的难度。相对而言,由于SROIE中的收据通常包含丰富的字符,而相同的字符可能会重复出现,这可能会导致对齐混淆,因此完全监督和弱监督之间的差距进一步扩大。
本文也在End-to-End Setting设置下进行了实验,结果如表4。作者的方法在每种模式下都显示了最先进的新性能。可以推断,选择TCPN-CP或TCPN-T模式的一个重要基础是语义和相应语料库的丰富性。在SROIE上,TCPN-CP的性能明显优于TCPN-T,这主要有利于纠错能力;然而,在EPHOIE上,尽管两种模式都优于TCPN-CP的TCPN-CP,主要原因应该是中文字符的多样性和由此导致的语料库的缺乏。
为了进一步探索作者的框架在现实世界的应用程序中的有效性,作者收集了一个内部的营业执照数据集。它包含了2331张由手机或相机拍摄的真实用户需求的照片,而且大部分图像都是倾斜、扭曲或亮度变化剧烈的。作者随机选择1863张图像进行训练,468张图像进行测试,其中有13种实体需要提取。此外,图片是由移动设备产生的,由于图像质量较差,它肯定包含OCR错误。具体结果见表5。作者的端到端弱监督学习框架大大优于传统的基于规则的匹配方法,这也大大降低了标注成本。与TCPN-T相比,TCPN-CP学习到的内隐语义相关性可以通过纠正OCR错误来进一步提高最终性能。一些定性的结果显示在附录中。
可视化结果如图:
五、总结与讨论
论文提出了一个统一的弱监督学习框架TCPN用于视觉信息提取,它引入了一种有效的编码器、一种新的训练策略和一种可切换的解码器。该方法在EPHOIE数据集上显示出了显著的提高和在SROIE数据集上的竞争性能,充分验证了其有效性。视觉信息提取任务处于自然语言处理和计算机视觉的跨领域,作者的方法旨在缓解对完整注释的过度依赖和OCR错误造成的负面影响。对于未来的研究,作者将通过大规模的无监督数据来探索作者的框架的潜力。这样,就可以进一步提高编码器的泛化、解码器的对齐能力和作者的TCPN-CP的性能。
关键词:
-
西部证券:3月20日融资买入1459.71万元,融资融券余额12.72亿元
3月20日,西部证券(002673)融资买入1459 71万元,融资偿还1927 02万元,融资净卖出467 32万元,融资余额12 31亿元。
来源: 环球关注:论文解读TCPN
西部证券:3月20日融资买入1459.71万元,融资融券余额12.72亿元
环球速讯:中国罐头在海外多国热销:成为香饽饽
天天讯息:大反转!南京大学团队推翻美室温超导技术 复刻实验没发现超导现象
天天速看:又一致命真菌爆发:已遍布美国一半以上的州
天天微动态丨OPPO Find X6系列外观公布:拼接设计、后摄巨大
比亚迪汉唐冠军版发布会高能金句感受下 合资燃油车瑟瑟发抖
MAUI Blazor 加载本地图片的解决方案
每日热点:朴素系统优化思维的实践
焦点热文:债券通北向通2月成交规模环比增超三成 政金债跃升为最活跃券种
今日热讯:LCD荣光犹在!iQOO Z7开启预售:1599元起
全球观察:漫威后期制作总裁离职
当前通讯!2022年度个税汇算今起不用预约:多退少补你能退多少
移除雷达传感器后 特斯拉车祸数量上升:车主反映莫名刹车故障
快消息!读C#代码整洁之道笔记02_类、对象和数据结构及编写整洁函数
鲁抗医药:3月20日融资买入477.87万元,融资融券余额2.49亿元
全球速读:今年以来险企“补血”超340亿元 数百亿元补充资本“在路上”
世界观点:国际金融市场早知道:3月21日
铁矿石价格“非理性”上涨 监管层频频发声剑指价格炒作
天天最新:春分迎接春天:昼夜时间等长
2TB硬盘开车价400多 SSD便宜到没朋友:5大巨头流泪数钱
每日速递:读Java性能权威指南(第2版)笔记23_ 性能分析工具
焦点速讯:影响人类文明的“小方块” USB接口进化史
当前资讯!快来!我们发现了藏在新风空调里的“秘密”
当前速看:C++温故补缺(一):引用类型
要闻速递:【Visual Leak Detector】简介
Spotify 畅听全网高品质音乐
焦点热门:GPT-4外逃计划曝光!教授发现它正引诱人类帮助 网友:灭绝之门
天天快看点丨因禽流感爆发 阿根廷已扑杀70余万只禽类!
焦点!27款进口游戏版号获批!《赛马娘》《蔚蓝档案》等改名引热议
你相信吗?每天都有10多万人 学习流浪汉的生存技巧
环球今亮点!15年后 官方发布北京奥运福娃全新手办:五个一套440元
26种死法知乎_26种死法怎么样
天天速讯:织金县鸡场乡:防范电信诈骗,拉响反诈警报
Go 并发编程(一):协程 gorotine、channel、锁
vue和xml复习
Vue——vue2错误处理收集【七】
环球关注:iPhone开始在俄罗斯遭禁用了:不安全!苹果此前已在该国停售
焦点快看:填补空白!中国将首次开启海上二氧化碳封存
C# 探秘如何优雅的终止线程
行人车辆检测与计数系统(Python+YOLOv5深度学习模型+清新界面)
焦点播报:Spring IOC官方文档学习笔记(十四)之ApplicationContext的其他功能
如何上传一个npm包
中债金融终端上线“货币经纪行情”功能
瑞信风波由股及债 此前已有分析师提示“AT1”风险
Wii U和3DS在线游戏商店关闭前:玩家花15万328天买下所有游戏
2022年 全国坐火车的少了36.4%!高铁已达4.2万公里
环球热点!基于深度学习的口罩检测系统(Python+清新界面+数据集)
【环球新视野】自律|坚持,是因为不喜欢
Java内部类笔记整理
全球快资讯丨永磁同步电机驱动系统—相关方向思考
焦点要闻:HTTP 状态码与课程总结
日本东电直播用核污水养鱼 海外网友直言:留着自己吃吧
环球热点评!旗舰级LCD护眼屏+120W独此一款!iQOO Z7发布:1599元
全球热议:6000mAh同档位续航无敌!iQOO Z7x发布:1299元起
便宜卡终于有了!好队友抢跑:RTX 4070/4060来也
9999元 AOC爱攻新款48寸显示器上架:4K OLED屏、138Hz高刷
当前快讯:死亡细胞将登陆Android端
环球快看点丨波动数列
瑞银收购瑞信意外“引爆”AT1债券市场 对冲基金不计成本抛售避险
【世界新视野】抗早泄药物盐酸达泊西汀国内正式上市:效果最好!订单超4000万元
天天通讯!1994《小美人鱼》vs2023《小美人鱼》对比图火了:5月上映 你会看吗?
焦点消息!LCD党最好的选择!iQOO Z7定制旗舰级LCD屏:超级护眼
今日热闻!神秘光点划过美国加州夜空 专家:或为日本太空垃圾
【世界新要闻】正式签约石墨烯之父 超威电池三大单品发布
世界今热点:Python+selenium安装
全球即时看!【财经分析】“降准”落地利好信用债阶段表现 中期仍需关注多因素扰动风险
网传凯迪拉克中控屏行驶中弹窗广告 车主:烦死了
热点!多益网络:前女高管们利用网络水军造假 导致公司损失5亿元
全球即时看!速干短袖+短裤:骆驼运动套装79元狂促(300元大额券)
戴森空气净化耳机首发体验:6699元图一乐?
美知名媒体曝特斯拉大量负面:自动驾驶测试作假
焦点速看:这些AIGC工具有趣且实用
abc294G
设计原则
观热点:也等你 [表白墙] 发布!
天天即时:泰格医药董事ZHUAN YIN累计减持7.6万股 减持期限届满
【独家焦点】债市日报:3月20日
每日看点!爆火情侣竟不是真人!新版Midjourney效果爆炸 网友:太可怕了
全球即时看!宏碁搞“副业”?推出电动自行车Acer ebii:110公里超长续航
男子2年未办理个税汇算 被查后补税加罚金近10万
世界资讯:梦想和高薪你会如何选择?00后女生10秒拒绝8家公司
Microsoft Project教程_编程入门自学教程_菜鸟教程-免费教程分享
环球热头条丨Source Generator-扩充原有代码
8个不能错过的程序员必备网站,惊艳到我了!!!
即时焦点:瑞信全面减记AT1债券影响扩大 日债收益率午后全线下挫
新动态:令人血压飙升!一SUV高速快车道停车致多车连撞:后果惨烈
【世界播资讯】毕业典礼学校安排学生在操场吃席:画面仪式感拉满
环球焦点!宁德一家利润超韩国三大厂商 韩系电池厂商绝望:高端低端都打不过
全球观热点:《黑暗荣耀》全剧出现119次韩语粗口:韩剧总是那么吵!
观点:腾讯发布2022研发大数据报告:内部研发人员占比高达74%
【MySQL】InnoDB vs MyISAM
etcd 租约、Watch功能、分布式锁的golang实践
天天资讯:【工作动态】以培训促提升——医疗机构药品器械管理规范培训会
全球今头条!农垦系统继续开展带头扩种大豆油料行动
环球观速讯丨终于!清华团队的ChatGPT发布:国人用起来相当友好
网红阿秋将离开香港继续骑行:被盗走的8000元自行车仍未找回
即时焦点:男孩雷克萨斯4S店内开动展车连撞两车 律师:家长、店方都有责任
语音+App远程操控!天猫精灵智能插座探底好价:两件34元
当前播报:韩国40出头新娘人数比20岁还多:初婚男女平均年龄均创新高