小米表格识别技术官方解读,支持智能提取图片中的表格

日期:2023-02-28 15:51:34 / 人气:191

如图六所示,将表格定义爲 M*N 个单元格组成的矩阵,以及外部兼并单元格组成。“0”:代表普通的单元格、“1”:代表向左兼并单元格、“2”:表示向上兼并单元格;并且每个单元格对应一个坐标框,以便后续把 OCR 辨认的后果与之婚配。这样定义的优点:无人爲语法规则;数据组织具有自然的二维对齐属性,网络更不容易发生漂移;大批标签可以复原出恣意表格构造,无开放集分类成绩。▲ 图六表格构造定义我们采用了如图七所示的表格构造预测框架,该办法基于 cnn+transformer decoder 的图像到序列学习网络,在解码阶段包括两个预测头,辨别预测表格序列和表格 Cell 的坐标信息。▲ 图七表格构造预测框架表格构造效果如图八所示,表格构造辨认算法预测出每个单元格的位相信息和每个地位对应的序列信息。图八左右两个图是逐个对应的,同一种颜色的检测框对应左边 Cell 单元格,Cell 是有顺序的。▲ 图八表格构造辨认效果展现表格辨认在部署进程中,采用 Fastertransformer 推理框架停止减速,我们的推理速度提升了大约 20 倍,分明改善用户体验。Cell 坐标聚合算法次要是将文本检测到的内容与表格预测的单元格停止正确婚配,算法流程如图九所示。文本框与单元格框停止婚配,首先婚配 IOU 最大的,假如 IOU=0,则婚配两个框中心距最近的。假如一个单元格中包括多个文本框的构造,还要在单元格内依照阅读顺序输入,并完成智能换行从而改善用户体验。▲ 图九 Cell 坐标聚合算法流程最终我们的算法在表格构造提取和端到端表格复原的精确率上,均抢先业界的次要竞品。五、对齐算法上述算法曾经根本复原出表格信息,但是同一表格里单元格的对齐方式并不相反,能够同时存在“左对齐” “右对齐” “居中对齐”。我们设计了一套对齐算法,经过剖析表格中单元格的位相信息完成自动对齐,完全复原出真实表格,分明改善用户体验。对齐算法效果如图十所示:▲ 图十 对齐算法效果

作者:币安比特币分分彩官网




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 币安比特币分分彩官网 版权所有