加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 模式 > 正文

神经网络提取PDF表格工具来了,支持图片,还能白嫖谷歌GPU资源

发布时间:2020-07-30 00:09:48 所属栏目:模式 来源:量子位
导读:本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 表哥表姐们还在为大量PDF文件中的表格发愁吗? 百度一下,网上有大量提取PDF表格的工具,但是,它们都只支持文本格式PDF。 但扫描生成的图片表格怎么办? 别着急,一种使用深度神经网

interesting_areas=[]output = [[x1, y1, x2, y2]]for x in output:  [x1, y1, x2, y2] = bboxes_pdf(img, pdf_page, x)  bbox_camelot = [            ",".join([str(x1), str(y1), str(x2), str(y2)])        ][0]  # x1,y1,x2,y2 where (x1, y1) -> left-top and (x2, y2) -> right-bottom in PDF coordinate space        #print(bbox_camelot)  interesting_areas.append(bbox_camelot)print(interesting_areas)output_camelot = camelot.read_pdf(    filepath=pdf_file, pages=str(pg), flavor="stream", table_areas=interesting_areas)output_camelot[0].df 这样就可以将表格数据转化为Panda数据框架,方便后续处理:  神经网络提取PDF表格工具来了,支持图片,还能白嫖谷歌GPU资源图片怎么办

针对扫描图片格式的PDF表格,可以使用Ocrmypdf包来将图片格式PDF转为文本格式。

Ocrmypdf是一个python软件包,可将基于图像的pdf转换为基于文本的PDF。

安装ocrmypdf,可以通过以下命令行将其用于macOS和Linux:

brew install ocrmypdf 

通过以下命令调用:

ocrmypdf input_file.pdf output_file.pdf 

之后就可以按照上面的方法进行表格提取了。

怎么样,这款兼容图片,又能白嫖谷歌GPU的PDF表格工具对你有帮助吗?

传送门

项目地址:
https://github.com/ferrygun/PDFTableExtract

在线打标签工具:
https://www.makesense.ai/

 

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读