全国服务热线:

15861139266

只需2行代码,轻松将PDF转换成Word,苏州机器视觉培训,苏州工业机器人培训
发布时间:2024-02-28 14:54:17 点击次数:200

可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。


pdf2docx功能

- 解析和创建页面布局

  - 页边距

  - 章节和分栏 (目前最多支持两栏布局)

  - 页眉和页脚 [TODO]


- 解析和创建段落

  - OCR 文本 [TODO] 

  - 水平(从左到右)或竖直(自底向上)方向文本

  - 字体样式例如字体、字号、粗/斜体、颜色

  - 文本样式例如高亮、下划线和删除线

  - 列表样式 [TODO]

  - 外部超链接

  - 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距


- 解析和创建图片

  - 内联图片

    - 灰度/RGB/CMYK等颜色空间图片

    - 带有透明通道图片

    - 浮动图片(衬于文字下方)


- 解析和创建表格

  - 边框样式例如宽度和颜色

  - 单元格背景色

  - 合并单元格

  - 单元格垂直文本

  - 隐藏部分边框线的表格

  - 嵌套表格


- 支持多进程转换

pdf2docx同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。


限制

- 目前暂不支持扫描PDF文字识别

- 仅支持从左向右书写的语言(因此不支持阿拉伯语)

- 不支持旋转的文字

- 基于规则的解析无法保证100%还原PDF样式


安装

pip install pdf2docx


案例

from pdf2docx import parse


pdf_file = '/path/to/sample.pdf'

docx_file = 'path/to/sample.docx'


# convert pdf to docx

parse(pdf_file, docx_file)

Run

1709103180.png


立即咨询
  • 品质服务

    服务贴心周到

  • 快速响应

    全天24小时随时沟通

  • 专业服务

    授权率高,保密性强

  • 完善售后服务

    快速响应需求,及时性服务

直播课程
软件开发基础课程
上位机软件开发课
机器视觉软件开发课
专题课
联系方式
电话:15861139266
邮箱:75607082@qq.com
地址:苏州吴中区木渎镇尧峰路69号
关注我们

版权所有:江苏和讯自动化设备有限公司所有 备案号:苏ICP备2022010314号-1

技术支持: 易动力网络