只需2行代码,轻松将PDF转换成Word

可将 pdf 转换成 docx 文件的 python 库。该项目通过 pymupdf 库提取 pdf 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。
  pdf2docx功能 - 解析和创建页面布局  - 页边距  - 章节和分栏 (目前最多支持两栏布局)  - 页眉和页脚 [todo]- 解析和创建段落  - ocr 文本 [todo]   - 水平(从左到右)或竖直(自底向上)方向文本  - 字体样式例如字体、字号、粗/斜体、颜色  - 文本样式例如高亮、下划线和删除线  - 列表样式 [todo]  - 外部超链接  - 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距- 解析和创建图片  - 内联图片    - 灰度/rgb/cmyk等颜色空间图片    - 带有透明通道图片    - 浮动图片(衬于文字下方)- 解析和创建表格  - 边框样式例如宽度和颜色  - 单元格背景色  - 合并单元格  - 单元格垂直文本  - 隐藏部分边框线的表格  - 嵌套表格- 支持多进程转换 pdf2docx同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。
限制 - 目前暂不支持扫描pdf文字识别- 仅支持从左向右书写的语言(因此不支持阿拉伯语)- 不支持旋转的文字- 基于规则的解析无法保证100%还原pdf样式
安装 pip install pdf2docx
案例 from pdf2docx import parsepdf_file = '/path/to/sample.pdf'docx_file = 'path/to/sample.docx'# convert pdf to docxparse(pdf_file, docx_file) run


数据出境的安全合规思考
江西加快发展数字经济:推动VR、物联网、5G等产业建设
无人机遥感的数据如何来处理
构建一个手套控制机械手臂
一款出色的Chromebook在正式零售中
只需2行代码,轻松将PDF转换成Word
中国高端处理器发展探秘
将神经网络和模糊控制技术相结合实现温室控制系统设计
我国芯片发展现状如何?谁打破中国“无芯”历史
自动驾驶如何加速网络安全类型的批准
新华社实现首个5G沉浸式多地跨屏访谈
Hittite推极低噪声线性稳压器
19年Q4的全球PC出货量达到了7180万台 创下了近四年来的新高
高精度3D扫描仪助力高压电导电部件焊接钢爪质量检测
“十面霾伏”,ADI专家解读气体监测技术趋势和解决方案
“蛟龙号”领衔 三大深潜器同时入驻国家深海基地
内存市场迎来拐点 第三季度产值达到了154.5亿美元
探析从传统汽车到智能网联汽车的艰苦发展之路
在Linux系统下使用top命令查看CPU使用情况
我们距离智慧城市的全面落地还有多远