diff --git "a/2020-07-13-pdf2docx\345\274\200\345\217\221\346\246\202\350\246\201/index.html" "b/2020-07-13-pdf2docx\345\274\200\345\217\221\346\246\202\350\246\201/index.html" index 4e4c693..904ccdf 100644 --- "a/2020-07-13-pdf2docx\345\274\200\345\217\221\346\246\202\350\246\201/index.html" +++ "b/2020-07-13-pdf2docx\345\274\200\345\217\221\346\246\202\350\246\201/index.html" @@ -140,12 +140,12 @@

pdf2docx开发概要发布于:2020-07-13 | 分类:process automation


PDF转Word 是一个古老的话题,其难点在于建立PDF基于元素位置的格式与Word基于内容的格式之间的映射关系。Solid Documents是这方面的佼佼者,其技术的应用案例:在线PDF转换网站Smallpdf

-

在某个项目的调研过程中,作者尝试了这个话题,编写了一个用于转换PDF到Word的Python库pdf2docx——借助PyMuPDF从PDF文件提取内容,基于位置规则解析内容,最后用python-docx创建Word文件。

+

在某个项目的调研过程中,我尝试了这个话题,编写了一个用于转换PDF到Word的Python库pdf2docx——借助PyMuPDF从PDF文件提取内容,基于位置规则解析内容,最后用python-docx创建Word文件。

https://github.com/dothinking/pdf2docx

本文记录主要开发思路,具体细节随着版本升级可能略有差异。

-

sample

+

sample

思路