Skip to content

GOT的vLLM加速实现 并结合 MinerU 实现RAG中的pdf 解析

Notifications You must be signed in to change notification settings

liunian-Jay/MU-GOT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

本项目基于MinerU和GOT-OCR2.0 实现pdf解析

本项目仅为学习交流, 欢迎大家对不合适的地方改进

请大家关注GOT,MinerU

🔥 2024/11/7 debug 修复了batch推理不说人话,vllm batch推理吐token的速度自测几个case可以提升数倍

  • 本项目主要修改:
    • vllm 0.5.3版本实现了GOT加速
    • 去除了MinerU的本地文件存储,直接用变量传递
  • 本项目主要流程:
    • 基于MinerU实现了pdf到markdown的解析,这一步未进行表格识别(其自带的表格识别,但是速度太慢了)
    • 基于GOT进一步对每个表格进行识别,最终处理得到文本形式的

运行

适当安装依赖,主要为torch 2.3.1, vllm 0.5.3, transformer
或直接安装新环境conda env create -f environment.yml

项目安装:

进入项目根目录,执行 pip install -e . 安装, 其会自动安装MinerU和GOT-OCR2.0所依赖的库

需要把PDF_parsing/magic-pdf.json的模型路径替换成你的路径,PDF_parsing/init.py需同样替换

模型是重写了名字,所以模型权重目录中的config中的模型名称需要改为Qwen2GotForCausalLM

尚待改进

  • vllm版本的GOT 输入为batch时候生成的不说人话
  • 最后生成的text不是纯markdown, GOT-OCR2.0将表格转为了latex, 所以最后生成的是markdown格式和latex表格的混合

About

GOT的vLLM加速实现 并结合 MinerU 实现RAG中的pdf 解析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages