🔥 2024/11/7 debug 修复了batch推理不说人话,vllm batch推理吐token的速度自测几个case可以提升数倍
- 本项目主要修改:
- vllm 0.5.3版本实现了GOT加速
- 去除了MinerU的本地文件存储,直接用变量传递
- 本项目主要流程:
- 基于MinerU实现了pdf到markdown的解析,这一步未进行表格识别(其自带的表格识别,但是速度太慢了)
- 基于GOT进一步对每个表格进行识别,最终处理得到文本形式的
适当安装依赖,主要为torch 2.3.1, vllm 0.5.3, transformer
或直接安装新环境conda env create -f environment.yml
进入项目根目录,执行 pip install -e .
安装, 其会自动安装MinerU和GOT-OCR2.0所依赖的库
vllm版本的GOT 输入为batch时候生成的不说人话- 最后生成的text不是纯markdown, GOT-OCR2.0将表格转为了latex, 所以最后生成的是markdown格式和latex表格的混合