AI智能
改变未来

injustice 在 求推荐本地的pdf转md方案 中发帖 用爬虫抓了1w篇paper,需要转md/txt便于LLM读取。需要本地是因为想并发处理,MinerU效果很好但是不能批量薅 不是…

injustice 在 求推荐本地的pdf转md方案 中发帖

用爬虫抓了1w篇paper,需要转md/txt便于LLM读取。需要本地是因为想并发处理,MinerU效果很好但是不能批量薅
不是扫描版,不需要ocr。然而即使放低标准还是找不到理想的项目 😭
试了几个python库,连换行和换页都处理不好,更别提排版问题了

详情链接:
https://linux.do/t/topic/1340665/1

来源: LINUX DO, 消息ID: 262898

赞(0) 打赏
未经允许不得转载:爱站程序员基地 » injustice 在 求推荐本地的pdf转md方案 中发帖 用爬虫抓了1w篇paper,需要转md/txt便于LLM读取。需要本地是因为想并发处理,MinerU效果很好但是不能批量薅 不是…