三花快讯 · 2024, 11月18日

MinerU:专为科技文献设计的 PDF 转换工具

自动识别并转换 LaTeX 和 HTML 格式,支持多语言

MinerU 是一款专注于科技文献的工具,能够将 PDF 转化为机器可读的格式,如 markdown 和 json,便于用户抽取任意格式。该工具诞生于 InternLM 的预训练过程中,支持自动识别并转换 LaTeX 和 HTML 格式,具备自动 OCR 功能,并支持多语言。自今年7月份开源以来,MinerU 已在 GitHub 上斩获 17k Star。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。