添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

用python获取PDF的目录

0 人关注

我试图从一个PDF中获取目录。我正在使用PyMuPDF实现这一目的。但它只在PDF包含书签的情况下提取ToC。否则,它只会产生一个空的列表。

def get_Table_Of_Contents(doc):
    toc = doc.getToC()
    return toc
toc= get_Table_Of_Contents(file)
    
1 个评论
我也面临同样的情况。你是否发现有什么方法可以在PDF不包含书签的情况下提取ToC?
python
pdf
text
nlp
pymupdf
sheshank
sheshank
发布于 2020-11-05
2 个回答
Anjaly Vijayan
Anjaly Vijayan
发布于 2020-11-14
0 人赞同

使用pdf-html转换器将pdf转换成html。你可以使用像beautifulsoup这样的分析器来解析html,提取你想要的任何数据。

Maksym Polshcha
Maksym Polshcha
发布于 2020-11-14
0 人赞同

通常情况下,TOC就像页面上的一个普通文本一样被表示出来。

Try 浏览器 以提取文本和/或PDF "标记"。

下面是一个从一个页面中提取所有上述内容的示例代码。

from pdfreader import SimplePDFViewer, PageDoesNotExist
fd = open(your_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)
# navigate to TOC
viewer.navigate(toc_page_number)