用python获取PDF的目录

0 人关注

我试图从一个PDF中获取目录。我正在使用PyMuPDF实现这一目的。但它只在PDF包含书签的情况下提取ToC。否则，它只会产生一个空的列表。

def get_Table_Of_Contents(doc):
    toc = doc.getToC()
    return toc
toc= get_Table_Of_Contents(file)


         1
         
         个评论


           
            user3734568
           
           ：


           
            我也面临同样的情况。你是否发现有什么方法可以在PDF不包含书签的情况下提取ToC？


         python

pdf


         text

nlp


         pymupdf


        2
        
        个回答


          
           
           
            Anjaly Vijayan
           
          
          
           发布于
           
           2020-11-14


         0
         
         人赞同


          
           使用pdf-html转换器将pdf转换成html。你可以使用像beautifulsoup这样的分析器来解析html，提取你想要的任何数据。


          
           
           
            Maksym Polshcha
           
          
          
           发布于
           
           2020-11-14


         0
         
         人赞同


          
           通常情况下，TOC就像页面上的一个普通文本一样被表示出来。
          
          
           Try
           
            浏览器
           
           以提取文本和/或PDF "标记"。
          
          
           下面是一个从一个页面中提取所有上述内容的示例代码。
          
          from pdfreader import SimplePDFViewer, PageDoesNotExist
fd = open(your_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)
# navigate to TOC
viewer.navigate(toc_page_number)