我试图用Python(PyPDF2)从PDF中提取TOC/outlines以及它们的页码,我知道
reader.outlines
,但它没有返回正确的页码。
Pdf的例子。 https://www.annualreports.com/HostedData/AnnualReportArchive/l/NASDAQ_LOGM_2018.pdf
而
reader.outlines
的输出是 。
[{'/Title': '2018 Highlights', '/Page': IndirectObject(5, 0), '/Type': '/Fit'},
{'/Title': 'Letter to Stockholders', '/Page': IndirectObject(6, 0), '/Type': '/Fit'},
{'/Title': 'Part I', '/Page': IndirectObject(10, 0), '/Type': '/Fit'},
[{'/Title': 'Item 1. Business', '/Page': IndirectObject(10, 0), '/Type': '/Fit'},
{'/Title': 'Item 1A. Risk Factors', '/Page': IndirectObject(19, 0), '/Type': '/Fit'}
例如,PART我没有被要求从第10页开始,我错过了什么吗?
有没有人有替代方案?
我已经尝试用PyMupdf、Tabula和getDestinationPageNumber method with no luck.
预先感谢你。