添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
首发于 python玩转word

python对word文档的搜索和处理(基于win32com)

关键词搜索查找:

word中的搜索和excel中的搜索函数返回值不同。word的返回值为boolean;excel返回值为range。

当需要对搜索结果进行处理的时候,就会发现word中无法直接获取到搜索结果。

需要按照如下流程来处理:

1)使用range.find.excute方法。如果返回值为true,说明找到了对应的文字。

2)使用range.Select() 方法,这一步很重要,会将搜索到的文字选中。

3)此时application. Selection返回的range就是搜索到的文字。获取到对应的range后 就可以做很多操作,例如替换,修改。有了这个Range,还可以获取到匹配对象的位置,例如段落字体等信息。

示例:在word中查找关键词“武汉”,并获取搜索到的结果所在的页码

import win32com.client as win32
from win32com.client import constants
import os
doc_app = win32.gencache.EnsureDispatch('Word.Application')#打开word应用程序
doc_app.Visible = True
curr_path = os.getcwd()
file_path = r'%s\示例文档.docx'%curr_path
doc = doc_app.Documents.Open(file_path)
search_range = doc.Content
search_range.Find.Execute(FindText="武汉")
search_range.Select()#这一步必须要有,否则获取的页码不对
rng = doc_app.Selection.Range
print('所在页:',rng.Information(constants.wdActiveEndPageNumber))
print('所在页:',rng.Information(constants.wdActiveEndAdjustedPageNumber))

注意:如果没有搜索到关键词,则Selection为空,直接调用它的成员属性,有时候会有错。

上面示例中有两种页码形式。

1)wdActiveEndPageNumber,是绝对的页码

2)wdActiveEndAdjustedPageNumber,是人为设置的页码。

搜索并替换

替换功能,还是使用Find.Execute。示例只是简单的替换文字,还可以替换格式之类的。

import win32com.client as win32
from win32com.client import constants
import os
curr_path = os.getcwd()
file_path = r'%s\demo文档.docx'%curr_path