python对word文档的搜索和处理(基于win32com)
关键词搜索查找:
word中的搜索和excel中的搜索函数返回值不同。word的返回值为boolean;excel返回值为range。
当需要对搜索结果进行处理的时候,就会发现word中无法直接获取到搜索结果。
需要按照如下流程来处理:
1)使用range.find.excute方法。如果返回值为true,说明找到了对应的文字。
2)使用range.Select() 方法,这一步很重要,会将搜索到的文字选中。
3)此时application. Selection返回的range就是搜索到的文字。获取到对应的range后 就可以做很多操作,例如替换,修改。有了这个Range,还可以获取到匹配对象的位置,例如段落字体等信息。
示例:在word中查找关键词“武汉”,并获取搜索到的结果所在的页码
import win32com.client as win32
from win32com.client import constants
import os
doc_app = win32.gencache.EnsureDispatch('Word.Application')#打开word应用程序
doc_app.Visible = True
curr_path = os.getcwd()
file_path = r'%s\示例文档.docx'%curr_path
doc = doc_app.Documents.Open(file_path)
search_range = doc.Content
search_range.Find.Execute(FindText="武汉")
search_range.Select()#这一步必须要有,否则获取的页码不对
rng = doc_app.Selection.Range
print('所在页:',rng.Information(constants.wdActiveEndPageNumber))
print('所在页:',rng.Information(constants.wdActiveEndAdjustedPageNumber))
注意:如果没有搜索到关键词,则Selection为空,直接调用它的成员属性,有时候会有错。
上面示例中有两种页码形式。
1)wdActiveEndPageNumber,是绝对的页码
2)wdActiveEndAdjustedPageNumber,是人为设置的页码。
搜索并替换
替换功能,还是使用Find.Execute。示例只是简单的替换文字,还可以替换格式之类的。
import win32com.client as win32
from win32com.client import constants
import os
curr_path = os.getcwd()
file_path = r'%s\demo文档.docx'%curr_path