添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
苦恼的鸡蛋面  ·  Svelte ...·  1 月前    · 
温暖的雪糕  ·  Python HTML 至 JSON - ...·  4 周前    · 
爱喝酒的墨镜  ·  python ...·  2 年前    · 
发财的山羊  ·  excel - "Variable not ...·  2 年前    · 

python从html中提取文本

您可以使用Python中的BeautifulSoup库来从HTML中提取文本。

首先,您需要安装BeautifulSoup库,您可以使用pip命令在终端中安装:

pip install beautifulsoup4

然后,您可以使用以下代码来提取HTML文本:

from bs4 import BeautifulSoup
import requests
# 获取HTML页面
url = 'https://www.example.com'
response = requests.get(url)
# 将HTML页面转换为BeautifulSoup对象
soup = BeautifulSoup(response.content, 'html.parser')
# 提取文本内容
text = soup.get_text()
print(text)

在这个例子中,我们首先使用requests库获取了网页的HTML内容,然后使用BeautifulSoup库将HTML内容转换为BeautifulSoup对象。最后,我们使用get_text()方法从对象中提取纯文本内容,并将其打印出来。

需要注意的是,这个方法提取的文本可能包括不必要的空格、换行符和制表符等。如果您需要对提取的文本进行进一步处理,可以使用字符串操作函数来去除这些不必要的字符。

  •