8.3. 从 HTML 文档中提取数据 - Python Documentation

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

爱喝酒的篮球 · 编译出错libicui18n.so.58: ...· 6 天前 ·

低调的斑马 · python - ...· 2 天前 ·

近视的鸭蛋 · vue中select的使用、默认选择、onc ...· 2 天前 ·

酒量大的可乐 · python中colorbar怎么设置想要的 ...· 昨天 ·

闷骚的鸡蛋面 · python中colorbar设置范围_mo ...· 昨天 ·

个性的火柴 · 在没有数学的Python中，如何接受多个输入 ...· 7 月前 ·

讲道义的山羊 · 江南吴语是中原人从北方带来的？_私家历史_澎 ...· 9 月前 ·

坏坏的茴香 · 用Split函数按分隔符拆分文本为数组并写入单元格· 10 月前 ·

满身肌肉的沙滩裤 · 如何：對文字套用轉換 - WPF .NET ...· 1 年前 ·

慷慨的抽屉 · swift ...· 1 年前 ·

为了从 HTML 文档中提取数据，将 SGMLParser 类进行子类化，然后对想要捕捉的标记或实体定义方法。

从 HTML 文档中提取数据的第一步是得到某个 HTML 文件。如果在您的硬盘里存放着 HTML 文件，您可以使用 file 函数将它读出来，但是真正有意思的是从实际的网页得到 HTML 。

例 8.5. `urllib` 介绍

>>> import urllib

>>> sock = urllib.urlopen( "http://diveintopython.org/" )

>>> htmlSource = sock.read()

>>> sock.close()

>>> print htmlSource

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"><html><head> <meta http-equiv='Content-Type' content='text/html; charset=ISO-8859-1'> <title>Dive Into Python</title> <link rel='stylesheet' href='diveintopython.css' type='text/css'> <link rev='made' href='mailto: [email protected] '> <meta name='keywords' content='Python, Dive Into Python, tutorial, object-oriented, programming, documentation, book, free'> <meta name='description' content='a free Python tutorial for experienced programmers'> </head> <body bgcolor='white' text='black' link='#0000FF' vlink='#840084' alink='#0000FF'> <table cellpadding='0' cellspacing='0' border='0' width='100%'> <tr><td class='header' width='1%' valign='top'>diveintopython.org</td> <td width='99%' align='right'><hr size='1' noshade></td></tr> <tr><td class='tagline' colspan='2'>Python for experienced programmers</td></tr> [...略...] >>> import urllib, urllister >>> usock = urllib.urlopen( "http://diveintopython.org/" ) >>> parser = urllister.URLLister() >>> parser.feed(usock.read())

>>> usock.close()

>>> parser.close()

>>> for url in parser.urls: print url

toc/index.html #download #languages toc/index.html appendix/history.html download/diveintopython-html-5.0.zip download/diveintopython-pdf-5.0.zip download/diveintopython-word-5.0.zip download/diveintopython-text-5.0.zip download/diveintopython-html-flat-5.0.zip download/diveintopython-xml-5.0.zip download/diveintopython-common-5.0.zip ...略...

推荐文章

爱喝酒的篮球 · 编译出错libicui18n.so.58: undefined reference to `__cxa_throw_bad_array_new_length@CXXABI_1.3.8'_libicui

6 天前

低调的斑马 · python - Python中的最大递归深度是多少，如何增加它？ -

2 天前

近视的鸭蛋 · vue中select的使用、默认选择、onchange/change事件等操作实例 - 程序新视界

2 天前

酒量大的可乐 · python中colorbar怎么设置想要的范围_技术资讯-恒创科技

昨天

闷骚的鸡蛋面 · python中colorbar设置范围_mob649e81576de1的技术博客_

昨天

个性的火柴 · 在没有数学的Python中，如何接受多个输入并检查它是否是一个完美的正方形？ - 腾讯云开发者社区 - 腾讯云

7 月前

讲道义的山羊 · 江南吴语是中原人从北方带来的？_私家历史_澎湃新闻-The Paper

9 月前

坏坏的茴香 · 用Split函数按分隔符拆分文本为数组并写入单元格

10 月前

满身肌肉的沙滩裤 · 如何：對文字套用轉換 - WPF .NET Framework | Microsoft Learn

1 年前

慷慨的抽屉 · swift NSClassFromString将字符串类名转换成类_字符串是类名转成类-CSDN博客

1 年前

例 8.5. urllib 介绍

例 8.5. `urllib` 介绍