添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
拉风的勺子  ·  WebView - .NET MAUI | ...·  1 月前    · 
想出国的钱包  ·  ASP.NET Core MVC 概述 | ...·  1 月前    · 
老实的橙子  ·  HTML、CSS 和 DOM ...·  1 月前    · 
开心的苦咖啡  ·  Visual Studio Code 中的 ...·  1 月前    · 
睿智的松鼠  ·  虚拟数字人开源-阿里云·  4 月前    · 
留胡子的煎饼  ·  BlenderBim Create ...·  4 月前    · 
冷静的咖啡  ·  Typescript ...·  6 月前    · 
玩足球的大海  ·  走出韩国 张康明 ...·  6 月前    · 
文武双全的松鼠  ·  Maven Central: ...·  1 年前    · 

Repository files navigation

magic-html - 通用HTML数据提取器

欢迎使用magic-html,这是一个旨在简化从HTML中提取主体区域内容的Python库。

magic-html提供了一套工具,能够轻松地从HTML中提取主体区域内容。无论您处理的是复杂的HTML结构还是简单的网页,这个库都旨在为您的HTML抽取需求提供一个便捷高效的接口。

  • 返回主体区域html结构,可自定义输出纯文本/markdown
  • 支持多模态抽取
  • 支持多种版面extractor,文章/论坛
  • 支持latex公式提取转换
  • pip install https://github.com/opendatalab/magic-html/releases/download/magic_html-0.1.2-released/magic_html-0.1.2-py3-none-any.whl
    from magic_html import GeneralExtractor
    # 初始化提取器
    extractor = GeneralExtractor()
    url = "http://example.com/"
    html = """
    <!doctype html>
        <title>Example Domain</title>
        <meta charset="utf-8" />
        <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
        <meta name="viewport" content="width=device-width, initial-scale=1" />  
    </head>
        <h1>Example Domain</h1>
        <p>This domain is for use in illustrative examples in documents. You may use this
        domain in literature without prior coordination or asking for permission.</p>
        <p><a href="https://www.iana.org/domains/example">More information...</a></p>
    </body>
    </html>
    # 文章类型HTML提取数据
    data = extractor.extract(html, base_url=url)
    # 论坛类型HTML提取数据
    # data = extractor.extract(html, base_url=url, html_type="forum")
    # 微信文章HTML提取数据
    # data = extractor.extract(html, base_url=url, html_type="weixin")
    print(data)

    benchmark report

    根据html页面类型,文章/论坛,对比不同开源通用抽取框架抽取准确性

    文章类型:选取头部新闻、博客站点共标注158个html页面

    ╒══════════════════════╤═════════════╤════════════╤═══════════╕
    │ funcprec_meanrec_meanf1_mean │
    ╞══════════════════════╪═════════════╪════════════╪═══════════╡
    │ magic_html0.9088650.950320.92913  │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ trafilatura0.8334340.9123840.871124 │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ trafilatura_fallback0.8312290.9337130.879496 │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ readability-lxml0.865870.8613910.863625 │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ newspaper3k0.4095850.3720830.389935 │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ goose30.5257170.4576690.489339 │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ justext0.2249450.1170920.154014 │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ gne0.8288490.6291120.715299 │
    ╘══════════════════════╧═════════════╧════════════╧═══════════╛

    论坛类型:选取头部论坛、问答站点与开源建站框架搭建站点共103个html页面

    ╒══════════════════════╤═════════════╤════════════╤═══════════╕
    │ funcprec_meanrec_meanf1_mean │
    ╞══════════════════════╪═════════════╪════════════╪═══════════╡
    │ magic_html0.7962520.8268190.811248  │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ trafilatura0.7160090.6959470.705835  │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ trafilatura_fallback0.7303040.6913280.710282  │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ readability-lxml0.7880180.4450870.568867  │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ newspaper3k0.5969760.2983220.397837  │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ goose30.6758350.3129690.427821  │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ justext0.1758890.05176280.0799863 │
    ├──────────────────────┼─────────────┼────────────┼───────────┤
    │ gne0.810030.3897090.526241  │
    ╘══════════════════════╧═════════════╧════════════╧═══════════╛

    本项目代码采用 Apache 2.0 license 授权。

  • trafilatura
  • readability-lxml
  •