NetCore爬虫：CatSpider# 开发笔记 - 画星星高手 DealiAxy的个人博客

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

很酷的手套 · 四本好看到炸裂的系统流玄幻小说，文笔流畅口碑 ...· 2 月前 ·

气势凌人的小刀 · 快穿在总受文里抢主角攻by辞玖（炮灰他太漂亮 ...· 4 月前 ·

帅气的甜瓜 · 司法部关于修改《取得国家法律职业资格的台湾居 ...· 6 月前 ·

玉树临风的硬币 · 草帽海贼团【悬赏金】变化一览表 - ...· 6 月前 ·

会搭讪的跑步鞋 · org.drools.conf ...· 6 月前 ·

（PS：我这里用了#号代替了Sharp这个单词）

CatSpider 是毕设里的数据采集模块，本来爬虫类的应用肯定使用python来开发嘛，不过用 request_html 做解析的时候，python的动态类型真的把我恶心到了，而且感觉这个库也不是很成熟， html5lib 也不好用，也没心思去深入了，之前看到有大佬用 .net core 平台做爬虫，于是我也来试试，没想到效果贼好，特别是配合LinqPad，写个代码段然后直接Dump做数据展示超级方便。

代码测试没问题之后直接写到项目里面，用了轻量级的ORM写入数据库，美滋滋。不过有些网站的采集比较麻烦，有反爬机制，这方面就不如python了，因为python的轮子很多，我直接找别人做的整合一下就好了，毕竟爬虫不是本项目的主要内容，不能浪费太多时间和精力。那么怎么把C#和python的模块整合在一起呢，emmm当然是RPC了，不过在python爬虫里面加个 Flask 来调用也行，不过数据交换性能就要打很大折扣了。

有点偏题了，继续记录 .net core 爬虫~

如果是python的话，那么我觉得 requests 库是唯一最佳选择，在NetCore里面，现在有个很好用的库 HttpClient ，和 requests 不同，这个是官方的，做得非常好用，调用是全部异步的。

官方推荐使用单例模式，所以我做了个 HttpHelper 静态类来使用~

public static class HttpHelper
    private static readonly HttpClientHandler handler;
    private static readonly HttpClient client;
    public static HttpClientHandler Handler { get => handler; }
    public static HttpClient Client { get => client; }
    static HttpHelper()
        handler = new HttpClientHandler();
        client = new HttpClient(handler);
        client.DefaultRequestHeaders.Add("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36");
使用起来很简单：
var data = await HttpHelper.Client.GetStringAsync("http://example.com");
解析html文档
解析同样很方便，通过AngleSharp库，可以像CSS选择器那样快速定位网页元素，比python常用的BeautifulSoup好用很多。
为了使用方便，我封装了一个方法快速解析文档：
public static async Task<IHtmlDocument> GetHtmlDocument(string url)
    var html = await client.GetStringAsync(url);
    return new HtmlParser().ParseDocument(html);
public static async Task<IHtmlDocument> GetHtmlDocument(string url, string charset)
    var res = await client.GetAsync(url);
    var resBytes = await res.Content.ReadAsByteArrayAsync();
    var resStr = Encoding.GetEncoding(charset).GetString(resBytes);
    return new HtmlParser().ParseDocument(resStr);
第二个方法带有一个charset参数，可以指定文档的编码，有些国内老的网站不是用utf-8，也不标明什么编码，这样下载下来中文都是乱码的，得处理一下。
开始采集数据
这里放一些简单的例子，爬取列表：
用了linq感觉世界真美好，哈哈哈
public static async Task<List<ListArticle>> CrawlHotList()
    var dom = await HttpHelper.GetHtmlDocument("https://www.com/");
    var links = dom.QuerySelectorAll(".hot-list ul li a");
    var hotList = links.Select((elem, result) => 
    new ListArticle{
        Title = elem.TextContent,
        Link = elem.GetAttribute("href"),
        Source = "来源"});
    return new List<ListArticle>(hotList);
采集文章内容，代码特别简单：
public static async Task<Article> CrawlArticle(string url)
    var dom = await HttpHelper.GetHtmlDocument(url);
    var data = new Article
        Title = dom.QuerySelector("#cb_post_title_url").TextContent,
        Source = "来源",
        Content = dom.QuerySelector(".postBody").TextContent,
        Link = url,
        PublishTime = DateTime.Parse(dom.QuerySelector("#post-date").TextContent),
        AddTime = DateTime.Now,
        Author = dom.QuerySelector(".postDesc a").TextContent
    return data;
还有遇到大量数据的时候怎么办呀，这时候就要上并行任务了，C#对比python高性能的优势就体现出来了，上代码：
public static async Task<List<CnBlogListArticle>> CrawlList2(int page = 10)
    var http = HttpHelper.Client;
    var parser = new HtmlParser();
    var data = await Task.WhenAny(
        Enumerable.Range(1, page)
        .Select(async page =>
            string pageData = await http.GetStringAsync($"https://www.cnblogs.com/sitehome/p/{page}");
            IHtmlDocument doc = await parser.ParseDocumentAsync(pageData);
            return doc.QuerySelectorAll(".post_item").Select(tag => new CnBlogListArticle
                Title = tag.QuerySelector(".titlelnk").TextContent,                     Page = page,
                UserName = tag.QuerySelector(".post_item_foot .lightblue").TextContent,
                PublishTime = DateTime.Parse(Regex.Match(tag.QuerySelector(".post_item_foot").ChildNodes[2].TextContent, @"(\d{4}\-\d{2}\-\d{2}\s\d{2}:\d{2})", RegexOptions.None).Value),
                CommentCount = int.Parse(tag.QuerySelector(".post_item_foot .article_comment").TextContent.Trim()[3..^1]),
                ViewCount = int.Parse(tag.QuerySelector(".post_item_foot .article_view").TextContent[3..^1]),
                BriefContent = tag.QuerySelector(".post_item_summary").TextContent.Trim(),
})).ConfigureAwait(true);
    return new List<CnBlogListArticle>(await data);
还可以利用IEnumerable的AsParallel()方法将LINQ并行化。不展开了。
数据持久化
数据持久化这能搞，.net core平台有很多好用的ORM，比如微软官方的EF Core，比如SqlSugar，比如Dapper这些，不过EF Core感觉比较重，而且我做这个的时候，还没学怎么单独使用。
然后我找了个国人做的轻量级ORM，Chloe，看文档使用很简单，于是就试试，模型代码：
[Table("ListArticles")]
public class ListArticle
    [Column("Id", IsPrimaryKey = true)]
    [AutoIncrement]
    public int Id { get; set; }
    public string Title { get; set; }
    public string Source { get; set; }
    public string Link { get; set; }
这个orm需要在模型类上加上属性，定义主键和表名什么的。EF Core这种就不用，完全按照约定来的，这点不如EF Core方便。
而且它不能自动生成表，我只好手动创建表，差评。
接下来常规操作，创建DBContext，大部分ORM都差不多：
public class SQLiteConnectionFactory : IDbConnectionFactory
    /// <summary>
    /// 数据库连接字符串，如下
    /// Data Source=dapperTest.db
    /// </summary>
    string _connString = null;
    public SQLiteConnectionFactory(string connString)
        this._connString = connString;
    public IDbConnection CreateConnection()
        // 得先安装Sqlite的驱动
        // Microsoft.Data.Sqlite
        // System.Data.Sqlite
        SQLiteConnection conn = new SQLiteConnection(_connString);
        return conn;
对了，要先配置连接：
public static class SQLiteContextFactory
    public static SQLiteContext GetContext()
        string connString = "Data Source=CatSpider.db";
        return new SQLiteContext(new SQLiteConnectionFactory(connString));
使用很简单：
var context = SQLiteContextFactory.GetContext();
obj = context.Insert(obj);
更多操作看文档去，本文就不展开了
提供HTTP接口
基本功能实现了，之前考虑到和其他语言或者模块的互操作，觉得可以用HTTP接口来交互，（虽然现在觉得不是最佳方案）
这个很简单，只要找一个轻量级的服务器框架就行了，我找到一个叫Nancy的，听起来像人名，结果居然是Web框架。
使用很简单，直接启动：
private string host = "http://localhost";
private int port = 50010;
private NancyHost nancy;
public Program()
    var uri = new Uri($"{host}:{port}/");
    nancy = new NancyHost(uri);
public void Start()
    nancy.Start();
    logger.Debug($"nancy server started at {host}:{port}");
    Console.ReadKey();
    nancy.Stop();
static void Main(string[] args)
    new Program().Start();
这个框架有个Module的概念，就和Controller差不多吧，定义很简单，我放测试代码上来，业务代码暂时不放出来：
public class MainModule : NancyModule
    public MainModule()
        Get("/", _ => "hello");
        Get("404", _ => HttpStatusCode.NotFound);
        Get("test", _ =>
                var response = (Response)JsonConvert.SerializeObject(new int[] { 1, 2, 3 });
                response.ContentType = "application/json";
                return response;
        Get("test2", _ => JsonConvert.SerializeObject(new int[] { 1, 2, 3 }));
最后说一下日志，我这里用了nlog这个轻量级日志引擎。
首先要配置，NLog.config，设置生成时自动复制到目标文件夹：
<?xml version="1.0" encoding="utf-8" ?>
<nlog xmlns="http://www.nlog-project.org/schemas/NLog.xsd"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
      autoReload="true"
      throwConfigExceptions="true">
  <targets>
    <!-- 配置说明：https://github.com/NLog/NLog/wiki/ColoredConsole-target -->
    <target name="f1" xsi:type="File" fileName="CatSpiderLog.txt"/>
    <target name="n1" xsi:type="Network" address="tcp://localhost:4001"/>
    <target name="c1" xsi:type="Console" encoding="utf-8"
            error="true"
            detectConsoleAvailable="true" />
    <target name="c2" xsi:type="ColoredConsole" encoding="utf-8"
          useDefaultRowHighlightingRules="true"
          errorStream="true"
          enableAnsiOutput="true"
          detectConsoleAvailable="true"
          DetectOutputRedirected="true">
    </target>
  </targets>
  <rules>
    <logger name="*" maxLevel="Debug" writeTo="c2" />
    <logger name="*" maxLevel="Debug" writeTo="f1" />
    <!--<logger name="*" minLevel="Info" writeTo="f1" />-->
  </rules>
</nlog>
官方推荐每个类用一个logger实例：
private static Logger logger = LogManager.GetCurrentClassLogger();
logger.Debug($"列表：{obj}");
大概就这，有空继续写其他的~
交流问题请在微信公众号后台留言，每一条信息我都会回复哈~
- 微信公众号：画星星高手
- 打代码直播间：https://live.bilibili.com/11883038
- 知乎：https://www.zhihu.com/people/dealiaxy
- 专栏：https://zhuanlan.zhihu.com/deali
- 简书：https://www.jianshu.com/u/965b95853b9f