c#基於.net-htmlagilitypack庫的爬蟲初體驗

c#基於.net-htmlagilitypack庫的爬蟲初體驗

在github上看一些.net的開源庫,看到了關於爬蟲相關的庫

最后更新 2022/6/9 下午10:54
黑哥聊dotNet
预计阅读 4 分钟
分类
.NET
标签
.NET C# 開源 GitHub

講故事

前幾天有點空閒時間,在 github 上看一些.net 的開源庫,看到了關於爬蟲相關的庫,於是加入了一個 qq 群,看到裡面各位大佬討論的是爬的越好,進去越快,於是我自己也想做一個爬蟲相關的東西,但是爬蟲是個危險的東西,自己也不敢隨便爬別人的網頁,於是找到了一個朋友,拿他的網站來進行練習!

練習

对于.Net 来说,爬虫相关的库还是蛮多的,于是我选择了HtmlAgilityPack来做一个爬虫练习!

當然什麼是爬蟲呢?

簡而言之:

爬蟲的基本流程是:下載數據(發送 http 請求並獲得返回的 resonse) -> 解析返回的文本(可以是 text、json、html) -> 存儲解析到的數據

学习一个框架,我们肯定是从它的官方文档开始, 地址:https://html-agility-pack.net/

html 解析器

  • from file(從文件加載 html 文檔)
  • from string (從指定的字符串加載 html 文檔)
  • from web (從 internet 資源中獲取 html 文檔)
  • from browser(從 webbrowser 獲取 html 文檔)

於是我選擇了 from web 來解析我們的 html 文檔,代碼如下:

var html = @"https://dotnet9.com/";
HtmlWeb web = new HtmlWeb();
var htmlDoc = web.Load(html);

既然 html 文檔被我們獲取到了,我們肯定就要對 html 內容進行一個解析了。

html 選擇器

  • selectnodes()(選擇與 xpath 表達式匹配的節點列表)
  • selectsinglenode(string)(選擇與 xpath 表達式匹配的第一個 xmlnode)

打開網站,找到我們想要爬取的網站,今天我們就來爬該網站的特色專輯下的所有文章。

打开调试模式,我们可以看到特色专辑是一个a标签,我们再来查看该标签的上一级元素是lili上一级元素是ul,那我们就可以来获取该节点

var allNodes = htmlDoc.DocumentNode.SelectNodes("//ul[@id='starlist']//li[@class='menu']");

当然我们也可以使用Xpath来获取节点内容

var singNodes = htmlDoc.DocumentNode.SelectSingleNode("/html[1]/body[1]/header[1]/div[3]/nav[1]/ul[1]/li[3]//ul[1]")

然后我们再来获取该特色专辑下的子菜单的的网址,经发现,a标签href 属性规定链接的目标地址,那我们第一步肯定是要获取该子菜单下的所有链接!

var singNodes = htmlDoc.DocumentNode.SelectSingleNode("/html[1]/body[1]/header[1]/div[3]/nav[1]/ul[1]/li[3]//ul[1]")
    .ChildNodes.Where(o => o.Name=="li");

List<string> lstUrl = new List<string>();
foreach (var item in singNodes)
{
    var aNodes = item.ChildNodes.Where(o => o.Name == "a").First();
    string url = aNodes.Attributes["href"].Value;
    lstUrl.Add(url);
}

隨意打開一個子菜單,可以看到相關的文章標題描述以及圖片等!這就是我們想要的內容了!分析方法還是和剛才一樣!代碼如下:

foreach (var item in lstUrl)
{
    htmlDoc = web.Load("https://dotnet9.com"+item);
    var resultNodes = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='pics-list-box whitebg']//ul")
        .ChildNodes.Where(o=>o.Name=="li");
    foreach (var itemResultNodes in resultNodes)
    {
        WebData webData = new WebData();
        var aNodes = itemResultNodes.ChildNodes.Where(o => o.Name == "a").First();
        webData.Url= aNodes.Attributes["href"].Value;
        webData.Title = aNodes.ChildNodes["h2"].InnerText;
        webData.Desc = aNodes.ChildNodes["p"].InnerText;
        webData.Img = aNodes.ChildNodes["i"].ChildNodes["img"].Attributes["src"].Value;
        Console.WriteLine($"标题:{webData.Title}-描述:{webData.Desc}-Img:{webData.Img}-{webData.Url}\r\n");
    }
}

這樣我們就能夠獲取到我們想要的東西了!運行一下代碼,我們的第一個爬蟲就成功了。

總結

即興發揮寫了第一個爬蟲,大家要是有更好的方案,歡迎交流,獨樂樂不如眾樂樂,本篇就說到這裡啦,希望對您有幫助。

最後聲明一下: 總的來說,技術本無罪,但是你利用技術爬取別人隱私、商業數據,那你就是蔑視法律了,請各位守好各自的底線!

Keep Exploring

延伸阅读

更多文章