Net-HtmlAgilityPackライブラリに基づくC#クローラ体験

Net-HtmlAgilityPackライブラリに基づくC#クローラ体験

githubで. Netのオープンソースライブラリを見て、クローラー関連のライブラリを見てください。

最后更新 2022/06/09 22:54
黑哥聊dotNet
预计阅读 3 分钟
分类
.NET
标签
.NET C# オープンソースソース GitHub

ストーリーテリング·ストーリー

数日前、少し自由な時間があり、githubでいくつかの. Netオープンソースライブラリを見て、クローラー関連のライブラリを見て、QQグループに参加しました。議論の中のすべてのビッグブラザーを見て、** より良いクロール、より速く入る ** だから、私自身もクローラー関連のものを作りたいですが、クローラーは危険なもので、私はランダムに他人のウェブページをクロールする勇気がないので、友人を見つけて、練習のために彼のウェブサイトを取る!

実践する。

对于.Net 来说,爬虫相关的库还是蛮多的,于是我选择了HtmlAgilityPack来做一个爬虫练习!

** もちろん、爬虫類とは何ですか?*

簡単に言えば、

クローラーの基本的な流れは、データをダウンロードする(HTTPリクエストを送信して返されたresponseを取得する)->返されたテキストを解析する(text,json,htmlでもよい)->解析されたデータを保存する)

学习一个框架,我们肯定是从它的官方文档开始, 地址:https://html-agility-pack.net/

Htmlパーサー

  • From FileファイルからHTML文書をロード
  • From String指定した文字列からHTMLドキュメントをロード
  • “From Web”インターネットリソースからHTML文書を取得
  • From Browser WebBrowserからHTMLドキュメントを取得

そこで、HTMLドキュメントを解析するためにFrom Webを選択しました。

var html = @"https://dotnet9.com/";
HtmlWeb web = new HtmlWeb();
var htmlDoc = web.Load(html);

HTMLドキュメントを取得したので、HTMLコンテンツの解析を行う必要があります。

Htmlセレクタ

  • SelectNodes XPath式に一致するノードのリストを選択します
  • SelectSingleNode String XPath式に一致する最初のXmlNodeを選択します

サイトを開き、クロールしたいサイトを見つけます。今日は、そのサイトの特集アルバムの下にあるすべての記事をクロールします。

打开调试模式,我们可以看到特色专辑是一个a标签,我们再来查看该标签的上一级元素是lili上一级元素是ul,那我们就可以来获取该节点

var allNodes = htmlDoc.DocumentNode.SelectNodes("//ul[@id='starlist']//li[@class='menu']");

当然我们也可以使用Xpath来获取节点内容

var singNodes = htmlDoc.DocumentNode.SelectSingleNode("/html[1]/body[1]/header[1]/div[3]/nav[1]/ul[1]/li[3]//ul[1]")

然后我们再来获取该特色专辑下的子菜单的的网址,经发现,a标签href 属性规定链接的目标地址,那我们第一步肯定是要获取该子菜单下的所有链接!

var singNodes = htmlDoc.DocumentNode.SelectSingleNode("/html[1]/body[1]/header[1]/div[3]/nav[1]/ul[1]/li[3]//ul[1]")
    .ChildNodes.Where(o => o.Name=="li");

List<string> lstUrl = new List<string>();
foreach (var item in singNodes)
{
    var aNodes = item.ChildNodes.Where(o => o.Name == "a").First();
    string url = aNodes.Attributes["href"].Value;
    lstUrl.Add(url);
}

サブメニューを開くと、関連する記事のタイトル説明や画像などが表示されます。これが私たちが望む内容です!分析方法は今と同じです。コードは以下の通りです。

foreach (var item in lstUrl)
{
    htmlDoc = web.Load("https://dotnet9.com"+item);
    var resultNodes = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='pics-list-box whitebg']//ul")
        .ChildNodes.Where(o=>o.Name=="li");
    foreach (var itemResultNodes in resultNodes)
    {
        WebData webData = new WebData();
        var aNodes = itemResultNodes.ChildNodes.Where(o => o.Name == "a").First();
        webData.Url= aNodes.Attributes["href"].Value;
        webData.Title = aNodes.ChildNodes["h2"].InnerText;
        webData.Desc = aNodes.ChildNodes["p"].InnerText;
        webData.Img = aNodes.ChildNodes["i"].ChildNodes["img"].Attributes["src"].Value;
        Console.WriteLine($"标题:{webData.Title}-描述:{webData.Desc}-Img:{webData.Img}-{webData.Url}\r\n");
    }
}

そうすれば、欲しいものを手に入れることができます!コードを実行すると、最初のクローラは成功しました。

まとめまとめまとめ

即興演奏は最初のクローラーを書いた、我々はより良い計画を持っている場合、交換を歓迎し、単一の喜びは多くの喜びではなく、この記事はここで、私はあなたを助けることを願っています。

一般的に、テクノロジーは無実ですが、テクノロジーを使用して他人のプライバシーやビジネスデータをクロールすると、法律を軽蔑していることになります。

Keep Exploring

延伸阅读

更多文章
同分类 / 同标签 2026/04/22

バージョン別の. NETサポート状況(250 7 0 7更新)

仮想マシンとテストマシンを使用して、各バージョンのオペレーティングシステムの. NETサポートをテストします。オペレーティングシステムのインストール後、対応するランタイムを測定し、スターダストエージェントをパスとして実行できます。

继续阅读