• 歡迎訪問奇跡の海網站,本站不上傳任何資源,所有資源均來自于網絡,歡迎加入奇跡の海~!奇跡の海-WordPress QQ群
  • 本站下載資源為網絡上收集整理而來,并且以計算機技術研究交流為目的,版權歸原作者所有,僅供大家參考,學習,不存在任何商業目的與商業用途.
  • 本站系統鏡像均來自于官方原版,ed2k可視為P2P下載鏈接。所有操作系統默認均為試用版,如有正版密鑰可以有效激活,本站不提供任何激活和相關服務。

HTTrack Website Copier 工具與使用指南(圖文)

軟件教程 奇跡の海 2年前 (2017-11-13) 1169次瀏覽 已收錄 0個評論 掃描二維碼

HTTrack工具介紹

HTTrack是一個網站鏡像工具,本來是用來抓取網站做離線瀏覽用的。但是HTTrack的爬蟲特性和搜索引擎蜘蛛爬蟲非常的像,這也逐漸應用到 SEO(搜索引擎優化)工作中。其實這兩種看似不同的爬蟲做的都是同樣的工作,就是復制網站并存儲下來(網站在搜索引擎中的網頁快照就是被存儲下來的內容)。

HTTrack Website Copier界面如下圖所示:

HTTrack Website Copier 工具與使用指南(圖文)

我們一般用 HTTrack Website Copier 來對網站進行檢測或測試,模擬爬蟲對受保護服務的爬行、抓取、收錄,以來測試我們的防護設備對爬蟲的防護。

HTTrack工具使用

第一步:創立項目的名稱(工程名)

第二步:選擇操作方式,再點擊“添加URL”,將我們的網站地址添加進去。
HTTrack Website Copier 工具與使用指南(圖文)
第三步:進入“選項”,設定爬行和抓取規則等選項
HTTrack Website Copier 工具與使用指南(圖文)
在選項中,取消使用代理進行FTP傳輸;
進入“掃描規則”,為HTTrack程序設定爬行和抓取規則,HTTrack里面自帶了一些,可以自己設置,也可以默認。
HTTrack Website Copier 工具與使用指南(圖文)
這樣的掃描規則搜索引擎也一定會有的,比如不收錄.exe文件,zip文件等等。然后不收錄一些特定的跟蹤鏈接, 如 ad.doubleclick.net 。你需要把一些搜索引擎爬蟲不收錄的特征加進去。

然后在“搜尋”里面,很多的特征都是現在搜索引擎爬蟲的特征:
HTTrack Website Copier 工具與使用指南(圖文)
一般的搜索引擎不會接收cookies,因此測試時我們也將此項去掉。
第四步:一般按照以上設置就可以,其他的默認就行。點擊下一步:
HTTrack Website Copier 工具與使用指南(圖文)
在此頁面,我們不用選擇任何項,直接點擊完成就可以進行測試了,如下圖
HTTrack Website Copier 工具與使用指南(圖文)
此時,HTTrack開始對網頁進行爬行,抓取。


版權聲明:本站所有文章和資源使用CC BY-NC-SA 4.0協議授權發布 , 轉載應當以相同方式注明文章來自“SeaOMC.COM->HTTrack Website Copier 工具與使用指南(圖文)!在下邊可以分享本文哦!
喜歡 (0)
[]
分享 (0)
奇跡の海
關于作者:
一個WordPress菜鳥!
發表我的評論
取消評論

表情 貼圖 加粗 刪除線 居中 斜體 簽到

Hi,您需要填寫昵稱和郵箱!

  • 昵稱 (必填)
  • 郵箱 (必填)
  • 網址
中国福利彩票36选7开奖结果