做爬蟲(chóng)不用說(shuō),就是用python就好,一個(gè)requests
包走天下。但是呢,聽(tīng)說(shuō)golang中內(nèi)置的http
包非常牛逼,咱就是說(shuō)不得整點(diǎn)活,也剛好學(xué)習(xí)學(xué)習(xí)新東西,復(fù)習(xí)下http協(xié)議的請(qǐng)求和響應(yīng)相關(guān)的知識(shí)點(diǎn)。話不多說(shuō),咱直接開(kāi)整
本文章爬下必應(yīng)壁紙先小試牛刀。狗頭保命 狗頭保命 狗頭保命
爬蟲(chóng)流程概述
graph TD 請(qǐng)求數(shù)據(jù) --> 解析數(shù)據(jù) --> 數(shù)據(jù)入庫(kù)
上圖的流程圖大家可以看到,其實(shí)爬蟲(chóng)并不麻煩,整個(gè)流程就只有三步而已。接下來(lái)具體聊聊每一步需要做什么
-
請(qǐng)求數(shù)據(jù):在這里我們需要使用golang中的內(nèi)置包http包向目標(biāo)地址發(fā)起請(qǐng)求,這一步就完成了
-
解析數(shù)據(jù):這里我們需要對(duì)請(qǐng)求到的數(shù)據(jù)進(jìn)行解析,因?yàn)椴皇钦麄€(gè)請(qǐng)求到的數(shù)據(jù)我們都需要,我們只需要某些具體的關(guān)鍵的數(shù)據(jù)而已。這一步也叫數(shù)據(jù)清洗
-
數(shù)據(jù)入庫(kù):不難理解,這就是將解析好的數(shù)據(jù)進(jìn)行入庫(kù)操作
實(shí)戰(zhàn)分析
先到必應(yīng)壁紙官網(wǎng)上觀察,做爬蟲(chóng)的話是需要對(duì)數(shù)據(jù)特別敏感的。這是首頁(yè)信息,整個(gè)頁(yè)面是非常簡(jiǎn)潔的
接下來(lái),需要調(diào)出瀏覽器的開(kāi)發(fā)者工具(這個(gè)大家應(yīng)該都非常熟悉吧,不熟悉的話很難跟下去的喔)。直接按下F12
或者右鍵點(diǎn)擊檢查但是呢?在必應(yīng)壁紙上,右鍵不能調(diào)用控制臺(tái),只能手動(dòng)調(diào)出了。大家不用擔(dān)心,按照第一張圖操作就好。如果有同學(xué)的chrome是中文的,也是一樣的操作,選擇