python爬蟲(chóng)用mongodb的原因:
1、文檔結(jié)構(gòu)的存儲(chǔ)方式
簡(jiǎn)單講就是可以直接存json,list
2、不要事先定義”表”,隨時(shí)可以創(chuàng)建
3、“表”中的數(shù)據(jù)長(zhǎng)度可以不一樣
也就是第一條記錄有10個(gè)值,第二條記錄不要規(guī)定也要10個(gè)值
對(duì)爬蟲(chóng)這種很亂的數(shù)據(jù)來(lái)說(shuō),很適用 。
內(nèi)容擴(kuò)展:
mongoDB介紹:
它的特點(diǎn)是高性能、易部署、易使用,存儲(chǔ)數(shù)據(jù)非常方便。主要功能特性有:
*面向集合存儲(chǔ),易存儲(chǔ)對(duì)象類型的數(shù)據(jù)。
*模式自由。
*支持動(dòng)態(tài)查詢。
*支持完全索引,包含內(nèi)部對(duì)象。
*支持查詢。
*支持復(fù)制和故障恢復(fù)。
*使用高效的二進(jìn)制數(shù)據(jù)存儲(chǔ),包括大型對(duì)象(如視頻等)。
*自動(dòng)處理碎片,以支持云計(jì)算層次的擴(kuò)展性。
*支持 Golang,RUBY,PYTHON,JAVA,C++,PHP,C#等多種語(yǔ)言。
*文件存儲(chǔ)格式為BSON(一種JSON的擴(kuò)展)。
*可通過(guò)網(wǎng)絡(luò)訪問(wèn)。