與我們合作
我們專注:網(wǎng)站策劃設(shè)計(jì)、網(wǎng)絡(luò)輿論監(jiān)控、網(wǎng)站優(yōu)化及網(wǎng)站營(yíng)銷、品牌策略與設(shè)計(jì)
主營(yíng)業(yè)務(wù):網(wǎng)站建設(shè)、移動(dòng)端微信小程序開發(fā)、APP開發(fā)、網(wǎng)絡(luò)運(yùn)營(yíng)、云產(chǎn)品·運(yùn)維解決方案
有一個(gè)品牌項(xiàng)目想和我們談?wù)剢?
您可以填寫右邊的表格,讓我們了解您的項(xiàng)目需求,這是一個(gè)良好的開始,我們將會(huì)盡快與您取得聯(lián)系。當(dāng)然也歡迎您給我們寫信或是打電話,讓我們聽到您的聲音
您也可通過下列途徑與我們?nèi)〉寐?lián)系:
地 址: 上海市長(zhǎng)寧區(qū)華寧國(guó)際7L
電 話: 400-825-2717(咨詢專線)
電 話: 13054973230(售后客戶服務(wù))
網(wǎng) 址: http://www.njgqt.org.cn
傳 真: 021-61488448
郵 箱: admin@wumujituan.com
快速提交您的需求 ↓
網(wǎng)站采集教程-采集馬蜂窩
發(fā)布日期:2024-01-07 瀏覽次數(shù):38448
其一:馬蜂窩采用了“加速樂”SCDN,這個(gè)CDN厲害之處在利用爬蟲腳本非瀏覽器特性,利用了IP->http 521->cookie:__jsluid_s->http 521 ->cookie:__jsl_clearance_s->cookie: __jsluid_s+ __jsl_clearance_s->http 200
其二:__jsluid_s又是IP+瀏覽器關(guān)系,換了IP會(huì)導(dǎo)致__jsl_clearance_s失效,繼續(xù)http頭部報(bào)521
其三:__jsl_clearance_s,他有時(shí)效性,目前估算是45分鐘,也就是意味著,45分鐘后,必須重新獲取到最新的且有效的值
其四:SCDN,還有請(qǐng)求訪問頻率限制(根據(jù)IP),超出qps頻率,IP直接被封30分鐘,http頭部返回403拒絕。
其五:馬蜂窩部分業(yè)務(wù),最多讓你前25頁(yè)的數(shù)據(jù),就算原則游10000多頁(yè),但也只能讓拿到前25頁(yè)數(shù)據(jù)
那么怎么解決呢?
【有錢人的方案】
采用python+v8擴(kuò)展,可以參考另外大神 分析過程 https://blog.csdn.net/YungGuo/article/details/109818327,以及代碼樣本 https://github.com/YungGuo08/WebSpider/tree/master/cookie_analysis/1
IP呢? 免費(fèi)的http代理不靠譜,花錢找一個(gè)服務(wù)商提供代理池,你得同時(shí)要解決每個(gè)IP應(yīng)該需要爬取多少個(gè)http請(qǐng)求,不然會(huì)進(jìn)入403被封IP的禁地
【窮人的方案】
PC+chrome+F12,手動(dòng)抓取__jsluid_s + __jsl_clearance_s,
如果出現(xiàn)403,讓爬蟲等待30分鐘,接著干活
對(duì)于我本人,哈哈,當(dāng)然屬于窮人一列了。
本站僅提供存儲(chǔ)功能,如果文章侵犯了您的權(quán)益,請(qǐng)隨時(shí)聯(lián)系我么。

