介绍
无聊写的,批量爬取葫芦侠清凉一夏社区图片,爬取的是最新的图片链接( 爬取的是链接
)
想要爬取葫芦侠其他模块的,自己去葫芦侠模块抓包获取链接,放在下面url就好了
效果
笔记(知识点)
总结一下笔记
mode='a', encoding='utf-8'
#追加写入,可用作爬取小说、视频、m3u8,utf-8编码
mode='a',即追加(append)模式,mode=' r' #则为读(read).
-----------------------------
f.write('\n')
#写入换行
-----------------------------
for i in json:
img= i['images'] #取图片
title =i['title'] #取标题
for a in img:
print(a)
#遍历img里面所有的内容
代码
import requests
num =0
"""
想要爬取葫芦侠其他模块的,自己取葫芦侠模块抓包
获取链接,放在上面url就好了
"""
yeshu = int(input('你要爬取多少页?'))
for page in range(0,yeshu):
url=f'http://floor.huluxia.com/post/list/ANDROID/4.1.8?platform=2&gkey=000000&app_version=4.2.1.4&versioncode=358&market_id=tool_tencent&_key=D0CBD749E5A1DEB03FD6CA6429E41E5219895726826CD7BC44DA6CA62B585832B0250BB4AFD5D6B2D389C6E0483C2A19C708407148815CF7&device_code=%5Bd%5D6a308624-0e83-44b6-a56d-2b7020b4b33a&phone_brand_type=OP&start=&count={page*10}&cat_id=56&tag_id=0&sort_by=0'
data =requests.post(url).json() #post请求
json =data['posts'] #键值对取值
for i in json:
img= i['images'] #取图片
title =i['title'] #取标题
for a in img:
image =requests.post(url=a)
print(title,a) #打印输出
num += 1
with open(f'葫芦侠_美腿.txt', mode='a', encoding='utf-8',)as f: #保存路径,追加写入
f.write(a)
f.write('\n')
print('\n=============共爬取',num,'条链接=============')
评论 (0)