笔记
嗯嗯,记录一下学习心得知识点 |´・ω・)ノ
以及代码函数语法,单词
读写文本内容(包括os文本操作)
with open('test.txt',mode='w',encoding='utf-8')as f:
f.write('我只是个测试文件')
#创建一个文本,并写上内容
------------
f=open('test.txt',mode='r',encoding='utf-8')
print(f.read())
#读取文本里面的内容
------------
import os
os.remove('test.txt')
#删除文本文件
取当前时间
import datetime
time = datetime.datetime.now().strftime("%Y-%m-%d-%H_%M_%S.%f")[:-3]
#获取时间,精确到毫秒,需要导入模块
time.sleep(1)
#设置程序延时执行
取文件名字
name = url.split('/')[-1]
#获取url文件最后链接名称
name = url.split('?')[0] #url为目标内容
#去掉问号后面全部内容
name = ['json']['data']['title']
#取数据包文件名字
设置文字编码
encoding='utf8'
#编码成utf-8
for循环遍历
for i int range#for循环
print(i) #打印
for 变量 in [序号]:
代码块
#演示示例
操作浏览器
# 1. 打开浏览器
driver = webdriver.Chrome()
# 2. 打开网站
driver.get('https://www.douyin.com/user/MS4wLjABAAAAMjakcpRQLr_ekMB_NMbYlWhA89MoYE16dfcz78P969c')
def drop_down():
for x in range(1, 30, 4):
time.sleep(1)
j = x / 9
js = 'document.documentElement.scrollTop=document.documentElement.scrollHeight * %f'%j
driver.execute_script(js)
drop_down()
#打开网页,然后开始下滑
json取值
response = requests.get(url=url, headers=headers)
json_data = response.json()
data_list = json_data['linkData']
#取url数据json值,.text取网页html全部内容
import re
<p class="test">好久不见,刘礼雪</P> #re能直接取p标签里面的值
re = (<p class="test">"(.*?)"</p>)
#正则表达式(.*?)需要引用re库
re正则表达式和xpath
re 正则表达式
data =data.xpath('//img[@class="pic"]')
#xpath 取值
info_list = re.findall('<dd><a href="(.*?)">(.*?)</a></dd>',data) #后面为传入数据
# re正则表达式,获取链接,小说标题
text = re.sub('[\\/:*?<>|\\n#@)\》\."\《(\r]','',text) #后面为传入数据
#re.sub 批量替换数据内容
text= re.findall('<div id="nr1">.*?</div>',res)[0]
# 正则表达式取小说内容
## replace 替换文本内容
text = title +'\n\n\n\n'+ text.replace('<div id="nr1"> 全本小说网 www.qb5.tw,最快更新<a href="https://www.qb5.tw/book_116659/">',' ').replace('&nbs... -->><br><center class="red">本章未完,点击下一页继续阅读</center>',' ').replace('新书上传,希望大家可以先收藏、推荐,正式连载将于5月20号。',' ').replace('本章未完,点击下一页继续阅读</center>',' ').replace(' -->><br><center class="red">','').replace('<br ... -->><br><center class="red">本章未完,点击下一页继续阅读</center>',' ').replace('<div id="nr1"> ','').replace('<br />','\n').replace(' ',' ').replace('每日更新:暂定每天上午10点左右一章、12点左右一章。 </div>',' ').replace(' <br><br>',' ').replace('宇宙职业选手</a>最新章节!<br><br> ','').replace(' ','').replace('</div>',' ').replace('...','\n\n\n\n')
# 正则表达式,替换不需要的内容(标签、广告、html标签)
len计算内容长度
len_num = len(feeds)
print('共下载',len_num,'个')
#读取数据包里面有多少个链接
保存写入
video_url = requests.get(url=data_url,headers=headers).content
with open('image/'+title+'.mp4',mode='wb')as f:
f.write(video_url)
mode='a'#追加写入,可以用作小说
这篇文章写的真不错,真详细,点个赞。