笔记

枫
2022-12-28 / 1 评论 / 88 阅读 / 耗时 110ms / 正在检测是否收录...

笔记

  嗯嗯,记录一下学习心得知识点 |´・ω・)ノ
以及代码函数语法,单词 表情

读写文本内容(包括os文本操作)


with open('test.txt',mode='w',encoding='utf-8')as f:
    f.write('我只是个测试文件')
#创建一个文本,并写上内容
------------
f=open('test.txt',mode='r',encoding='utf-8')
print(f.read())
#读取文本里面的内容
------------
import os
os.remove('test.txt')
#删除文本文件

取当前时间

import datetime
time = datetime.datetime.now().strftime("%Y-%m-%d-%H_%M_%S.%f")[:-3]
#获取时间,精确到毫秒,需要导入模块
time.sleep(1)
#设置程序延时执行

取文件名字

name = url.split('/')[-1]
#获取url文件最后链接名称
name = url.split('?')[0] #url为目标内容
#去掉问号后面全部内容
name = ['json']['data']['title']
#取数据包文件名字

设置文字编码

encoding='utf8'
#编码成utf-8

for循环遍历

for i int range#for循环
    print(i)   #打印
for 变量 in [序号]:
    代码块
#演示示例

操作浏览器

# 1. 打开浏览器
driver = webdriver.Chrome()
# 2. 打开网站
driver.get('https://www.douyin.com/user/MS4wLjABAAAAMjakcpRQLr_ekMB_NMbYlWhA89MoYE16dfcz78P969c')

def drop_down():
    for x in range(1, 30, 4):
        time.sleep(1)
        j = x / 9
        js = 'document.documentElement.scrollTop=document.documentElement.scrollHeight * %f'%j
        driver.execute_script(js)

drop_down()
#打开网页,然后开始下滑

json取值

response = requests.get(url=url, headers=headers)
json_data = response.json()
data_list = json_data['linkData']
#取url数据json值,.text取网页html全部内容
import re
<p class="test">好久不见,刘礼雪</P> #re能直接取p标签里面的值
re = (<p class="test">"(.*?)"</p>)
#正则表达式(.*?)需要引用re库

re正则表达式和xpath

Test

re 正则表达式

data =data.xpath('//img[@class="pic"]')
#xpath 取值

info_list = re.findall('<dd><a href="(.*?)">(.*?)</a></dd>',data) #后面为传入数据
# re正则表达式,获取链接,小说标题
text = re.sub('[\\/:*?<>|\\n#@)\》\."\《(\r]','',text) #后面为传入数据
#re.sub 批量替换数据内容

text= re.findall('<div id="nr1">.*?</div>',res)[0]  
 # 正则表达式取小说内容
## replace 替换文本内容
text = title +'\n\n\n\n'+ text.replace('<div id="nr1"> 全本小说网 www.qb5.tw,最快更新<a href="https://www.qb5.tw/book_116659/">',' ').replace('&nbs... -->><br><center class="red">本章未完,点击下一页继续阅读</center>',' ').replace('新书上传,希望大家可以先收藏、推荐,正式连载将于5月20号。',' ').replace('本章未完,点击下一页继续阅读</center>',' ').replace(' -->><br><center class="red">','').replace('<br ... -->><br><center class="red">本章未完,点击下一页继续阅读</center>',' ').replace('<div id="nr1"> ','').replace('<br />','\n').replace('&nbsp;',' ').replace('每日更新:暂定每天上午10点左右一章、12点左右一章。 </div>',' ').replace(' <br><br>',' ').replace('宇宙职业选手</a>最新章节!<br><br> ','').replace('&nbsp;&nbsp;&nbsp;&nbsp;','').replace('</div>',' ').replace('...','\n\n\n\n')
# 正则表达式,替换不需要的内容(标签、广告、html标签)

len计算内容长度

len_num = len(feeds)
print('共下载',len_num,'个')
#读取数据包里面有多少个链接

保存写入

video_url = requests.get(url=data_url,headers=headers).content
with open('image/'+title+'.mp4',mode='wb')as f:
    f.write(video_url)

mode='a'#追加写入,可以用作小说
9

海报

正在生成.....

评论 (1)

取消
  1. 头像
    博主
    衡阳 ·Windows 10 · Google Chrome
    湖南省衡阳市 电信 湖南省 沙发

    这篇文章写的真不错,真详细,点个赞。

    Windows 10   Microsoft Edge  回复 删除 垃圾