我要投稿

#推荐

python微博爬虫脚本分享

QQ9350

2026-03-17 2

[!--dianshu--] C币

VIP折扣

折扣详情

体验VIP会员
免费
月卡VIP会员
免费
年卡VIP会员
免费
永久VIP会员
免费

立即购买

升级会员

查看演示

下载不了？请联系网站客服提交链接错误！

TAG标签：安装指导

最近更新 2026-03-17

资源编号 128

当前信息若含有黄赌毒等违法违规不良内容，请点此举报！

#推荐

python微博爬虫脚本分享

QQ9350

2026-03-17 php教程 9999 2

郑重承诺丨总裁主题提供安全交易、信息保真!

升级会员

TAG标签：

安装指导

[!--dianshu--] C币

VIP权限详情

会员权限详情

体验VIP会员
免费
月卡VIP会员
免费
年卡VIP会员
免费
永久VIP会员
免费

开通VIP尊享优惠特权

立即下载等待添加升级会员最新活动

微信扫码咨询

QQ9350

联系电话：18888888888

联系Ta

进入TA的商铺联系官方客服

详情介绍
常见问题
相关文章
发表评论

立即咨询

详情介绍

欢迎！我白天是个邮递员，晚上就是个有抱负的演员。这是我的网站。我住在天朝的帝都，有条叫做Jack的狗。

python微博爬虫脚本，输入关键词，调整爬取的博文时间，即可运行使用

需要自己去获取自己账号的Cookies, 放到写好的cookies位置

import datetimeimport jsonimport randomimport reimport timeimport tracebackimport pymysqlimport requestsfrom lxml import etreeimport urllib3import openpyxlurllib3.disable_warnings()import random# 标识头user_agents = [ "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 ", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36", "Opera/12.80 (Windows NT 5.1; U; en) Presto/2.10.289 Version/12.02",]headers = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3', 'Accept-Encoding': 'gzip, deflate', 'Accept-Language': 'zh-CN,zh;q=0.9', # 'Cache-Control': 'no-cache', # 'Connection': 'keep-alive', # 'referer': 'https://www.google.com/', # 'Upgrade-Insecure-Requests': '1', 'User-Agent': random.choice(user_agents)}# 获取当前的Urldef get_html(url): num = 0 while True: num += 1 try: print("当前请求url:", url) time.sleep(2) headers[ 'cookie'] = '这里需要你的账号的cookies' response = requests.get(url, headers=headers, timeout=10, verify=False, proxies='') if response.status_code == 200: return response elif response.status_code == 404: return '' else: print('请求响应吗错误: {} 请求url{} 重新请求'.format(response.status_code, url)) except Exception as e: print("等待代{过}{滤}理更新") time.sleep(10) pass# 编码def decodeContent(html): import cchardet as chardet gbk_list = ["gb2312", "GB2312", "GBK", "GB18030"] if isinstance(html, bytes): char = chardet.detect(html) confidence = char['confidence'] if "encoding" in char and confidence > 0.7: items = [char["encoding"]] else: items = re.compile(r'charset=([^\'\"]*?)[\'\"/\s]*?>').findall(str(html)) if not items: items = re.compile(r'charset=[\'\"](.*?)[\'\"]').findall(str(html)) if not items: items = re.compile(r'charset=(.*?)[\'\"]').findall(str(html)) if items: charset = 'gbk' if items[0] in gbk_list else items[0] try: res = html.decode(charset) except Exception as e: if charset == 'gbk': try: res = html.decode('gbk', 'ignore') except Exception as e: res = "" else: try: res = html.decode('utf-8', 'ignore') except Exception as e: res = "" else: try: res = html.decode('utf-8') except Exception as e: try: res = html.decode('gbk') except Exception as e: try: res = html.decode('utf-8', 'ignore') except Exception as e: res = "" return res return html# 提取网页内容, 并存储到工作簿中wb = openpyxl.Workbook()ws = wb.activews.title = 'Sheet1'ws.append((["content"]))def comment_info(res,keyword): try: contents_lis = res.xpath( '//div[@id="pl_feedlist_index"]/div[2]//div[@class="card-wrap"]//div[@class="content"]') digg = res.xpath('//div[@id="pl_feedlist_index"]/div[2]//div[@class="card-wrap"]//div[@class="card-act"]') user_lis = res.xpath('//div[@id="pl_feedlist_index"]/div[2]//div[@class="card-wrap"]//div[@class="avator"]') print(len(contents_lis)) for index, i in enumerate(contents_lis): try: content = ''.join(i.xpath('p[@node-type="feed_list_content"]//text()')).replace("\n",'').strip() print("@@@@@@@@@@@@@@", content) result_list = [content] ws.append((result_list)) wb.save('weibo_info.xlsx') except: traceback.print_exc() except: pass# 时间表示def time_end_start(i, start_time): aaa = datetime.datetime.strptime(start_time, '%Y-%m-%d') threeDayAgo = (aaa + datetime.timedelta(days=i)) threeDayAgosss = (threeDayAgo - datetime.timedelta(days=1)) return threeDayAgo, threeDayAgosss# 程序进程def run(lkll): # 关键词 lis = [lkll] # 开始时间结束时间 start_time = "2021-01-01" end_time = "2022-01-01" d1 = datetime.datetime.strptime(start_time, '%Y-%m-%d') d2 = datetime.datetime.strptime(end_time, '%Y-%m-%d') delta = d2 - d1 ccc = delta.days print(ccc) for i in range(0, int(ccc) + 1): tim, threeDayAgosss = time_end_start(i, start_time) tim = str(tim).replace("00:00:00", "").replace(" ", "") threeDayAgosss = str(threeDayAgosss).replace("00:00:00", "").replace(" ", "") print(tim) if tim: for j in lis: print(tim, threeDayAgosss,j) get_page(tim, threeDayAgosss, j) else: time.sleep(60)# 通过给定信息获取Urldef get_page(tim, threeDayAgosss, j): page = 1 while True: try: print("________________当前第{}页_______________".format(page)) url = 'https://s.weibo.com/weibo?q={}&typeall=1&suball=1×cope=custom:{}:{}&Refer=g&page={}'.format(j, threeDayAgosss + '-0', tim + '-0', page) print("############", url) res = get_html(url) res = etree.HTML(res.text) comment_info(res,j) pagss = ''.join(res.xpath("//div[@class='m-page']/div/span/ul/li[last()]//text()")) print("！！！！！！！", pagss) pages = pagss.replace("第", '').replace("页", '') print(pages) if pages: if page < int(pages): page += 1 else: break else: break except: print("微博cookie失效,请更换cookie") traceback.print_exc()# 程序入口if __name__ == '__main__': lkll = input("请输入关键词:") run(lkll)

下载地址

提取密码

1561

解压密码

DWQwdewq

立即免费下载

python微博爬虫脚本分享

收藏 (15) 打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

所有文章为演示数据，不提供下载地址，版权归原作者所有，仅提供演示效果！

CMS主题网 php教程 python微博爬虫脚本分享 /showinfo-48-128-0.html

图片

总裁

我们只做高端Wordpress主题开发！

常见问题

免费下载或者VIP会员专享资源能否直接商用？

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。

查看详情

提示下载完成但无法解压？

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用

查看详情

帝国CMS二次开发函数文件 PRinterror()/e/class/connect.phpline 132query()/e/class/db_sql.php line 10fetch1()/e/class/db_sql.php line 30fetch()/e/class/db_sql.php line 22checklevel()/e/class/functions.php line 3414insert_dolog()/e/class/functions.php line 3...

php教程

#推荐

QQ9350

2026-03-17 14 C币

帝国CMS8.0父子信息调用方帝国CMS8.0版新增父子信息功能，让一条信息也能成为一个信息、一个栏目、一个专题、甚至一个网站。本文共有四个部分：一、父子信息功能使用流程。二、调用子信息：可以用索引灵动标签调用。三、父子信息列表访问地址的语法说明。四、进阶：调用当前父子信息...

php教程

#推荐

QQ9350

2026-03-17 4 C币

帝国CMS判断当前数据库是有时候我们需要判断数据库是否包含某字段，就可以使用下面这段SQL语法，$fr=$empire->fetch1("SELECT COUNT(*) AS column_exists FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = &#39;$infotb&#39; AND COLUMN_NAME = &#39;money&#39;");if($fr[&...

php教程

#推荐

QQ9350

2026-03-17 4 C币

Python开发一个ChatGPT GU 1、首先去下载这个ChatGPT库，用到的库是这个：https://github.com/acheong08/ChatGPT2、安装这个ChatGPT库：pip3 install revChatGPT==0.0.a423、同目录还需要一个“config.json”：{ "session_token": "", "cf_clearance": "", "user_agent": "

php教程

#推荐

QQ9350

2026-03-17 4 C币

使用CSS Grid Generator拖如果你是CSS小白，不会使用复杂的UI框架，又需要开发一个响应式网站，那么我的站长站推荐你使用CSS Grid Generator，直接拖拽网格，就可以立即生成响应式CSS代码，复制到自己项目即可使用。使用方法1、首先根据你的项目需求，生成指定的列数和网格数量2、然后拖到...

php教程

#推荐

QQ9350

2026-03-17 3 C币

Playwright闲鱼智能监控机项目介绍Playwright闲鱼智能监控机器人项目，基于 Playwright 和AI过滤分析的闲鱼多任务实时监控与智能分析工具，配备了功能完善的 Web 管理界面。可以实时按规则抓取闲鱼商品，垃圾佬的最爱。闲鱼智能监控机器人：https://github.com/dingyufei615/ai-goof...

php教程

#推荐

QQ9350

2026-03-17 3 C币

过年给网站加一对灯笼CSS 马上快过年了，给网站加一对红灯笼，这样才有过年的喜庆劲儿。灯笼是代码生成的无需图片，而且还会摆动。使用方法把HTML下面代码粘贴到网页BODY内任意位子都可以。灯笼的位子可以微调.deng-box的left和right数值。CSS代码<div class="de...

php教程

#推荐

QQ9350

2026-03-17 3 C币

ajax上传文件进度条功能示 ajax上传文件时，有时比较耗时，需要在界面上显示下进度信息，获取ajaxSettings中的xhr对象，为它的upload属性绑定progress事件的处理函数前端代码<!DOCTYPE html><html><head><meta charset="utf8"><title>test upload</title><script src="h...

php教程

#推荐

QQ9350

2026-03-17 3 C币

相关文章