python微博爬虫脚本分享

#推荐
python微博爬虫脚本分享

2026-03-17 2
[!--dianshu--] C币
VIP折扣
    折扣详情
  • 体验VIP会员

    免费

  • 月卡VIP会员

    免费

  • 年卡VIP会员

    免费

  • 永久VIP会员

    免费

查看演示
下载不了?请联系网站客服提交链接错误!
TAG标签: 安装指导

#推荐
python微博爬虫脚本分享

2026-03-17 php教程 9999 2
郑重承诺丨总裁主题提供安全交易、信息保真!
TAG标签:
安装指导
[!--dianshu--] C币
VIP权限详情
    会员权限详情
  • 体验VIP会员

    免费

  • 月卡VIP会员

    免费

  • 年卡VIP会员

    免费

  • 永久VIP会员

    免费

开通VIP尊享优惠特权
立即下载 等待添加 升级会员 最新活动
微信扫码咨询 微信扫码咨询

联系电话:18888888888

进入TA的商铺 联系官方客服
详情介绍

欢迎!我白天是个邮递员,晚上就是个有抱负的演员。这是我的网站。我住在天朝的帝都,有条叫做Jack的狗。

python微博爬虫脚本,输入关键词,调整爬取的博文时间,即可运行使用

需要自己去获取自己账号的Cookies, 放到写好的cookies位置

import datetimeimport jsonimport randomimport reimport timeimport tracebackimport pymysqlimport requestsfrom lxml import etreeimport urllib3import openpyxlurllib3.disable_warnings()import random# 标识头user_agents = [    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36",    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 ",    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36",    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60",    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36",    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36",    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36",    "Opera/12.80 (Windows NT 5.1; U; en) Presto/2.10.289 Version/12.02",]headers = {    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',    'Accept-Encoding': 'gzip, deflate',    'Accept-Language': 'zh-CN,zh;q=0.9',    # 'Cache-Control': 'no-cache',    # 'Connection': 'keep-alive',    # 'referer': 'https://www.google.com/',    # 'Upgrade-Insecure-Requests': '1',    'User-Agent': random.choice(user_agents)}# 获取当前的Urldef get_html(url):    num = 0    while True:        num += 1        try:            print("当前请求url:", url)            time.sleep(2)            headers[                'cookie'] = '这里需要你的账号的cookies'            response = requests.get(url, headers=headers, timeout=10, verify=False, proxies='')            if response.status_code == 200:                return response            elif response.status_code == 404:                return ''            else:                print('请求响应吗错误: {}  请求url{}  重新请求'.format(response.status_code, url))        except Exception as e:            print("等待代{过}{滤}理更新")            time.sleep(10)            pass# 编码def decodeContent(html):    import cchardet as chardet    gbk_list = ["gb2312", "GB2312", "GBK", "GB18030"]    if isinstance(html, bytes):        char = chardet.detect(html)        confidence = char['confidence']        if "encoding" in char and confidence > 0.7:            items = [char["encoding"]]        else:            items = re.compile(r'charset=([^\'\"]*?)[\'\"/\s]*?>').findall(str(html))            if not items:                items = re.compile(r'charset=[\'\"](.*?)[\'\"]').findall(str(html))            if not items:                items = re.compile(r'charset=(.*?)[\'\"]').findall(str(html))        if items:            charset = 'gbk' if items[0] in gbk_list else items[0]            try:                res = html.decode(charset)            except Exception as e:                if charset == 'gbk':                    try:                        res = html.decode('gbk', 'ignore')                    except Exception as e:                        res = ""                else:                    try:                        res = html.decode('utf-8', 'ignore')                    except Exception as e:                        res = ""        else:            try:                res = html.decode('utf-8')            except Exception as e:                try:                    res = html.decode('gbk')                except Exception as e:                    try:                        res = html.decode('utf-8', 'ignore')                    except Exception as e:                        res = ""        return res    return html# 提取网页内容, 并存储到工作簿中wb = openpyxl.Workbook()ws = wb.activews.title = 'Sheet1'ws.append((["content"]))def comment_info(res,keyword):    try:        contents_lis = res.xpath(            '//div[@id="pl_feedlist_index"]/div[2]//div[@class="card-wrap"]//div[@class="content"]')        digg = res.xpath('//div[@id="pl_feedlist_index"]/div[2]//div[@class="card-wrap"]//div[@class="card-act"]')        user_lis = res.xpath('//div[@id="pl_feedlist_index"]/div[2]//div[@class="card-wrap"]//div[@class="avator"]')        print(len(contents_lis))        for index, i in enumerate(contents_lis):            try:                content = ''.join(i.xpath('p[@node-type="feed_list_content"]//text()')).replace("\n",'').strip()                print("@@@@@@@@@@@@@@", content)                result_list = [content]                ws.append((result_list))                wb.save('weibo_info.xlsx')            except:                traceback.print_exc()    except:        pass# 时间表示def time_end_start(i, start_time):    aaa = datetime.datetime.strptime(start_time, '%Y-%m-%d')    threeDayAgo = (aaa + datetime.timedelta(days=i))    threeDayAgosss = (threeDayAgo - datetime.timedelta(days=1))    return threeDayAgo, threeDayAgosss# 程序进程def run(lkll):    # 关键词    lis = [lkll]    # 开始时间结束时间    start_time = "2021-01-01"    end_time = "2022-01-01"    d1 = datetime.datetime.strptime(start_time, '%Y-%m-%d')    d2 = datetime.datetime.strptime(end_time, '%Y-%m-%d')    delta = d2 - d1    ccc = delta.days    print(ccc)    for i in range(0, int(ccc) + 1):        tim, threeDayAgosss = time_end_start(i, start_time)        tim = str(tim).replace("00:00:00", "").replace(" ", "")        threeDayAgosss = str(threeDayAgosss).replace("00:00:00", "").replace(" ", "")        print(tim)        if tim:            for j in lis:                print(tim, threeDayAgosss,j)                get_page(tim, threeDayAgosss, j)        else:            time.sleep(60)# 通过给定信息获取Urldef get_page(tim, threeDayAgosss, j):    page = 1    while True:        try:            print("________________当前第{}页_______________".format(page))            url = 'https://s.weibo.com/weibo?q={}&typeall=1&suball=1×cope=custom:{}:{}&Refer=g&page={}'.format(j,                                                                                                                    threeDayAgosss + '-0',                                                                                                                    tim + '-0',                                                                                                                    page)            print("############", url)            res = get_html(url)            res = etree.HTML(res.text)            comment_info(res,j)            pagss = ''.join(res.xpath("//div[@class='m-page']/div/span/ul/li[last()]//text()"))            print("!!!!!!!", pagss)            pages = pagss.replace("第", '').replace("页", '')            print(pages)            if pages:                if page < int(pages):                    page += 1                else:                    break            else:                break        except:            print("微博cookie失效,请更换cookie")            traceback.print_exc()# 程序入口if __name__ == '__main__':    lkll = input("请输入关键词:")    run(lkll)

下载地址
  • 提取密码
  • 1561
  • 解压密码
  • DWQwdewq
    立即免费下载
    python微博爬虫脚本分享
收藏 (15) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 ()

所有文章为演示数据,不提供下载地址,版权归原作者所有,仅提供演示效果!

CMS主题网 php教程 python微博爬虫脚本分享 /showinfo-48-128-0.html

我们只做高端Wordpress主题开发!

常见问题
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情
  • 最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用
查看详情

相关文章

帝国CMS二次开发 函数文件      PRinterror()/e/class/connect.phpline 132query()/e/class/db_sql.php line 10fetch1()/e/class/db_sql.php line 30fetch()/e/class/db_sql.php line 22checklevel()/e/class/functions.php line 3414insert_dolog()/e/class/functions.php line 3...
#推荐
2026-03-17 14 C币
帝国CMS8.0父子信息调用方      帝国CMS8.0版新增父子信息功能,让一条信息也能成为一个信息、一个栏目、一个专题、甚至一个网站。本文共有四个部分:一、父子信息功能使用流程。二、调用子信息:可以用索引灵动标签调用。三、父子信息列表访问地址的语法说明。四、进阶:调用当前父子信息...
#推荐
2026-03-17 4 C币
帝国CMS判断当前数据库是      有时候我们需要判断数据库是否包含某字段,就可以使用下面这段SQL语法,$fr=$empire-&gt;fetch1(&quot;SELECT COUNT(*) AS column_exists FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = &amp;#39;$infotb&amp;#39; AND COLUMN_NAME = &amp;#39;money&amp;#39;&quot;);if($fr[&amp;...
#推荐
2026-03-17 4 C币
Python开发一个ChatGPT GU      1、首先去下载这个ChatGPT库,用到的库是这个:https://github.com/acheong08/ChatGPT2、安装这个ChatGPT库:pip3 install revChatGPT==0.0.a423、同目录还需要一个“config.json”:{    &quot;session_token&quot;: &quot;&quot;,    &quot;cf_clearance&quot;: &quot;&quot;,    &quot;user_agent&quot;: &quot;
#推荐
2026-03-17 4 C币
使用CSS Grid Generator拖      如果你是CSS小白,不会使用复杂的UI框架,又需要开发一个响应式网站,那么我的站长站推荐你使用CSS Grid Generator,直接拖拽网格,就可以立即生成响应式CSS代码,复制到自己项目即可使用。使用方法1、首先根据你的项目需求,生成指定的列数和网格数量2、然后拖到...
#推荐
2026-03-17 3 C币
Playwright闲鱼智能监控机      项目介绍Playwright闲鱼智能监控机器人项目,基于 Playwright 和AI过滤分析的闲鱼多任务实时监控与智能分析工具,配备了功能完善的 Web 管理界面。可以实时按规则抓取闲鱼商品,垃圾佬的最爱。闲鱼智能监控机器人:https://github.com/dingyufei615/ai-goof...
#推荐
2026-03-17 3 C币
过年给网站加一对灯笼CSS      马上快过年了,给网站加一对红灯笼,这样才有过年的喜庆劲儿。灯笼是代码生成的无需图片,而且还会摆动。使用方法把HTML下面代码粘贴到网页BODY内任意位子都可以。灯笼的位子可以微调.deng-box的left和right数值。CSS代码&lt;!-- 灯笼代码 --&gt;&lt;div class=&quot;de...
#推荐
2026-03-17 3 C币
ajax上传文件进度条功能示      ajax上传文件时,有时比较耗时,需要在界面上显示下进度信息,获取ajaxSettings中的xhr对象,为它的upload属性绑定progress事件的处理函数前端代码&lt;!DOCTYPE html&gt;&lt;html&gt;&lt;head&gt;&lt;meta charset=&quot;utf8&quot;&gt;&lt;title&gt;test upload&lt;/title&gt;&lt;!--jquery--&gt;&lt;script src=&quot;h...
#推荐
2026-03-17 3 C币