原创力文库Python爬虫下载源码

#推荐
原创力文库Python爬虫下载源码

2026-03-17 2
[!--dianshu--] C币
VIP折扣
    折扣详情
  • 体验VIP会员

    免费

  • 月卡VIP会员

    免费

  • 年卡VIP会员

    免费

  • 永久VIP会员

    免费

查看演示
下载不了?请联系网站客服提交链接错误!
TAG标签: 安装指导

#推荐
原创力文库Python爬虫下载源码

2026-03-17 php教程 9999 2
郑重承诺丨总裁主题提供安全交易、信息保真!
TAG标签:
安装指导
[!--dianshu--] C币
VIP权限详情
    会员权限详情
  • 体验VIP会员

    免费

  • 月卡VIP会员

    免费

  • 年卡VIP会员

    免费

  • 永久VIP会员

    免费

开通VIP尊享优惠特权
立即下载 等待添加 升级会员 最新活动
微信扫码咨询 微信扫码咨询

联系电话:18888888888

进入TA的商铺 联系官方客服
详情介绍

欢迎!我白天是个邮递员,晚上就是个有抱负的演员。这是我的网站。我住在天朝的帝都,有条叫做Jack的狗。

# !/usr/bin/python# -*- coding: UTF-8 -*-import reimport jsonimport osimport shutilimport sysimport timeimport requestsimport img2pdffrom PIL import Image from alive_progress import alive_barfrom requests.exceptions import SSLError png_headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',    'Referer': 'https://max.book118.com/',}  def down_pngs(pageIndex):    print(pngs[pageIndex])    down_url = 'https://view-cache.book118.com' + pngs[pageIndex]    print(down_url)    res = requests.get(url=down_url)    try:        png = res.content        with open(os.path.join(temp_dir, str(pageIndex) + '.jpeg'), 'wb') as f:            f.write(png)    except:        return  logo = """                  __  __      _ _        /_@)_@) \          /^^\ /^\ /^^\_     _/oo \____/~''. . .  '~\       /'\''  ~ ''~~' -'\_    / '.'. ~.~.~.       .'    ~ |     /'\~~..''''.'' ''  ~\_   ('_'_'_'_'_'_'_'_  ' :   '     \_/' '.''  . '.   .''  '.  ~\_   ~V~V~V~V  \   ~\  '' '~  '   '' ~   `   ~  ''   ~\_     /\~/\~/\~/\~/|/  '   ''  _   ' ~ ''  '    ~  '' __  '  ..  \_  <-- --- ---.---.--/'   ''   /'  '\_ '' ': ~ ;;''    ' /''; \ ;'''''' '' ~\ _     \~ '. . : .:: ~. :.  /_'''_'' \_' :'''_ : _ ''/''_' '_ \:_ '''' #''..\/\/\/~/\~ ''~~~~~O ~~ \-~ `---~~~---- \(_)(_)(_)/ ~ ~~' ~\(_)(_)(_)\_~_~_~_~_~/&#732;¤1 ---------------------------------------------------------------------------------------------by:bean0283"""print(logo) while True:    url = input('请输入原创力文库url:')    url = url.split('?')[0]    print('下载地址:', url)    temp_dir = url.split('/')[-1]     # 删除老的临时文件夹并新建临时文件夹    if os.path.exists(temp_dir):        shutil.rmtree(temp_dir)    os.mkdir(temp_dir)     print('开始下载 HTML...', end='')     try:        response = requests.get(url=url)    except(SSLError):        print("\n\033[31m不要使用dai理软件-------\033[0m")        print("\033[31m请关闭dai理软件后重新运行程序\033[0m")        print("\033[31m请关闭vpn软件后重新运行程序\033[0m")        sys.exit(0)     page = response.text     print('成功. \n开始解析 HTML...', end='')     title = re.search('title: (.*),', page).group(1).replace("'", "")    view_token = re.search('view_token: (.*)\'', page).group(1).replace("'", "")    filetype = re.search('format: (.*)\'', page).group(1).replace("'", "")    senddate = re.search('senddate: (.*),', page).group(1).replace("'", "")    aid = re.search(' aid: (.*), //解密后的id', page).group(1)    actual_page = int(re.search('actual_page: (.*),', page).group(1))  # 真实页数    preview_page = int(re.search('preview_page: (.*),', page).group(1))  # 可预览页数     if actual_page > preview_page:        print("\n\033[31m该文档为限制文档,无法下载全部内容,请用vip+rmb,该问题无需反馈给开发者,他也不会解决!!\033[0m\n")     output = title  # 输出文件(夹)    print('解析成功. ')    print('文档标题: ', title)    # 接口每次会返回6个下载page地址    list_pn = list(range(1, preview_page + 1, 6))     # print(pngs)    if filetype == 'pdf':        pngs = {}        print('解析到pdf文档, 准备开始解析下载..', end='')        print('解析成功.\n正在获取pngs下载地址...')        print('受接口限制,2s访问一次,请耐心等待所有接口信息返回')         with alive_bar(len(list_pn), title='ing...') as bar:            for pn in list_pn:                bar()                down_page_url = 'https://openapi.book118.com/getPreview.html?project_id=1&aid={}&view_token={}&page={}&_={}'.format(                    aid, view_token, pn, str(int(time.time())))                jsonpReturn = requests.get(url=down_page_url)                page = re.search('jsonpReturn\((.*)\)', jsonpReturn.text).group(1)                data_temp = json.loads(page)['data']                # print(data_temp)                pngs.update({x: data_temp[x] for x in data_temp})  # 这里有个bug,若返回值的url为空时,这里不会报错,但会造成下载png时异常,暂时没有考虑处理                if pn != list_pn[-1]:                    time.sleep(2)         print('\n开始下载 jpg(s)...')        pagenums = list(range(1, len(pngs) + 1))         with alive_bar(len(pagenums), title='ing...') as bar:            for i in range(len(pagenums)):                bar()                down_url = "https:" + pngs[str(i + 1)]                request = requests.get(url=down_url, headers=png_headers)                try:                    page = request.content                    with open(os.path.join(temp_dir, str(pagenums[i]) + '.jpeg'), 'wb') as f:                        f.write(page)                except:                    continue         print('\n开始合并图片成PDF...', end='')         file_imgs = [os.path.join(temp_dir, str(i) + '.jpeg') for i in pagenums]        # 不用以下代码会使img2pdf报错        for img_path in file_imgs:            with open(img_path, 'rb') as data:                img = Image.open(data)                # 将PNG中RGBA属性变为RGB,即可删掉alpha透明度通道                img.convert('RGB').save(img_path)         with open(output + '.pdf', 'wb') as f:            f.write(img2pdf.convert(file_imgs))         shutil.rmtree(temp_dir)         print('下载成功.')        print('保存到 ' + output + '.pdf')    elif filetype in ['docx', 'doc']:        pngs = {}        print('解析到{}文档, 准备开始解析下载..'.format(filetype), end='')        print('解析成功.\n正在获取pngs下载地址...')        print('受接口限制,2s访问一次,请耐心等待所有接口信息返回')        with alive_bar(len(list_pn), title='ing...') as bar:            for pn in list_pn:                 down_page_url = 'https://openapi.book118.com/getPreview.html?&project_id=1&aid={}&t={}&view_token={}&page={}&_={}'.format(                    aid, senddate, view_token, pn, str(int(time.time())))                jsonpReturn = requests.get(url=down_page_url)                 page = re.search('jsonpReturn\((.*)\)', jsonpReturn.text).group(1)                data_temp = json.loads(page)['data']                # print(data_temp)                bar()                pngs.update({x: data_temp[x] for x in data_temp})                if pn != list_pn[-1]:                    time.sleep(2)         print('\n开始下载 jpg(s)...')        pagenums = list(range(1, len(pngs) + 1))         with alive_bar(len(pagenums), title='ing...') as bar:            for i in range(len(pagenums)):                down_url = "https:" + pngs[str(i + 1)]                request = requests.get(url=down_url, headers=png_headers)                bar()                try:                    page = request.content                    with open(os.path.join(temp_dir, str(pagenums[i]) + '.jpeg'), 'wb') as f:                        f.write(page)                except:                    continue         print('\n开始合并图片成PDF...', end='')         file_imgs = [os.path.join(temp_dir, str(i) + '.jpeg') for i in pagenums]        for img_path in file_imgs:            with open(img_path, 'rb') as data:                img = Image.open(data)                # 将PNG中RGBA属性变为RGB,即可删掉alpha透明度通道                img.convert('RGB').save(img_path)         with open(output + '.pdf', 'wb') as f:            f.write(img2pdf.convert(file_imgs))         shutil.rmtree(temp_dir)         print('下载成功.')        print('保存到 ' + output + '.pdf')     else:        print('不支持的参数.文件类型:', filetype)     temp_ = os.path.realpath(sys.argv[0])    os.startfile(os.path.dirname(temp_))    print("执行完成,继续下载请黏贴url,结束请关闭窗口\n")

下载地址
  • 提取密码
  • 1561
  • 解压密码
  • DWQwdewq
    立即免费下载
    原创力文库Python爬虫下载源码
收藏 (15) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 ()

所有文章为演示数据,不提供下载地址,版权归原作者所有,仅提供演示效果!

CMS主题网 php教程 原创力文库Python爬虫下载源码 /showinfo-48-97-0.html

我们只做高端Wordpress主题开发!

常见问题
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情
  • 最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用
查看详情

相关文章

帝国CMS二次开发 函数文件      PRinterror()/e/class/connect.phpline 132query()/e/class/db_sql.php line 10fetch1()/e/class/db_sql.php line 30fetch()/e/class/db_sql.php line 22checklevel()/e/class/functions.php line 3414insert_dolog()/e/class/functions.php line 3...
#推荐
2026-03-17 14 C币
帝国CMS8.0父子信息调用方      帝国CMS8.0版新增父子信息功能,让一条信息也能成为一个信息、一个栏目、一个专题、甚至一个网站。本文共有四个部分:一、父子信息功能使用流程。二、调用子信息:可以用索引灵动标签调用。三、父子信息列表访问地址的语法说明。四、进阶:调用当前父子信息...
#推荐
2026-03-17 4 C币
帝国CMS判断当前数据库是      有时候我们需要判断数据库是否包含某字段,就可以使用下面这段SQL语法,$fr=$empire-&gt;fetch1(&quot;SELECT COUNT(*) AS column_exists FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = &amp;#39;$infotb&amp;#39; AND COLUMN_NAME = &amp;#39;money&amp;#39;&quot;);if($fr[&amp;...
#推荐
2026-03-17 4 C币
Python开发一个ChatGPT GU      1、首先去下载这个ChatGPT库,用到的库是这个:https://github.com/acheong08/ChatGPT2、安装这个ChatGPT库:pip3 install revChatGPT==0.0.a423、同目录还需要一个“config.json”:{    &quot;session_token&quot;: &quot;&quot;,    &quot;cf_clearance&quot;: &quot;&quot;,    &quot;user_agent&quot;: &quot;
#推荐
2026-03-17 4 C币
使用CSS Grid Generator拖      如果你是CSS小白,不会使用复杂的UI框架,又需要开发一个响应式网站,那么我的站长站推荐你使用CSS Grid Generator,直接拖拽网格,就可以立即生成响应式CSS代码,复制到自己项目即可使用。使用方法1、首先根据你的项目需求,生成指定的列数和网格数量2、然后拖到...
#推荐
2026-03-17 3 C币
Playwright闲鱼智能监控机      项目介绍Playwright闲鱼智能监控机器人项目,基于 Playwright 和AI过滤分析的闲鱼多任务实时监控与智能分析工具,配备了功能完善的 Web 管理界面。可以实时按规则抓取闲鱼商品,垃圾佬的最爱。闲鱼智能监控机器人:https://github.com/dingyufei615/ai-goof...
#推荐
2026-03-17 3 C币
过年给网站加一对灯笼CSS      马上快过年了,给网站加一对红灯笼,这样才有过年的喜庆劲儿。灯笼是代码生成的无需图片,而且还会摆动。使用方法把HTML下面代码粘贴到网页BODY内任意位子都可以。灯笼的位子可以微调.deng-box的left和right数值。CSS代码&lt;!-- 灯笼代码 --&gt;&lt;div class=&quot;de...
#推荐
2026-03-17 3 C币
ajax上传文件进度条功能示      ajax上传文件时,有时比较耗时,需要在界面上显示下进度信息,获取ajaxSettings中的xhr对象,为它的upload属性绑定progress事件的处理函数前端代码&lt;!DOCTYPE html&gt;&lt;html&gt;&lt;head&gt;&lt;meta charset=&quot;utf8&quot;&gt;&lt;title&gt;test upload&lt;/title&gt;&lt;!--jquery--&gt;&lt;script src=&quot;h...
#推荐
2026-03-17 3 C币