前言
AI编程航海群聊看不到不少圈友在实践AI爬虫跑完了手册两个实战之后,自己想尝试让AI写个程序跑个爬虫却总是遇到各种报错问题。详细查看了下,大部分都是没找到定位到元素的问题。
作为本期志愿者,我想做一个分享,如何借助AI来爬虫,而不是在Python基础语法当中迷茫找不到方向。我认为用好AI,是可以边学习Python语法边去实践爬虫和RPA的。
需求分析
首先,建议使用 ChatGPT4o 或 ChatGPT4,尽量不要使用其他AI工具来提问代码,目前提问代码相关的问题,我个人觉得 GPT4 是最准确的。
接下来以爬虫B站视频标题来举例说明。
我们想要去爬一个网站数据,首先要了解这个网站,B站可以不用登录简单浏览。
如果我们想爬取B站AI相关视频前100条内容,那要如何做呢?
我们把PY程序想象为人就行了,我们自己看100数据是不是一直刷?B站的话,还需要翻页。
人:刷B站,点击翻页。PY程序:看代码,点击翻页。
其实是一样的,只是PY程序看的是代码而已,它看的速度也比我们快多了。
实战演示
接下来我以无Python编程基础的方式演示一下如何爬取100条B站标题数据:
第一步 打开B站搜索AI
第二步 打开开发者模式
右键检查或打开F12,找到最左侧的这个选择元素的按钮(元素检查器),点击一下。然后鼠标移动到第一个视频的标题部分会有绿色背景显示,点击一下。这样我们就看到了相关的源码。有用过八爪鱼或后裔采集器的话,会感觉到这个步骤是类似的。所以也是说,无论用RPA/采集器其实底层原理都是一样的,编写selenium的代码可以理解为就是那个底层技术。
第三步 复制源码
复制元素代码,红框中这里我选择上面那个div进行复制?为什么?你看左边背景显示为视频列表部分,说明视频列表的数据都在这一块代码里面,我们复制这块代码就可以了。当然如果你复制整个页面代码也是可以的。(这里把代码直接截图也是可以的,待会发给GPT,只要把这部分代码截取下来就可以了。)
复制的方法:右键代码,复制,复制元素。
第四步 保存源码文件
把复制后的代码新建一个文本文件保存,修改下后缀为html (如果不会修改也没关系)。
这里为什么不能直接发给GPT?其实是因为代码太大了,直接发发不了。
第五步 提问找GPT写代码
把文件或截图发给GPT并提问。我这里使用的是GPT4,GPT4o也可以。
提问其实提示词不需要多么高大上,不一定非得用模板,重点是把你的需求说清楚,每次提的需求尽量简单,而GPT4就是你的个人24小时工作的码农,你要他写的代码用得上,重要的是自己的需求表达没问题。而且,一次没表达清楚,可以反复沟通需求。
我这里用的提示词就比较简单,重点说清楚使用selenium,(默认python3代码所以没说),爬取视频标题、视频链接、封面链接、作者,保存为csv文本。
如果回复是英文,不要紧,跟GPT说回复中文即可。
然后在浏览器地址栏记录一下自己要爬取的B站链接:
https://search.bilibili.com/all?vt=13260417&keyword=AI&from_source=webtop_search&spm_id_from=344.1008&search_source=3
后面的一些参数其实可以不需要,删除即可:
https://search.bilibili.com/all?vt=13260417&keyword=AI
第六步 根据GPT回复理解代码
以下是回复。这里要注意GPT除了代码以外告诉你的信息。
比如这里GPT说了:首先,确保您已安装 Selenium 和 pandas 库,以及下载了 Chrome WebDriver。
如果有任何疑问,直接提问。包括代码中不懂的地方,没写注释的地方,都要让码农GPT补上,保证自己能看懂。一定要确保你的下属GPT没有摸鱼,没有糊弄你的需求。不然,如果你完全不懂,那很可能你自己就被下属糊弄了。
比如上图代码它给我的是打开本地HTML,我不知道能不能发在线链接,直接提问。
通过GPT的回复,这里我就知道了,代码中直接改为在线链接就行了。
暂无评论内容