前言

AI编程航海群聊看不到不少圈友在实践AI爬虫跑完了手册两个实战之后，自己想尝试让AI写个程序跑个爬虫却总是遇到各种报错问题。详细查看了下，大部分都是没找到定位到元素的问题。

作为本期志愿者，我想做一个分享，如何借助AI来爬虫，而不是在Python基础语法当中迷茫找不到方向。我认为用好AI，是可以边学习Python语法边去实践爬虫和RPA的。

需求分析

首先，建议使用 ChatGPT4o 或 ChatGPT4，尽量不要使用其他AI工具来提问代码，目前提问代码相关的问题，我个人觉得 GPT4 是最准确的。

接下来以爬虫B站视频标题来举例说明。
我们想要去爬一个网站数据，首先要了解这个网站，B站可以不用登录简单浏览。

如果我们想爬取B站AI相关视频前100条内容，那要如何做呢？
我们把PY程序想象为人就行了，我们自己看100数据是不是一直刷？B站的话，还需要翻页。
人：刷B站，点击翻页。PY程序：看代码，点击翻页。
其实是一样的，只是PY程序看的是代码而已，它看的速度也比我们快多了。

实战演示

接下来我以无Python编程基础的方式演示一下如何爬取100条B站标题数据：

第一步打开B站搜索AI

第二步打开开发者模式

右键检查或打开F12，找到最左侧的这个选择元素的按钮（元素检查器），点击一下。然后鼠标移动到第一个视频的标题部分会有绿色背景显示，点击一下。这样我们就看到了相关的源码。有用过八爪鱼或后裔采集器的话，会感觉到这个步骤是类似的。所以也是说，无论用RPA/采集器其实底层原理都是一样的，编写selenium的代码可以理解为就是那个底层技术。

第三步复制源码

复制元素代码，红框中这里我选择上面那个div进行复制？为什么？你看左边背景显示为视频列表部分，说明视频列表的数据都在这一块代码里面，我们复制这块代码就可以了。当然如果你复制整个页面代码也是可以的。(这里把代码直接截图也是可以的，待会发给GPT，只要把这部分代码截取下来就可以了。)

复制的方法：右键代码，复制，复制元素。

第四步保存源码文件

把复制后的代码新建一个文本文件保存，修改下后缀为html (如果不会修改也没关系)。
这里为什么不能直接发给GPT？其实是因为代码太大了，直接发发不了。

第五步提问找GPT写代码

把文件或截图发给GPT并提问。我这里使用的是GPT4，GPT4o也可以。
提问其实提示词不需要多么高大上，不一定非得用模板，重点是把你的需求说清楚，每次提的需求尽量简单，而GPT4就是你的个人24小时工作的码农，你要他写的代码用得上，重要的是自己的需求表达没问题。而且，一次没表达清楚，可以反复沟通需求。

我这里用的提示词就比较简单，重点说清楚使用selenium，(默认python3代码所以没说)，爬取视频标题、视频链接、封面链接、作者，保存为csv文本。
如果回复是英文，不要紧，跟GPT说回复中文即可。
然后在浏览器地址栏记录一下自己要爬取的B站链接：
https://search.bilibili.com/all?vt=13260417&keyword=AI&from_source=webtop_search&spm_id_from=344.1008&search_source=3
后面的一些参数其实可以不需要，删除即可：
https://search.bilibili.com/all?vt=13260417&keyword=AI

第六步根据GPT回复理解代码

以下是回复。这里要注意GPT除了代码以外告诉你的信息。
比如这里GPT说了：首先，确保您已安装 Selenium 和 pandas 库，以及下载了 Chrome WebDriver。

如果有任何疑问，直接提问。包括代码中不懂的地方，没写注释的地方，都要让码农GPT补上，保证自己能看懂。一定要确保你的下属GPT没有摸鱼，没有糊弄你的需求。不然，如果你完全不懂，那很可能你自己就被下属糊弄了。
比如上图代码它给我的是打开本地HTML，我不知道能不能发在线链接，直接提问。

通过GPT的回复，这里我就知道了，代码中直接改为在线链接就行了。