零基础如何用好AI来爬取数据

零基础如何用好AI来爬取数据

前言

AI编程航海群聊看不到不少圈友在实践AI爬虫跑完了手册两个实战之后,自己想尝试让AI写个程序跑个爬虫却总是遇到各种报错问题。详细查看了下,大部分都是没找到定位到元素的问题。

作为本期志愿者,我想做一个分享,如何借助AI来爬虫,而不是在Python基础语法当中迷茫找不到方向。我认为用好AI,是可以边学习Python语法边去实践爬虫和RPA的。

需求分析

首先,建议使用 ChatGPT4o 或 ChatGPT4,尽量不要使用其他AI工具来提问代码,目前提问代码相关的问题,我个人觉得 GPT4 是最准确的。

接下来以爬虫B站视频标题来举例说明。
我们想要去爬一个网站数据,首先要了解这个网站,B站可以不用登录简单浏览。

如果我们想爬取B站AI相关视频前100条内容,那要如何做呢?
我们把PY程序想象为人就行了,我们自己看100数据是不是一直刷?B站的话,还需要翻页。
人:刷B站,点击翻页。PY程序:看代码,点击翻页。
其实是一样的,只是PY程序看的是代码而已,它看的速度也比我们快多了。

实战演示

接下来我以无Python编程基础的方式演示一下如何爬取100条B站标题数据:

第一步 打开B站搜索AI

图片[1]-零基础如何用好AI来爬取数据

第二步 打开开发者模式

右键检查或打开F12,找到最左侧的这个选择元素的按钮(元素检查器),点击一下。然后鼠标移动到第一个视频的标题部分会有绿色背景显示,点击一下。这样我们就看到了相关的源码。有用过八爪鱼或后裔采集器的话,会感觉到这个步骤是类似的。所以也是说,无论用RPA/采集器其实底层原理都是一样的,编写selenium的代码可以理解为就是那个底层技术。
图片[2]-零基础如何用好AI来爬取数据

第三步 复制源码

复制元素代码,红框中这里我选择上面那个div进行复制?为什么?你看左边背景显示为视频列表部分,说明视频列表的数据都在这一块代码里面,我们复制这块代码就可以了。当然如果你复制整个页面代码也是可以的。(这里把代码直接截图也是可以的,待会发给GPT,只要把这部分代码截取下来就可以了。)
图片[3]-零基础如何用好AI来爬取数据
复制的方法:右键代码,复制,复制元素。
图片[4]-零基础如何用好AI来爬取数据

第四步 保存源码文件

把复制后的代码新建一个文本文件保存,修改下后缀为html (如果不会修改也没关系)。
这里为什么不能直接发给GPT?其实是因为代码太大了,直接发发不了。
图片[5]-零基础如何用好AI来爬取数据

第五步 提问找GPT写代码

把文件或截图发给GPT并提问。我这里使用的是GPT4,GPT4o也可以。
提问其实提示词不需要多么高大上,不一定非得用模板,重点是把你的需求说清楚,每次提的需求尽量简单,而GPT4就是你的个人24小时工作的码农,你要他写的代码用得上,重要的是自己的需求表达没问题。而且,一次没表达清楚,可以反复沟通需求。
图片[6]-零基础如何用好AI来爬取数据
我这里用的提示词就比较简单,重点说清楚使用selenium,(默认python3代码所以没说),爬取视频标题、视频链接、封面链接、作者,保存为csv文本。
如果回复是英文,不要紧,跟GPT说回复中文即可。
然后在浏览器地址栏记录一下自己要爬取的B站链接:
https://search.bilibili.com/all?vt=13260417&keyword=AI&from_source=webtop_search&spm_id_from=344.1008&search_source=3
后面的一些参数其实可以不需要,删除即可:
https://search.bilibili.com/all?vt=13260417&keyword=AI

第六步 根据GPT回复理解代码

以下是回复。这里要注意GPT除了代码以外告诉你的信息。
比如这里GPT说了:首先,确保您已安装 Selenium 和 pandas 库,以及下载了 Chrome WebDriver。
图片[7]-零基础如何用好AI来爬取数据
如果有任何疑问,直接提问。包括代码中不懂的地方,没写注释的地方,都要让码农GPT补上,保证自己能看懂。一定要确保你的下属GPT没有摸鱼,没有糊弄你的需求。不然,如果你完全不懂,那很可能你自己就被下属糊弄了。
比如上图代码它给我的是打开本地HTML,我不知道能不能发在线链接,直接提问。
图片[8]-零基础如何用好AI来爬取数据
通过GPT的回复,这里我就知道了,代码中直接改为在线链接就行了。

第七步 测试代码并解决BUG

版权声明

   站内部分内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供网络资源分享服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请 联系我们 一经核实,立即删除。并对发布账号进行永久封禁处理。在为用户提供最好的产品同时,保证优秀的服务质量。


本站仅提供信息存储空间,不拥有所有权,不承担相关法律责任。
THE END
喜欢就支持一下吧
点赞124赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容