java爬虫系列:怎么用jsoup进行爬虫开发?(1)

 时间:2026-02-13 04:18:35

1、第一步:maven引入jsoup,或者从jsoup的官网下载jsoup导入编译器,官网下载地址:jsoup.org/download。因有依赖问题,这里建议使用maven

java爬虫系列:怎么用jsoup进行爬虫开发?(1)

2、第二步:开始使用jsoup进行网络爬取,代码如下:

Document document = Jsoup.connect("你的url").get();

这是get请求,post请求如下:

Document document = Jsoup.connect("你的url").post();

是不是很简单

java爬虫系列:怎么用jsoup进行爬虫开发?(1)

3、第三步:jsoup的爬取的其他方式:

Connection conn = Jsoup.connect("").method(Connection.Method.GET);

post如下:

Connection conn = Jsoup.connect("").method(Connection.Method.POST);

java爬虫系列:怎么用jsoup进行爬虫开发?(1)

4、第三步:分析不同点。

返回值Document就是一个网页dom,也就是一个网页,请求到此结束,而Connection 返回的是一个连接,表示请求还没结束,Connection 常用方法如下:

Document doc = response.parse();


Map<String, String> cookies = response.cookies();

获取文档和cookies

java爬虫系列:怎么用jsoup进行爬虫开发?(1)

5、第五步:cookies的作用就是让网站记住你,告诉网站还是我,别验证了,所以如果再次请求的验证的网站,带上cookies就不用验证。代码如下:

Connection.Response response = cget.execute();


Document doc = response.parse();
Map<String, String> cookies = response.cookies();
Document document = Jsoup.connect("").cookies(cookies).get();

java爬虫系列:怎么用jsoup进行爬虫开发?(1)

6、第六步:下次开始讲代理,头部,get和Post的参数传递,并模拟登陆

  • 微信置顶语设置教程
  • 鼻咽癌早期自查有诀窍。
  • 信息采集:问卷设计的一些细节
  • 怎么当瑜伽教练
  • 防盗门怎么选?看这篇就够了!
  • 热门搜索
    童话故事手抄报 清明节手抄报好看简单字少 中国梦我的梦手抄报 清明节的手抄报图片 欢庆六一手抄报内容 水的手抄报 关于法制的手抄报 有趣的汉字手抄报 新学期新气象手抄报 长城手抄报