ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

爬虫

2021-07-18 01:00:45  阅读:162  来源: 互联网

标签:el String img 爬虫 jsoup println import


目录

爬虫Jsoup

Demo

<!--		解析网页 只是解析网页  音乐和电影taki了解下-->
		<dependency>
			<groupId>org.jsoup</groupId>
			<artifactId>jsoup</artifactId>
			<version>1.10.2</version>
		</dependency>
package com.example.demo.utils;

import com.example.demo.pojo.Content;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.net.URL;
import java.util.ArrayList;
import java.util.List;

public class HtmlParseUtil {
    public static void main(String[] args) throws Exception {
        new HtmlParseUtil().parseJD("java");
    }

    public List<Content> parseJD(String keyWords) throws Exception {
        //        获取请求 https://search.jd.com/Search?keyword=java
//        前提是 需要联网  【ajax不能获取到,模拟浏览器才能获取到】
        String url = "https://search.jd.com/Search?keyword=" + keyWords;
//      解析网页 (Jsoup 返回的Document就是浏览器Document对象)
        Document document = Jsoup.parse(new URL(url), 30000);
//        所有在js中可以使用的方法,这里都能用
        Element element = document.getElementById("J_goodsList");

        System.out.println(element.html());

//        获取所有的li元素
        Elements elements = element.getElementsByTag("li");

        ArrayList<Content> goodsList = new ArrayList<>();

//        获取元素中的内容,这里el 就是每一个li标签了
        for (Element el : elements) {
//            关于这种图片特别多的网站,所有的图片都是延迟加载的! 懒加载
//            source-data-lazy-img
//            String img = el.getElementsByTag("img").eq(0).attr("src");
            String img = el.getElementsByTag("img").eq(0).attr("source-data-lazy-img");
            String price = el.getElementsByClass("p-price").eq(0).text();
            String title = el.getElementsByClass("p-name").eq(0).text();
            System.out.println(img);
            System.out.println(price);
            System.out.println(title);
            System.out.println("--------------------------------");
            Content content = new Content();
            content.setImg(img);
            content.setImg(price);
            content.setImg(title);
            goodsList.add(content);
        }
        return goodsList;
    }
}

标签:el,String,img,爬虫,jsoup,println,import
来源: https://www.cnblogs.com/ls-summer/p/15025658.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有