[android]jsoup 为非结构化 html 与表页

发布时间: 2017/3/18 12:03:41
注意事项: 本文中文内容可能为机器翻译,如要查看英文原文请点击上面连接.

我想主要的 img 得到此url,在这里到底为止︰

Document doc = null;
    try {
        doc = Jsoup.connect(url).get();
    } catch (IOException e) {
        e.printStackTrace();
    }

    Element table = doc.select("center").get(1);
    Elements rows = table.select("table[width=970]");
    for (int i = 0; i < rows.size(); i++) {
        Element row = rows.get(1);
        Elements cols = row.select("table[width=634]");
        for (int j = 0; j < cols.size(); j++) {
            Element row1 = rows.get(1);
            Elements cols1 = row1.select("table[width=600]");
            for (int k = 0; k < cols1.size(); k++){
                Element row0 = rows.first();
                Elements cols0 = row0.select("td");
                for (Element image : cols0) {
                    String image2 = image.absUrl("src").toString();
                    Log.i("tanja7 ", "pic  " + image2);
                }
            }
        }
    }

这是非结构化的 html 页 (我不知道如何复制 html 代码)enter image description here我做错了吗?

解决方法 1:

看来你的期望结果 JSoup 的内部元素选择方法调用。这是不对的-你获取在"搜索范围",给出了由选择器匹配的元素 Element (s) / 文档类实例从中调用 select 。所以,如果你想要的文档的所有表元素你 doc.select("table") 。这给你,不是行,但表。也许你理解这前,但你的变量命名有暗示。

无论如何,这里是一个选择器,工作。它将得到 (不一定直接) 的所有 img 元素具有属性表儿童 width=600 ,并且在另一个表的文档内。

Elements imgEls = doc.select("table table[width=600] img");
System.out.println(imgEls.first().absUrl("src"));

你说 html 没有结构化,所以你可能想要检查有关图像是否真的总是作为指定两个表内。

更新︰如果您正在使用移动设备,请确保添加︰

doc = Jsoup.connect(url).userAgent("Mozilla").get();
官方微信
官方QQ群
31647020