Android 上爬取 HTML 内容通常使用以下几种方式:
1. 使用 java.net 包:
- 使用 `URL` 类获取网页 URL
- 使用 `HttpURLConnection` 类发送 HTTP 请求并获取响应
- 使用 `InputStreamReader` 和 `BufferedReader` 读取响应内容
2. 使用 OkHttp 库:
- OkHttp 是一个流行的 HTTP 客户端库,可以方便地发送 HTTP 请求并获取响应
- 使用 `OkHttpClient` 发送请求,使用 `Response` 对象获取响应内容
3. 使用 Jsoup 库:
- Jsoup 是一个 Java HTML 解析器,可以方便地解析 HTML 内容
- 使用 `Jsoup.connect()` 连接网页 URL,使用 `parse()` 方法解析 HTML 内容
以下是一个简单的示例,使用 Jsoup 库爬取 HTML 内容:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class WebScraper {
public static void main(String[] args) {
String url = "https://www.example.com";
try {
// 连接网页 URL
Document doc = Jsoup.connect(url).get();
// 获取 HTML 内容
String title = doc.title();
String bodyText = doc.body().text();
// 获取页面中的链接
Elements links = doc.select("a[href]");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
System.out.println("Link: " + linkText + " (" + linkHref + ")");
}
System.out.println("Title: " + title);
System.out.println("Body Text: " + bodyText);
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
这个示例使用 Jsoup 库连接到指定的 URL,获取 HTML 内容,并提取页面标题、正文文本以及页面中的所有链接。你可以根据需要修改这个示例,使其更适合你的具体需求。