test.html:
成都创新互联专注于文成网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供文成营销型网站建设,文成网站制作、文成网页设计、文成网站官网定制、重庆小程序开发服务,打造文成网络公司原创品牌,更为您提供文成网站排名全网营销落地服务。
!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" ""
html
head
meta http-equiv="Content-Type" content="text/html; charset=GB18030"
titleInsert title here/title
/head
body
div class="neirong"
《疯狂android讲义》
br /
第1章 android应用与开发环境1
br /
1.1 android的发展和搜首历史2
br /
1.1.1 android的发展和简介2
br /
1.1.2 android平台架构及特性3
br /
....................
/div
div class="read-more"more1/div
div class="read-more"more2/div
哪漏腔/body
/html
java:
// 获取网页内容
URL url = Test1.class.getResource("test.html");
StringBuffer sbf = new StringBuffer();
try {
URLConnection uc = url.openConnection();
uc.connect();
InputStream in = uc.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(in));
String temp = null;
while ((temp = br.readLine()) != null) {
sbf.append(temp);
}
br.close();
in.close();
System.out.println(sbf.toString());
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println("解析。。。"李衫);
// 解析网页内容
String p1 = "div class=\"neirong\"(.*?)(?=/div)";
Pattern p = Pattern点抗 pile(p1);
Matcher matcher = p.matcher(sbf.toString());
if (matcher.find()) {
String innerDiv = matcher.group(1);
String[] strs = innerDiv.split("br\\s*/");
for (String str : strs) {
System.out.println(str);
}
}
Java访问网络url,获取网页的html代码
方式一:
一是使用URL类的openStream()方法:
openStream()方法与制定的URL建立连接并返回InputStream类的对象,以从这一连接中读取数据;
openStream()方法只丛渣裤能读取网络资源。
二是使用URL类的openConnection()方法:
openConnection()方法会创建一个URLConnection类的对象,此对象在本地机和URL指定的远程节点建立一条HTTP协议的数据通道,可进行双向数据传渗简输。类URLConnection提供了很多设置和获取连接参数的方法,最常用到的是getInputStream()和getOutputStream()方法。
openConnection()方法既能读取又能发送数据。
列如:
public static void main(String args[]) throws Exception {
try {
//输入url路径梁袭
URL url = new URL("url路径"); InputStream in =url.openStream(); InputStreamReader isr = new InputStreamReader(in); BufferedReader bufr = new BufferedReader(isr); String str; while ((str = bufr.readLine()) != null) { System.out.println(str); } bufr.close(); isr.close(); in.close(); } catch (Exception e) { e.printStackTrace(); } }
网络爬虫是一个自动提取网页的扒扰程序,它为搜索春仿旦引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
java实现网页源码获取的步骤:
(1)新建URL对象,表示要访问的网址。如:url=new URL("");
(2)建立HTTP连接,返回连大卜接对象urlConnection对象。如:urlConnection = (HttpURLConnection)url.openConnection();
(3)获取相应HTTP 状态码。如responsecode=urlConnection.getResponseCode();
(4)如果HTTP 状态码为200,表示成功。从urlConnection对象获取输入流对象来获取请求的网页源代码。