当前位置: 源码素材网 » Java教程 » 详情页

Java 获取指定URL的网页源代码及获取标准URL格式

  •   时间:2019-01-10
  • 概述:获取源代码

Java访问URL,并获取网页源代码及URL格式化。想获得指定网页的源代码,但有些源代码在编写时候的字符集和本地默认的字符集不一定相同,因而不一定能正确读取。本例通过编程实现了从URL 获得该URL 的源代码。运行程序并在后面加上URL 作为参数, 就可以获得此URL的源代码。运行后部分结果如下图所示。

Java获取指定URL网页的源代码

通过访问URL 指定的网页获取其源码

下面来介绍实现方法:通过 URL,openStream()方法连接到引用的资源,在服务器和客户端之间进行必要的握手,然后从可读的数据中返回InputStream。从这个InputSteam 获得的数据是未加工的。它不包括任何http头或者任何其它与协议相关的信息。从命令行当中读一个URL,从这个URL 中打开一个InputStream,使用缺省的编码将结果InputStream 和一个InputStreamReader 连接起来,然后使用该InputStream 的read()方法从文件中读取连续的字节,每个字节都被系统输出。程序代码如下:

1.编写useSourceViewer 类的基本框架,该类仅包括无返回值的main ()方法,该方法从参数中获取URL,通过输入缓冲和输出缓冲将该URL 原码输出。

2.编写useSourceViewer 类,代码如下:

import java.net.*;
import java.io.*;
public class useSourceViewer 
{
	public static void main (String[] args) 
	{
		if (args.length > 0) 
		{
			try 
			{
				//读入URL
				URL u = new URL(args[0]);
				InputStream in = u.openStream( );
				// 为增加性能存储输入流
				in = new BufferedInputStream(in);
				// 将输入流连接到阅读器
				Reader r = new InputStreamReader(in);
				int c;
				while ((c = r.read( )) != -1) 
				{
					System.out.print((char) c);
				}
				Object o = u.getContent( );
				System.out.println("I got a " + o.getClass().getName( ));
			}
			catch (MalformedURLException e) 
			{
				System.err.println(args[0] + " is not a parseable URL");
			}
			catch (IOException e) 
			{
				System.err.println(e);
			}
		}
	}
}

    相关声明:

      若“Java 获取指定URL的网页源代码及获取标准URL格式”有损您的权益,请告之我们删除内容。
      部分文章来源于网络,版权归原作者所有。