dongdong��

��ת�ء�JAVA��ģʽ ժ¼

Spirit_Dongdong — 2009/11/27 22:44:14

QWAN(��)��Gate��ţ��Way��
��õ��ݻ��ʣ��ǲ��һ��ģʽ��һ��Դﵽ��

��֮ʼ��֮ĸ��
��Ļ��硣

��һ��һ����︺��Ϊ�͡�
��۶��Σ��ɢ��Ρ�

��ӡ��Ϊʿ�߲��䡣��õ��ʦ��Ƶ�ϵͳ��ģ��޸ġ�
��ӡ��е��ȴ��Էࣻ��޵��Ч��

��ԭ�򣺶��չ��ţ��޸Ĺرա��ǹؼ��Կɱ��Խ��з�װ��
��̫��֪�̶��֪���ʧ��֪��֪�̣��ʧ��
��ͼ�ļ̳нṹ��ᳬ��㣬��ͻ�ʧȥ��ڿɱ��Եķ�װԭ�򣬾ͻ��һ��װ�ں��ж��ɱ�Ԫ�ء�

��ʽ��ԭ��κλ��Գ��ֵĵط��һ��Գ��֡�
��תԭ��Ҫ��󣬲�Ҫ��ʵ�֡�
�ϳ�/�ۺϸ��ԭ��Ҫ��ʹ�úϳɺ;ۺϣ��ʹ�ü̳С�
��ط��һ��ʵ��Ӧ�þ��ٵ��ʵ�巢��໥��á�
�ӿڸ��ԭ��Ӧ��Ϊclient�ṩ��С�ĵ��Ľӿ��ṩ��ܵĽӿڡ�

�ɲ��ԵĹؼ��ڴ��һ��ӿڣ��Լ�ÿ��ʵ��ӿڡ�

Ӧ��ʹ�ýӿ�ʵ�ֳ��͡�

��̳еģ��಻��̳еġ�
��Ӧ�þ��о��ܶ�Ĺ�ͬ��룬Ӧ��о��ٵ��ݡ�

��֮��ļ̳��Ǻ��ױ��õĸ��ù��ߡ�
��ֹ�̳��õ�ԭ��

��has-a��is-a��
��չ��Σ��滻��
��Ҫ�ӹ��̳�

��ת�ء�HTMLParser�ĳ��

Spirit_Dongdong — 2009/11/27 17:37:05

��û��ϸ��HTMLParserϸ�µ�ʹ�ã��Ҫ��ĵ��һ��˽�HTMLParser��

��һЩ��Ա��ҡ�

Interface Node��

getChildren()	NodeList	get the children of this node
getStartPosition()	int	get the starting position of the node.
getEndPosition()	int
getFirstChild()	Node
getLastChild()	Node
getParent()	Node	this will always return null when parsing with the Lexer.
getNextSibling()	Node
getPreviousSibling()	Node
getPage()	page	get the page this node came from. return the page that supplied this node.
getText()	String	return the text of the node.
toHtml()	String	return the HTML for this node.
toHtml(boolean)	String	return the HTML for this node.
toPlainTextString()*	String	a string representation of the node.
toString()	String	return the string representation of the node.
collectInto(NodeList,NodeFilter)*	void	collect this node and its child nodes into a list,provided the node satisfies the filtering criteria.
accept(NodeVisitor)	void	apply the visitor to this node.
setchildren(NodeList)	void
setStartPosition(int)	void
setEndPosition(int)	void
setPage(Page)	void
setParent(Node)	void
setStartPosition(int)	void
setText(String)	void
clone()	Object	allow cloning of nodes

toPlainTextString():

A string representation of the node. This is an important method, it allows a simple string transformation of a web page, regardless of a node. For a Text node this is obviously the textual contents itself. For a Remark node this is the remark contents (sic). For tags this is the text contents of it's children (if any). Because multiple nodes are combined when presenting a page in a browser, this will not reflect what a user would see.

��˵��Ƿ��ؽڵ��ı��

System.out.println (node.toPlainTextString ());

collectInto(NodeList,NodeFilter):

  ������NodeFilter������node�浽NodeList�С�

���ʣ�һϵ�е�set�ķ�������ʲôʹ�����壿accept��clone��ôʹ�ã�

Package org.htmlparser.filters

AndFilter
CssSelectorNodeFilter	��֧��CSS2ѡ��Ľڵ㡣
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter	This class accepts only one specific node.
LinkRegexFilter	��linkTag��ǩ��linkֵ��ƥ��ʽ�Ľڵ㡣
LinkStringFilter	��linkTag��ǩ��linkֵ��ƥ��ַ��Ľڵ㡣
NodeClassFilter	��н��ָ��Ľڵ㡣
NotFilter
OrFilter
RegexFilter	��ָ��ʽ��String Nodes��
StringFilter	��ָ��String��String Nodes��
TagNameFilter

��ת�ء�ʹ�� HttpClient �� HtmlParser ʵ�ּ��

Spirit_Dongdong — 2009/11/26 0:06:20

ת��http://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/index.html

ʹ�� HttpClient �� HtmlParser ʵ�ּ��

��ƪ��½�� HtmlParser ��Դ�� HttpClient ��Դ��ʹ�ã��ڴ˻��ʵ��һ��׵�� (Crawler)��˵��ʹ�� HtmlParser ��Ҫ�� Internet �ϵ��ҳ��Լ��ʹ�� HttpClient �� Get �� Post ��ǿ��Ӧ�ó��

��ҳ��

HttpClient �� HtmlParser ��

��С��򵥵Ľ��һ�� HttpClinet �� HtmlParser ��Դ��Ŀ��Լ��ǵ��վ��ṩ��صĵ�ַ��

HttpClient ��

HTTP Э��ڵ��Ҫ��Э��֮һ�� WEB ��֮�⣬ WEB ��񣬻��Ӧ�ó��Լ��㲻��չ�� HTTP Э��Ľ�ɫ��ʹ��Խ��Խ��Ӧ�ó��Ҫ HTTP Э��֧�֡��Ȼ JAVA �� .net ��ṩ�˻��ܣ��ʹ�� HTTP Э��Դ��Ժ͹��Զ��ܶ�Ӧ�ó��Ҫ�� Jakarta Commons HttpClient ��Ѱ��ṩ��Ϊ����Ӹ�Ч�� HTTP Э��֧�֣��򻯻�� HTTP Э��Ӧ�ó��Ĵ�� HttpClient �ṩ�˺ܶ��ԣ�֧��µ� HTTP ��׼��Է��˽�� HttpClinet ��ϸ��Ϣ��Ŀǰ�кܶ�Ŀ�Դ��Ŀ��õ�� HttpClient �ṩ�� HTTP��ܣ��½��ַ��Բ鿴��Щ��Ŀ��ʹ�� HttpClinet �ṩ��ʺ�� Internet��ҳ��ں��ֻ��ϸ��ܵ��ṩ��Դ�ķ�� Get �� Post ��Apatche �ṩ��ѵ� HTTPClien tԴ�� JAR ��أ��Ե�½�� µ�HttpClient ��ʹ�õ�� HttpClient3.1��

HtmlParser ��

�� Internet ��ڼǵ��ҳ��Խ��Խ��Ӧ�ó��Щ��ҳ��Ϊ��ʹ��ݶ��Щ��ҳ��Ϊ��ṹ��ı��Ŵ��ı�ǩ��Ƕ�׵Ľṹ��Լ��һЩ��ҳ��Ӧ�ó��ʱ��뵽Ҫ��һ��ҳ��һ��ֵĹ��ض��Ҫ��൱�ľ��ʱ�䡣��ʵ�ϣ��Ϊ JAVA Ӧ�ó��򿪷��ߣ� HtmlParser Ϊ��ṩ��ǿ��õĿ�Դ��⣬��ʡ��дһ��ҳ��Ŀ�� HtmlParser �� http://sourceforge.net �ϻ�Ծ��һ��Դ��Ŀ��ṩ��Ժ�Ƕ��ַ�ʽ��ҳ��Ҫ�� html ��ҳ��ת��(Transformation) �Լ��ҳ��ݵĳ�ȡ (Extraction)��HtmlParser ��һЩ��ʹ�õ��ԣ�� (Filters)��ģʽ (Visitors)��Զ��ǩ�Լ��ʹ�õ� JavaBeans�� HtmlParser ��ҳ��˵��һ��٣��׳�Լ��ϸ��Թ��Ƶļ�࣬��е��ٶ��Լ�� Internet ��ʵ��ҳ��Խ��Խ��Ŀ��ߡ� ��о��HtmlParser ��ȡ��ҳ��ӣ�ʵ�ּ��Ĺؼ��֡�HtmlParser ��µİ汾��HtmlParser1.6��Ե�½��Դ�롢 API �ο��ĵ��Լ� JAR ��

��ҳ��

��Ĵ

��ʹ�õĿ�� Eclipse Europa��˿��߿�� www.eclipse.org ��ѵ��أ�JDK��1.6��Ҳ�� www.java.sun.com վ��أ��ڲ��ϵͳ��úû�� Eclipse �д��һ�� JAVA ��̣��ڹ��̵� Build Path �е��ص�Commons-httpClient3.1.Jar��htmllexer.jar �Լ� htmlparser.jar �ļ��

ͼ 1. ��

��ҳ��

HttpClient ��ʹ��

HttpClinet �ṩ�˼��֧�� HTTP ��ʡ��ͨ��һЩʾ��Ϥ��˵��Щ��Ĺ��ܺ�ʹ�á� HttpClient �ṩ�� HTTP �ķ��Ҫ��ͨ�� GetMethod �� PostMethod ��ʵ�ֵģ��Ƿֱ��Ӧ�� HTTP Get �� Http Post ��

GetMethod

ʹ�� GetMethod ��һ�� URL ��Ӧ��ҳ��Ҫ��һЩ��衣

��һ�� HttpClinet ��Ӧ�Ĳ��
��һ�� GetMethod ��Ӧ�Ĳ��
�� HttpClinet ��ɵĶ��ִ�� GetMethod ��ɵ� Get ��
��Ӧ״̬�롣
��Ӧ�� HTTP ��Ӧ��ݡ�
�ͷ��ӡ�

�嵥 1 �Ĵ��չʾ��Щ��裬��е�ע�ͶԴ��˽��ϸ��˵��

�嵥 1.

/* 1 ���� HttpClinet �������ò���*/
  HttpClient httpClient=new HttpClient();
  //���� Http ���ӳ�ʱΪ5��
httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(5000);
  
  /*2 ���� GetMethod �������ò���*/
  GetMethod getMethod=new GetMethod(url);	 
  //���� get ����ʱΪ 5 ��
getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000);
  //�����������Դ������õ���Ĭ�ϵ����Դ�������������
getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
          new DefaultHttpMethodRetryHandler());
  
  /*3 ִ�� HTTP GET ����*/
  try{ 
	  int statusCode = httpClient.executeMethod(getMethod);
	  /*4 �жϷ��ʵ�״̬��*/
      if (statusCode != HttpStatus.SC_OK) 
      {
System.err.println("Method failed: "+ getMethod.getStatusLine());
      }
  
      /*5 ���� HTTP ��Ӧ����*/
      //HTTP��Ӧͷ����Ϣ������򵥴�ӡ
  Header[] headers=getMethod.getResponseHeaders();
      for(Header  h:  headers)
  	      System.out.println(h.getName()+" "+h.getValue());*/
      //��ȡ HTTP ��Ӧ���ݣ�����򵥴�ӡ��ҳ����
      byte[] responseBody = getMethod.getResponseBody();//��ȡΪ�ֽ�����
System.out.println(new String(responseBody));
      //��ȡΪ InputStream������ҳ������������ʱ���Ƽ�ʹ��
      InputStream response = getMethod.getResponseBodyAsStream();//
      ��
}
catch (HttpException e) 
{
	  // �����������쳣��������Э�鲻�Ի��߷��ص�����������
		  System.out.println("Please check your provided http address!");
e.printStackTrace();
	 } 
catch (IOException e)
  {
	        // ���������쳣
		e.printStackTrace();
	 } finally {
		         /*6 .�ͷ�����*/
			getMethod.releaseConnection();		   
		    }

��ֵ��ע��ļ��ط��ǣ�

��ӳ�ʱ��ʱ��ʱ��岻ͬ��Ҫ�ֱ��á�
��Ӧ״̬��Ĵ��
��صĽ��Ϊ�ֽ��飬Ҳ��Ϊ InputStream��ҳ��ϴ��ʱ��Ƽ�ʹ�á�

�ڴ��ؽ��ʱ��Ը��Լ��Ҫ��Ӧ�Ĵ��Ҫ��ҳ

��أ��˾Ϳ��дһ�� saveToLocaleFile(byte[] data, String filePath) �ķ��ֽ��鱣��ɱ��ļ��ļ��沿�ֻ��Ӧ�Ľ��ܡ�

PostMethod

PostMethod �� GetMethod ��ʹ�ò��ͬ�� PostMethod ʹ�õ��HTTP �� Post �� GetMethod ��ͬ�� GetMethod �У��Ĳ��ֱ��д�� URL �һ��ʽ��֣�http://hostname:port//file?name1=value1&name2=value �� name��value �ԡ��õ��ٶ��Thinking In Java��Ľ��ҳ��Ϳ��ʹ GetMethod �Ĺ��췽��е� url Ϊ��http://www.baidu.com/s?wd=Thinking+In+Java �� PostMethod ��ģ��ҳ��ύ�Ĺ��̣�ͨ��ñ�� post ��ֵ��̬�Ļ�÷��ص��ҳ��嵥 2 �еĴ��չʾ��δ��һ�� Post ��󣬲��Ӧ��

�嵥2

PostMethod postMethod = new PostMethod("http://dict.cn/");
postMethod.setRequestBody(new NameValuePair[]{new NameValuePair("q","java")});

��ҳ��

HtmlParser ��ʹ��

HtmlParser �ṩ��ǿ�� Internet �ϵ��ҳ��ʵ�ֶ��ҳ�ض��ݵ��ȡ��޸ġ��ͨ�� HtmlParser ��һЩʹ�á��Щ��еĴ��룬�в��˺��ܵļ��С��еĴ��ͷ�� HtmlParser.Test.java ���Ǳ��߱�д��һ�� HtmlParser �÷��ࡣ

��ҳ��нڵ�

��ҳ��һ��ṹ��Ƕ��ı��ļ�� XML �ļ��Ƕ�׽ṹ��ʹ��HtmlParser ��׵ĵ��ҳ��нڵ㡣�嵥 3 չʾ��ʵ��ܡ�

�嵥 3

// ѭ���������нڵ㣬��������ؼ��ֵ�ֵ�ڵ�
	public static void extractKeyWordText(String url, String keyword) {
		try {
            //����һ����������������ҳ�� url ��Ϊ����
			Parser parser = new Parser(url);
			//������ҳ�ı���,����ֻ��������һ�� gb2312 ������ҳ
			parser.setEncoding("gb2312");
			//�������нڵ�, null ��ʾ��ʹ�� NodeFilter
			NodeList list = parser.parse(null);
            //�ӳ�ʼ�Ľڵ��б��������еĽڵ�
			processNodeList(list, keyword);
		} catch (ParserException e) {
			e.printStackTrace();
		}
	}

	private static void processNodeList(NodeList list, String keyword) {
		//������ʼ
		SimpleNodeIterator iterator = list.elements();
		while (iterator.hasMoreNodes()) {
			Node node = iterator.nextNode();
			//�õ��ýڵ���ӽڵ��б�
			NodeList childList = node.getChildren();
			//���ӽڵ�Ϊ�գ�˵����ֵ�ڵ�
			if (null == childList)
			{
				//�õ�ֵ�ڵ��ֵ
				String result = node.toPlainTextString();
				//�������ؼ��֣���򵥴�ӡ�����ı�
				if (result.indexOf(keyword) != -1)
					System.out.println(result);
			} //end if
			//���ӽڵ㲻Ϊ�գ����������ú��ӽڵ�
			else 
			{
				processNodeList(childList, keyword);
			}//end else
		}//end wile
	}

��

private static void processNodeList(NodeList list, String keyword)

�÷��ȵķ��ҳ�ڵ㣬��Щ��ĳ��ؼ��ֵ�ֵ�ڵ��ֵ��ӡ��

public static void extractKeyWordText(String url, String keyword)

�÷�� String ��͵� url ��ĳ��ض��ҳ�Ľ�� 1�еķ��ʵ�ּ򵥵ı��

�嵥 3 �Ĵ��չʾ��ε��е��ҳ��Ĺ��ڴ˻��չ��ҵ�ĳ��ض��ҳ�ڲ��ڵ㣬��ʵ�Ϳ��ڱ��еĽڵ��жϣ��Ľڵ��Ƿ��ض��Ҫ��

ʹ�� NodeFilter

NodeFilter ��һ��ӿڣ��κ�һ��Զ�� Filter ��Ҫʵ��ӿ��е� boolean accept() ��ϣ��ҳ�ڵ��ʱ��ǰ�ڵ㣬��ڽڵ��·�� true��򷵻� false��HtmlParse ��ṩ�˺ܶ�ʵ�� NodeFilter �ӿڵ��࣬��һЩ��õ��ģ��Լ��õ� Filter ��һЩ��ܣ�

�� Filter ��߼�� Fitler �У�AndFilter��NotFilter ��OrFilter��XorFilter��

��Щ Filter ��ϲ�ͬ�� Filter��γ�� Filter �߼��ϵ�� Filter��

�жϽڵ�ĺ��ӣ��ֵܣ��Լ��׽ڵ�� Filter �У�HasChildFilter HasParentFilter��HasSiblingFilter��
�жϽڵ㱾�� Filter �� HasAttributeFilter��ж��ڵ��Ƿ��ض��ԣ�LinkStringFilter��жϽڵ��Ƿ��Ǿ��ض�ģʽ (pattern) url �Ľڵ㣻

TagNameFilter��жϽڵ��Ƿ��ض��֣�NodeClassFilter��ж��ڵ��Ƿ��ĳ�� HtmlParser ��õ� Tag ��͡�� org.htmlparser.tags ��ж�Ӧ Html��ǩ�ĸ�� Tag�� LinkTag��ImgeTag �ȡ�

��һЩ Filter ��ﲻһһ�о��ˣ�� org.htmlparser.filters ��ҵ��

�嵥 4 չʾ��ʹ��ᵽ��һЩ filter ��ȡ��ҳ�е� ��ǩ�� href��ֵ�� ǩ�� src ��ֵ��Լ� ��ǩ�� src ��ֵ��

�嵥4

// ��ȡһ����ҳ�����е����Ӻ�ͼƬ����
	public static void extracLinks(String url) {
		try {
			Parser parser = new Parser(url);
			parser.setEncoding("gb2312");
//����  ��ǩ�� filter��������ȡ frame ��ǩ��� src ����������ʾ������
			NodeFilter frameFilter = new NodeFilter() {
				public boolean accept(Node node) {
					if (node.getText().startsWith("frame src=")) {
						return true;
					} else {
						return false;
					}
				}
			};
//OrFilter �����ù���  ��ǩ�� ��ǩ��  ��ǩ��������ǩ�� or �Ĺ�ϵ
	 OrFilte rorFilter = new OrFilter(new NodeClassFilter(LinkTag.class), new 
NodeClassFilter(ImageTag.class));
	 OrFilter linkFilter = new OrFilter(orFilter, frameFilter);
	//�õ����о������˵ı�ǩ
	NodeList list = parser.extractAllNodesThatMatch(linkFilter);
	for (int i = 0; i < list.size(); i++) {
		Node tag = list.elementAt(i);
		if (tag instanceof LinkTag)// ��ǩ 
		{
			LinkTag link = (LinkTag) tag;
			String linkUrl = link.getLink();//url
			String text = link.getLinkText();//��������
			System.out.println(linkUrl + "**********" + text);
		}
		else if (tag instanceof ImageTag)// ��ǩ
		{
			ImageTag image = (ImageTag) list.elementAt(i);
			System.out.print(image.getImageURL() + "********");//ͼƬ��ַ
			System.out.println(image.getText());//ͼƬ����
		}
		else// ��ǩ
		{
//��ȡ frame �� src ���Ե������� 
			String frame = tag.getText();
			int start = frame.indexOf("src=");
			frame = frame.substring(start);
			int end = frame.indexOf(" ");
			if (end == -1)
				end = frame.indexOf(">");
			frame = frame.substring(5, end - 1);
			System.out.println(frame);
		}
	}
} catch (ParserException e) {
			e.printStackTrace();
}
}

��ǿ�� StringBean

��Ҫ��ҳ��ȥ��еı�ǩ��ʣ�µ��ı��Ǿ�� StringBean �ɡ��¼򵥵Ĵ��԰��⣺

�嵥5

StringBean sb = new StringBean();

sb.setLinks(false);//��ý��ȥ��

sb.setURL(url);//��Ҫ�˵��ҳ��ǩ��ҳ�� url

System.out.println(sb.getStrings());//��ӡ��

HtmlParser �ṩ��ǿ��ҳ��ڱ��ּ�ڼ򵥵Ľ��ܣ��ֻ�ǽ��ߺ��沿��йصĹؼ��ʾ��˵��Ȥ�Ķ��߿��ר��о�һ�� HtmlParser ��Ϊǿ��⡣

��ҳ��

��ʵ��

HttpClient �ṩ�˱�� HTTP Э��ʣ�ʹ��ǿ��Ժ��׵ĵõ�ĳ��ҳ��Դ�벢��ڱ��أ�HtmlParser �ṩ��˼��ɵ��⣬��Դ��ҳ�б�ݵ��ȡ��ָ��ҳ�ĳ��ӡ��߽��Դ��һ��׵��档

�� (Crawler) ԭ��

ѧ��ݽṹ�Ķ��߶�֪��ͼ��ݽṹ��ͼ��ʾ��ҳ��ͼ�е�ĳһ��ڵ㣬��ҳ��ָ��ҳ��ӿ��ڵ�ָ��ڵ�ıߣ��ô��Ǻ��׽�� Internet �ϵ��ҳ��ģ��һ��ͼ��ϣ�ͨ��㷨��ͼ��Է��ʵ�Internet �ϵļ��е��ҳ��򵥵ı��ǿ��Լ��ȡ��±��ʵ�ֵļ��ʹ��˿��ȵ��в��ԡ�

ͼ 2. ��ҳ��ϵ�Ľ�ģͼ

��ʵ��

�ڿ��ʵ�ִ��֮ǰ��Ƚ��һ�¼��ȡ��ҳ��̡�

ͼ 3. ��ͼ

��Դ��Լ�˵��

��Ӧ��ͼ��漸��ɣ��ְ��£�

Crawler.java��ڵ��࣬ʵ��ȡ��Ҫ��̡�

LinkDb.java��Ѿ��ʵ� url �ʹ��ȡ�� url ��࣬�ṩurl��Ӳ��

Queue.java�� ʵ��һ��򵥵Ķ��У�� LinkDb.java ��ʹ��˴��ࡣ

FileDownloader.java�� url ��ָ��ҳ��

HtmlParserTool.java�� ȡ��ҳ�е��ӡ�

LinkFilter.java��һ��ӿڣ�ʵ�� accept() ��Գ�ȡ��ӽ��й��ˡ�

��Ǹ��Դ�룬��е�ע��бȽ��ϸ��˵��

�嵥6 Crawler.java

package com.ie;

import java.util.Set;
public class Crawler {
	/* ʹ������ url ��ʼ�� URL ����*/
	private void initCrawlerWithSeeds(String[] seeds)
	{
		for(int i=0;ihttp://www.twt.edu.cn ��ͷ������
			public boolean accept(String url) {
				if(url.startsWith("http://www.twt.edu.cn"))
					return true;
				else
					return false;
			}
		};
		//��ʼ�� URL ����
		initCrawlerWithSeeds(seeds);
		//ѭ����������ץȡ�����Ӳ�����ץȡ����ҳ������ 1000
		while(!LinkDB.unVisitedUrlsEmpty()&&LinkDB.getVisitedUrlNum()<=1000)
		{
			//��ͷ URL ����
			String visitUrl=LinkDB.unVisitedUrlDeQueue();
			if(visitUrl==null)
				continue;
			FileDownLoader downLoader=new FileDownLoader();
			//������ҳ
			downLoader.downloadFile(visitUrl);
			//�� url ���뵽�ѷ��ʵ� URL ��
			LinkDB.addVisitedUrl(visitUrl);
			//��ȡ��������ҳ�е� URL
			
			Set links=HtmlParserTool.extracLinks(visitUrl,filter);
			//�µ�δ���ʵ� URL ���
			for(String link:links)
			{
					LinkDB.addUnvisitedUrl(link);
			}
		}
	}
	//main �������
	public static void main(String[]args)
	{
		Crawler crawler = new Crawler();
		crawler.crawling(new String[]{"http://www.twt.edu.cn"});
	}
}

�嵥7 LinkDb.java

package com.ie;

import java.util.HashSet;
import java.util.Set;

/**
 * ���������Ѿ����ʹ� Url �ʹ����ʵ� Url ����
 */
public class LinkDB {

	//�ѷ��ʵ� url ����
	private static Set visitedUrl = new HashSet();
	//�����ʵ� url ����
	private static Queue unVisitedUrl = new Queue();

	
	public static Queue getUnVisitedUrl() {
		return unVisitedUrl;
	}

	public static void addVisitedUrl(String url) {
		visitedUrl.add(url);
	}

	public static void removeVisitedUrl(String url) {
		visitedUrl.remove(url);
	}

	public static String unVisitedUrlDeQueue() {
		return unVisitedUrl.deQueue();
	}

	// ��֤ÿ�� url ֻ������һ��
	public static void addUnvisitedUrl(String url) {
		if (url != null && !url.trim().equals("")
 && !visitedUrl.contains(url)
				&& !unVisitedUrl.contians(url))
			unVisitedUrl.enQueue(url);
	}

	public static int getVisitedUrlNum() {
		return visitedUrl.size();
	}

	public static boolean unVisitedUrlsEmpty() {
		return unVisitedUrl.empty();
	}
}

�嵥8 Queue.java

package com.ie;

import java.util.LinkedList;
/**
 * ���ݽṹ����
 */
public class Queue {

	private LinkedList queue=new LinkedList();
	
	public void enQueue(T t)
	{
		queue.addLast(t);
	}
	
	public T deQueue()
	{
		return queue.removeFirst();
	}
	
	public boolean isQueueEmpty()
	{
		return queue.isEmpty();
	}
	
	public boolean contians(T t)
	{
		return queue.contains(t);
	}
	
	public boolean empty()
	{
		return queue.isEmpty();
	}
}

�嵥 9 FileDownLoader.java

package com.ie;

import java.io.DataOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.params.HttpMethodParams;

public class FileDownLoader {
	
	/**���� url ����ҳ����������Ҫ�������ҳ���ļ���
	 *ȥ���� url �з��ļ����ַ� 
	 */
	public  String getFileNameByUrl(String url,String contentType)
	{
		url=url.substring(7);//remove http://
		if(contentType.indexOf("html")!=-1)//text/html
		{
			url= url.replaceAll("[\\?/:*|<>\"]", "_")+".html";
			return url;
		}
		else//��application/pdf
		{
return url.replaceAll("[\\?/:*|<>\"]", "_")+"."+ \
          contentType.substring(contentType.lastIndexOf("/")+1);
		}	
	}

	/**������ҳ�ֽ����鵽�����ļ�
	 * filePath ΪҪ������ļ�����Ե�ַ
	 */
	private void saveToLocal(byte[] data,String filePath)
	{
		try {
			DataOutputStream out=new DataOutputStream(
new FileOutputStream(new File(filePath)));
			for(int i=0;i

�嵥 10 HtmlParserTool.java

package com.ie;

import java.util.HashSet;
import java.util.Set;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class HtmlParserTool {
	// ��ȡһ����վ�ϵ�����,filter ������������
	public static Set extracLinks(String url,LinkFilter filter) {

		Set links = new HashSet();
		try {
			Parser parser = new Parser(url);
			parser.setEncoding("gb2312");
			// ���� ��ǩ�� filter��������ȡ frame ��ǩ��� src ��������ʾ������
			NodeFilter frameFilter = new NodeFilter() {
				public boolean accept(Node node) {
					if (node.getText().startsWith("frame src=")) {
						return true;
					} else {
						return false;
					}
				}
			};
			// OrFilter �����ù���  ��ǩ����  ��ǩ
			OrFilter linkFilter = new OrFilter(new NodeClassFilter(
					LinkTag.class), frameFilter);
			// �õ����о������˵ı�ǩ
			NodeList list = parser.extractAllNodesThatMatch(linkFilter);
			for (int i = 0; i < list.size(); i++) {
				Node tag = list.elementAt(i);
				if (tag instanceof LinkTag)//  ��ǩ
				{
					LinkTag link = (LinkTag) tag;
					String linkUrl = link.getLink();// url
					if(filter.accept(linkUrl))
						links.add(linkUrl);
				} else//  ��ǩ
				{
		        // ��ȡ frame �� src ���Ե������� 
					String frame = tag.getText();
					int start = frame.indexOf("src=");
					frame = frame.substring(start);
					int end = frame.indexOf(" ");
					if (end == -1)
						end = frame.indexOf(">");
					String frameUrl = frame.substring(5, end - 1);
					if(filter.accept(frameUrl))
						links.add(frameUrl);
				}
			}
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return links;
	}
	//���Ե� main ����
	public static void main(String[]args)
	{
Set links = HtmlParserTool.extracLinks(
"http://www.twt.edu.cn",new LinkFilter()
		{
			//��ȡ�� http://www.twt.edu.cn ��ͷ������
			public boolean accept(String url) {
				if(url.startsWith("http://www.twt.edu.cn"))
					return true;
				else
					return false;
			}
			
		});
		for(String link : links)
			System.out.println(link);
	}
}
�嵥11 LinkFilter.java
package com.ie;

public interface LinkFilter {
	public boolean accept(String url);
}

��Щ��йؼ��Ĳ��ֶ�� HttpClient �� HtmlParser ��˵��ˣ��Ҳ�Ƚ��ף��Ȥ�Ķ��⡣

��ҳ��

�ܽ�

��ƪ��Ҫ�ǽ��չʾ��ʹ�ÿ�Դ�� HttpClinet �� HtmlParser ��Լ��һ��ʵ�֣��Ȼ��ʵ��滹��ࡣ��ڸ��Ŀ��ǹ�ע��Դ��ã��ϱ��ƪ��ޣ��ˣ�û�ж��Դ��ǳ��꾡�Ľ��ܡ�ϣ��ƪ��ܹ��߶� HttpClient �� HtmlParser ��Ȥ��Ӷ��ǹ��ǿ�� JAVA ��Ӧ�ó��

dongdong�������

��ת�ء�JAVA��ģʽ ժ¼

��ת�ء�HTMLParser�ĳ�������

��ת�ء�ʹ�� HttpClient �� HtmlParser ʵ�ּ�������

dongdong��

��ת�ء�HTMLParser�ĳ��

��ת�ء�ʹ�� HttpClient �� HtmlParser ʵ�ּ��