Отправляем поисковый запрос в Google с помощью Java и jsoup — TechCave

Этот пример показывает, как использовать jsoup для отправки поискового запроса в Google. Document doc = Jsoup .connect("https://www.google.com/search?q=mario"); .userAgent("Mozilla/5.0") .timeout(5000)

Отправляем поисковый запрос в Google с помощью Java и jsoup

JAVA

Отправляем поисковый запрос в Google с помощью Java и jsoup

Этот пример показывает, как использовать jsoup для отправки поискового запроса в Google.




Document doc = Jsoup
	.connect("https://www.google.com/search?q=mario");
	.userAgent("Mozilla/5.0")
	.timeout(5000).get();

jsoup пример

Пример для отправки поискового запроса «techcave» в Google, с анализом результатов поиска и выделением имен доменов.

FunnyCrawler.java

package com.mkyong;

import java.io.IOException;
import java.util.HashSet;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class FunnyCrawler {

  private static Pattern patternDomainName;
  private Matcher matcher;
  private static final String DOMAIN_NAME_PATTERN
	= "([a-zA-Z0-9]([a-zA-Z0-9\\-]{0,61}[a-zA-Z0-9])?\\.)+[a-zA-Z]{2,6}";
  static {
	patternDomainName = Pattern.compile(DOMAIN_NAME_PATTERN);
  }

  public static void main(String[] args) {

	FunnyCrawler obj = new FunnyCrawler();
	Set<String> result = obj.getDataFromGoogle("techcave");
	for(String temp : result){
		System.out.println(temp);
	}
	System.out.println(result.size());
  }

  public String getDomainName(String url){

	String domainName = "";
	matcher = patternDomainName.matcher(url);
	if (matcher.find()) {
		domainName = matcher.group(0).toLowerCase().trim();
	}
	return domainName;

  }

  private Set<String> getDataFromGoogle(String query) {

	Set<String> result = new HashSet<String>();
	String request = "https://www.google.com/search?q=" + query + "&num=20";
	System.out.println("Sending request..." + request);

	try {

		// need http protocol, set this as a Google bot agent :)
		Document doc = Jsoup
			.connect(request)
			.userAgent(
			  "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)")
			.timeout(5000).get();

		// get all links
		Elements links = doc.select("a[href]");
		for (Element link : links) {

			String temp = link.attr("href");
			if(temp.startsWith("/url?q=")){
                                //use regex to get domain name
				result.add(getDomainName(temp));
			}

		}

	} catch (IOException e) {
		e.printStackTrace();
	}

	return result;
  }

}

Вывод

Sending request...https://www.google.com/search?q=techcave&num=20
www.thingiverse.com
twitter.com
www.facebook.com
www.ims.fm
techcave.ru
www.linkedin.com
ibizaliveradio.com
store.nanight.se
ams.auburnschl.edu
www.pilotpainting.com
webcache.googleusercontent.com
langfordtechcave.ca
www.qualcomm.com
www.onlinedivegear.com.au
www.thetechcave.com
www.google.com
www.youtube.com
championsonline.wikia.com
www.cave.org.vt.edu
coachdanny.blogspot.com
20
10:12
1909

Нет комментариев. Ваш будет первым!

Авторизация

Пользователи

Keyleas
Kirby
Имя Фамилия
lunchcalllina1978
Sever
stopresniebots1983
tekino
templide
Seangle