목록Programming/크롤링 (3)
헬린코린이
Selenium은 웹 애플리케이션을 위한 테스팅 프레임워크입니다. 자동화 테스트를 위해 여러 가지 기능을 지원합니다. 다양한 언어에서도 사용이 가능합니다. Beautiful Soap는 웹사이트에서 버튼을 클릭해야 얻을 수 있는 데이터라던가, Javascript에 조건이 충족되어야만 얻을 수 있는 데이터에 접근하는 것에 한계가 있습니다. 그래서, 직접적으로 웹 사이트에 접근할 수 있게 해주는 Selenium을 사용해야 합니다. 새로운 환경에서 웹 브라우저를 대신해 줄 Web Driver가 필요합니다 Web Driver는 Selenium이 사용할 웹 브라우저이고, Selenium으로 자동화하여 웹 사이트를 탐험하면 됩니다.! Chrome에서 사용하려면 크롬 드라이브도 설치해야 하는데 자신이 쓰고 있는 크롬 ..
자바의 크롤러 종류에는 Jsoup , Crawler4 j, Apache Nutch, StormCrawler, 이외에도 여러 가지 종류가 있지만 저는 Jsoup에 대해 알아보겠습니다. 우선 크롤링이란 HTML을 가져와서 데이터를 추출하는 행위입니다. Jsoup 크롤러란 자바의 HTML Parser 이며 URL을 가져와서 HTML을 조작하여 데이터를 추출합니다. HTML5 DOM 메서드와 CSS셀렉터를 사용합니다. Jsoup는 WHATWG HTML5스펙을 구현합니다. Jsoup은 우리가 사용하는 즉 자바에서 기본으로 제공해주는 라이브러리가 아니기 때문에 Jsoup라이브러리를 다운로드하아야 합니다. package client; import java.io.IOException; import java.util.I..