sitelink1 https://blog.naver.com/dlwjddk1010/222968808344 
sitelink2 https://jsoup.org/ 
sitelink3  
extra_vars4  
extra_vars5  
extra_vars6  

※ 웹 크롤링 정의

  • 웹의 정보를 자동으로 수집하는 것
  • HTML 페이지를 가져와서 HTML/CSS등을 파싱하고 필요한 데이터만 추출하는 기법
  • Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서 받은 데이터 중 필요한 데이터만 추출하는 기법

 

※ jsoup 기능

  • URL, 파일, 문자열을 소스로 하여 HTML을 파싱할 수 있습니다.
  • DOM 구조를 추적하거나 익숙한 CSS 선택자를 사용하여 데이터를 찾아 추출할 수 있습니다.
  • 문서내의 HTML 요소, 속성, 텍스트를 조작할 수 있습니다.
  • 사용자가 입력한 데이터로부터 XSS(Cross-Site Script) 공격을 방지하기 위해서 안전한 화이트 리스트 방식으로 지정된 태그만 남기고 나머지는 제거할 수 있습니다.
  • 깔끔한 형태의 html 을 출력할 수 있습니다.

 

 jsoup 사용방법 (출처 : sitelink1)

2023-08-09 오후 8-09-50.png