sitelink1 | https://blog.naver.com/dlwjddk1010/222968808344 |
---|---|
sitelink2 | https://jsoup.org/ |
sitelink3 | |
extra_vars4 | |
extra_vars5 | |
extra_vars6 |
※ 웹 크롤링 정의
- 웹의 정보를 자동으로 수집하는 것
- HTML 페이지를 가져와서 HTML/CSS등을 파싱하고 필요한 데이터만 추출하는 기법
- Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서 받은 데이터 중 필요한 데이터만 추출하는 기법
※ jsoup 기능
- URL, 파일, 문자열을 소스로 하여 HTML을 파싱할 수 있습니다.
- DOM 구조를 추적하거나 익숙한 CSS 선택자를 사용하여 데이터를 찾아 추출할 수 있습니다.
- 문서내의 HTML 요소, 속성, 텍스트를 조작할 수 있습니다.
- 사용자가 입력한 데이터로부터 XSS(Cross-Site Script) 공격을 방지하기 위해서 안전한 화이트 리스트 방식으로 지정된 태그만 남기고 나머지는 제거할 수 있습니다.
- 깔끔한 형태의 html 을 출력할 수 있습니다.
※ jsoup 사용방법 (출처 : sitelink1)
댓글 0
번호 | 제목 | 글쓴이 | 날짜 | 조회 수 |
---|---|---|---|---|
» | Jsoup 을 이용하여 웹 크롤링(Web Crawling) | 황제낙엽 | 2023.08.09 | 12 |
56 | Apache Log4j™ 2 사용하기 | 황제낙엽 | 2023.04.28 | 3 |
55 | Migrating from Log4j 1.x to 2.x | 황제낙엽 | 2023.04.28 | 0 |
54 | SLF4J 를 사용해야 하는 이유 | 황제낙엽 | 2022.09.17 | 0 |
53 | Apache Log4j 2 Configuration 파일 설정 | 황제낙엽 | 2020.04.01 | 150 |
52 | 이클립스에서 JUnit 사용하기 | 황제낙엽 | 2019.04.02 | 101 |
51 | 각 레벨별 출력파일 설정 예제 | 황제낙엽 | 2018.09.18 | 147 |
50 | log4j-1.2.15.jar 와 log4j.properties 예제 | 황제낙엽 | 2017.08.04 | 187 |
49 | POI HSSF, XSSF, SXSSF 성능 분석 | 황제낙엽 | 2013.11.05 | 1590 |
48 | POI-HSSF and POI-XSSF - Java API To Access Microsoft Excel Format Files | 황제낙엽 | 2013.11.05 | 984 |
47 | Commons Logging과 Log4J | 황제낙엽 | 2013.03.07 | 102 |
46 | Library & Properties 파일 | 황제낙엽 | 2011.12.23 | 313 |
45 | Cell 의 wrap 설정 (텍스트 개행) | 황제낙엽 | 2011.05.09 | 2965 |
44 | XSSF Examples | 황제낙엽 | 2011.05.04 | 254 |
43 | 병합된 셀의 스타일( border) 설정하기 | 황제낙엽 | 2011.05.03 | 1563 |
42 | 셀 크기 조정 (자동 크기 조정) | 황제낙엽 | 2011.05.03 | 7740 |
41 | 셀 병합 | 황제낙엽 | 2011.05.03 | 148 |
40 | WebSphere 에서 Log4j 사용하기 | 황제낙엽 | 2011.04.15 | 52 |
39 | Map 사용 예제 | 황제낙엽 | 2010.10.17 | 16 |
38 | Digester/FAQ | 황제낙엽 | 2010.10.16 | 110 |