1. 파싱(Parsing)이란?
파싱(Parshing)이란 어떤 페이지(문서, HTML 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보로 가공하는 것을 말함. 주로 웹 페이지 소스나, 문서 등에서 행해지며 주로 HTML Tag, Xpath 등을 분석해 1차 적인 파싱(Parsing) 작업을 거치며 Python에서는 Beautifulsoup 모듈을 이용한다. 조금 더 Detail한 정보 수집이 필요할 경우 주로 정규 표현식을 이용한다. Python에서는 re 모듈을 사용하여 정규 표현식을 사용한 데이터 파싱(Parshing)을 진행한다.
//re - Regex(Regular Expression) - 정규 표현식
2. 크롤링(Crawling)이란?
영어의 사전적 의미를 찾아보면 기어다니다는 의미로 Web상을 돌아다니며 정보를 수집하는 행위를 빗대어서 만들어진 단어라고 한다. 웹 상의 페이지를 수집해서 분류하고 저장한 후에 나중에 쉽게 찾아볼 수 있도록 하는 일종의 로봇이며, 데이터를 저장한 후 쉽게 찾을 수 있도록 인덱싱하는 작업을 진행합니다. 쉽게 말해 데이터를 수집하고 분류하는 것을 크롤링(Crawling)이라고 지칭한다고 생각하면 편할 것 같다.
3. 스크래핑(Scraping)이란?
본인 기준에서 웹 크롤링(Crawling)한 데이터를 파싱(Parshing)하여 Web에서 필요한 데이터를 추출하는 것으로 이해 하였습니다.
** 참고 사이트 **
: en.wikipedia.org/wiki/Web_crawler
'Python > Parshing&Crawling' 카테고리의 다른 글
Selenium을 이용한 웹 크롤링 - 3 (Iframe 이동) (0) | 2020.12.04 |
---|---|
Selenium을 이용한 웹 크롤링 - 2 (세션 종료 및 이동) (0) | 2020.12.04 |
Selenium을 이용한 웹 크롤링 - 1 (기초) (0) | 2020.12.03 |