Python/Parshing&Crawling

Parsing, Crawling 이란?

김모우 2020. 12. 3. 19:42
728x90
반응형

 

1. 파싱(Parsing)이란?

 

파싱(Parshing)이란 어떤 페이지(문서, HTML 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보로 가공하는 것을 말함. 주로 웹 페이지 소스나, 문서 등에서 행해지며 주로 HTML Tag, Xpath 등을 분석해 1차 적인 파싱(Parsing) 작업을 거치며 Python에서는 Beautifulsoup 모듈을 이용한다. 조금 더 Detail한 정보 수집이 필요할 경우 주로 정규 표현식을 이용한다. Python에서는 re 모듈을 사용하여 정규 표현식을 사용한 데이터 파싱(Parshing)을 진행한다. 

//re - Regex(Regular Expression) - 정규 표현식

 

 

 

2. 크롤링(Crawling)이란?

 

영어의 사전적 의미를 찾아보면 기어다니다는 의미로 Web상을 돌아다니며 정보를 수집하는 행위를 빗대어서 만들어진 단어라고 한다. 웹 상의 페이지를 수집해서 분류하고 저장한 후에 나중에 쉽게 찾아볼 수 있도록 하는 일종의 로봇이며, 데이터를 저장한 후 쉽게 찾을 수 있도록 인덱싱하는 작업을 진행합니다. 쉽게 말해 데이터를 수집하고 분류하는 것을 크롤링(Crawling)이라고 지칭한다고 생각하면 편할 것 같다.

 

 

 

3. 스크래핑(Scraping)이란?

 

본인 기준에서 웹 크롤링(Crawling)한 데이터를 파싱(Parshing)하여 Web에서 필요한 데이터를 추출하는 것으로 이해 하였습니다.

 

 

 

** 참고 사이트 **

: en.wikipedia.org/wiki/Web_crawler

 

Web crawler - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search Software which systematically browses the World Wide Web This article is about the internet bot. For the search engine, see WebCrawler. "Web spider" redirects here. It is not to be con

en.wikipedia.org

 

 

 

728x90
반응형