티스토리 뷰


웹을 크롤링하는 비즈니스 아이디어를 가지고 있다면 한 번쯤 봉착하는 문제인 “크롤링은 합법인가?”에 대한 질문을 하게 된다.


이커머스 사이트에서 상품 정보를 크롤링하는 것이 합법인가에 대한 질문에서 Quora에서의 답변들은 기본적으로 크롤링 또는 스크래핑 자체가 불법이지는 않다는 의견이다. E-Commerce의 상품을 크롤링해 가격을 비교하는 것이 합법이냐의 질문에 윈도우 쇼핑으로 사람들이 검색을 하고 가격 분석을 하듯이 그 과정을 자동화시켰을 뿐이라는 것이다. 그렇기 때문에 크롤링하는 사이트에 허락을 받을 필요는 없다고 한다. 또한 현재에 이미 많은 가격 비교 사이트들이 존재한다. 만약 이것이 불법이었으면 이런 사이트들이 현재 존재하지 않을 것이다. 


사실 크롤링이 합법이냐에 대한 문제는 2000년 초부터 꾸준히 법적 공방이 이루어져 왔다. 각 웹 사이트는 robots.txt라는 파일을 루트위치에 두어 검색엔진이 크롤링을 하지 않길 바라는 부분을 표시하고 액세스 권한을 알려준다. 

아마존 예시: https://www.amazon.com/robots.txt

하지만 robots.txt는 지침에 지나지 않고 크롤러 동작을 강요할 수는 없다. 따라서 웹사이트 입장에서는 웹페이지를 제작할 때 민감한 정보는 크롤러가 애초에 접근하지 못하게 하는 것이 좋다. 


어떤 해커가 AT&T에 사용자 email을 공개하는 부분을 크롤링해 수많은 사람들의 email 정보를 가져온 것은 가져오는 방식 자체에는 문제가 없었지만 개인정보침해 관련 사례가 되기도 했다.

국내에서는 사람인이 크롤링으로 경쟁사 네이버 검색을 허용한 잡코리아의 채용정보를 가져와 사업기회로 이용한 부분에 대해서 아무리 채용회사를 통해 허락을 받았다고 해도 불법성 있다 판결이 난 사례가 있었다. 


결론적으로 크롤링이 문제가 아니라 어떤 데이터를 가져오느냐에 신경을 써야 한다. 

Quora의 이커머스 분석가이자 디지털 매체 전문가인 Alok singh는 다음과 같은 것을 고려해야 한다고 말하고 있다.

1. 스크랩하는 컨텐츠에 지적재산권이 있는지 

2. 크롤링 하는 행동이 사이트에 큰 부담을 주지 않는지

3. 크롤러가 사이트의 이용방침을 위반하지 않는지

4. 크롤러가 사용자의 민감한 정보를 가져오지 않는지

5. 가져온 컨텐츠를 적합한 사용 표준하에 사용하는지



참고문헌

이커머스 사이트 크롤링은 합법인가?, https://www.quora.com/Is-it-legal-to-crawl-E-commerce-websites-like-Amazon-Flipkart-Snapdeal-Paytm

사람인 케이스, http://byline.network/2016/02/1-64/

불법적인 크롤링 대응 방안은?, http://m.ddaily.co.kr/m/m_article.html?no=151940

robots.txt 파일에 대해 자세히 알아보기, https://support.google.com/webmasters/answer/6062608?hl=ko

댓글