인프런 강의를 하나 듣기 시작했다. 크롤링을 한번 해보고 싶었는데, 막상 시작을 하려고 하니 어디서 시작을 해야할지 감이 오지 않았다. 그래서 혹시나 강의가 있지 않나 해서 검색을 하니, 역시나 검색이 되어서 나온다. 세상에는 참 고마운 분들이 많은 것 같다. 나도 지금까지 일해온 것들을 정리해서 하나씩 공유하고 싶었는데, 막상 시작하려니 쉽지가 않다. 그리고 트렌드 자체가 바뀌어 버려서 정작 내용을 정리해서 공유하더라도 누가 관심을 가져 주겠나 하는 탄식도 하게 되어서, 계속 머뭇거리고는 있다. 좀 더 내공을 쌓으면 시도해봐야겠다. 언제 내공이 쌓일지...
강의는 "파이썬을 이용한 웹 크롤링 서비스 어플리케이션 만들기" 이다. 쉽게 개념과 실전을 설명을 원큐님이 해주셔서 많은 도움이 된 것 같다. 크롤링을 하기 위해서 웹페이지의 요소를 분석을 하는 부분이 있다. 이런 기능을 처음 알게 되었는데, 이 기능을 이용하니깐 지금 보고 있는 요소가 HTML 의 어디에 해당하는지를 금방 알 수 있었다. 툴의 사용법을 잘 익히는 사람이 참 부럽기도 하는데, 한 가지 기술을 쉽게 하나 알게 되었다. 요소를 표현하는 방법이 CSS 와 xpath 를 이용한 방법이 있다는 것을 알게 되었고, 이러한 형태로 웹 브라우저가 기능을 제공한다면 확인해볼 수 있다. 윈도우에서 chrome 을 사용하고 있는 나는 바로 이것을 시도해봤다. 그러나, 윈도우의 chrome 에서는 이 기능이 지원되지 않는 것 같다. 결국 이 기능을 확인해보려면, 원큐님이 사용하고 있는 환경에서 해보는 수 밖에 없었다. 어짜피 강의의 예제도 실행해볼 겸, virtualbox 를 이용해서 ubuntu 16.04 를 설치했다. 기본적인 빌드 환경을 설치해놓고, ubuntu 에서 기본적으로 제공하는 firefox 를 실행해서, 확인해보는 것을 시도했다. 그러나, firefox에서는 요소에 대해서 CSS 를 이용한 표현법만 제공을 했다. 난감했다. 이거 하나 확인해보겠다고 virtualbox, ubuntu 까지 설치했는데... 이제는 ubuntu 에서 chrome 을 설치해야겠다는 생각이 들었다. chrome 웹 사이트 접속해서 다운로드하고 실행. 그러나 진행은 제대로 되지 않고... 파일 자체를 받아서 수작업으로 설치를 시작했지만, 종속성 때문에 설치가 되지 않는 듯 했다.
수작업으로 설치한 내용은,
sudo dpkg -i google-chrome-stable_current_amd64.deb
chrome 데비안 패키지 많으로는 설치가 되지 않는다. libappindicator1 와 ca-certificates 패키지가 우선적으로 설치 되어야 한다.
기존에 실패한 패키지 작업을 되돌리기 위해서,
sudo apt-get remove google-chrome-stable
종속성을 가지는 패키지를 우선 설치하고, 다시 chrome 설치를 시도했다.
sudo apt-get install ca-certificates
sudo apt-get install libappindicator1
sudo dpkg -i google-chrome-stable_current_amd64.deb
무사히, chome 을 설치할 수 있었다.
어이없는 상황이 발생했는데, xpath 확인은 윈도우의 chrome 에서도 확인할 수 있었다. 웹 페이지의 컨텍스트 메뉴에서 바로 볼 수 있다고 생각하고 시도했었는데, 그것이 아니라 요소 검사 윈도우에서 특정 요소에 대해 컨텍스트 메뉴를 이용해야 하는 것이었다. 삽질을 엄청하긴 했지만, chrome 을 설치했다는 부분으로 만족하는 수 밖에... 종종 차분하지 못한 나의 모습이 안타깝게 느껴지긴 한다.
'잡(job)기술' 카테고리의 다른 글
리눅스 배포판 버전 확인 (0) | 2018.03.13 |
---|---|
Typedef된 struct 에 대한 forward declaration (0) | 2018.03.13 |
PC 스피커 출력을 녹음 장치 입력으로 넣기 (2) | 2016.10.05 |
JQuery 개념 (0) | 2016.09.29 |
aptana studio 3 설치 후 몇 가지 문제 개선 방법 (0) | 2016.09.28 |