파이썬 웹 크롤링 예제 알아 보겠습니다.

beautifulsoup  예제 입니다.

 

파이썬 설치를 하지 않으신 분은 파이썬 설치 링크 를 참고 하세요.

 

beautifulsoup을 설치 하지 않으신 분은 beautifulsoup 설치 링크를 참고 하세요. 

 

첫번째 네모 부분에는 어디를 크롤링 할지 물어보는  안내하는 문구 입니다. 

input('~~~') : ~~~ 부분은 마음대로 변경하셔도 됩니다.

 

두번째 네모 부분은 어떤 태그를 크롤링 할지 정하는 문법입니다.

soup('~~~') : ~~~ 부분에 크롤링 원하는 태그로 변경하셔도 됩니다.

 

세번째 네모 부분은 두번째 네모에서 크롤링 한 태그 중에 어떤 단어가 있으면 그 단어에 해당하는 내용을 가지고 오라는 뜻입니다. 설명이 어려운에 실습하실 때 보시면 이해가 되실 겁니다.

prtin(tag.get('~~~',None)) : ~~~ 부분에 원하는 단어를 입력하시면 됩니다.

 

 

 

저는 위의 내용대로 개발을 한 후에 bs4_1.py 라는 파일명으로 저장하였습니다. 원하시는 파일명으로 저장하시면 됩니다.

 

그리고 해당 파일이 저장되어 있는 위치로 가셔서 실행하시면 됩니다. 

 

 

위의 그림처럼 명령 프롬프트를 실행하시면 됩니다.  윈도우에서는 윈도우버튼 + R 을 입력하시고 cmd 로 실행하셔도 됩니다.

 

 

 

 

개발한 파일명 위치로 이동하셔서 해당 파일이 있는지 확인합니다.

 

 

이제 크롤링을 하기 전에 여러분이 크롤링 하고 싶은 사이트를 선택하셔야 합니다.

 

저는 파이썬 공식 홈페이지에서 Documentation (www.pyhton.org/doc) 를

크롤링 해 보겠습니다.

 

저와 동일한 사이트를 크롤링 해보시려면 www.python.org 에 접속하셔서

 Documentation  를 클릭하시면 됩니다.

 

크롤링할 대상을 확인합니다. 저는 www.pyhton.org/doc 입니다.

 

크롤링 할 페이지 화면에서 마우스 오른쪽 버튼을 클릭하시고 페이지 소스 보기를 클릭합니다.

 

 

위와 같은 화면이 보이실 겁니다. 저는 <link > 라는 태그를 크롤링 해보겠습니다.

 

 

 

Ctrl + F (찾기 단축키) 를 클릭하셔서 <link 를 검색하시면

크롤링 할 대상들을 확인하실 수 있습니다. 

 

<link > 라는 태그를 찾아서 저는 href 라는 단어가 있으면

그 해당되는 내용을 불러오게 해보겠습니다.

 

위와 같은 경우는

//ajax ... ,

/static ...

...

같은 내용들이 불러와지겠죠? 

 

이제 정상적으로 불러오는지 아까 개발한 파일을 실행해 보겠습니다. 

 

py bs4_1.py 로 실행을 하시고 

( bs4_1.py 부분에 여러분이 개발해서 저장한 파일명을 입력하세요.)

 

실행할 웹 주소를 입력하세요 : 라는 문구가 나오면 거기에 사이트를 입력하시면 됩니다. 

 

파일을 수행했을 때 바로 밑에 결과를 확인해보면

저희가 예상한 데이터가 잘 출력되는 것을 확인하실 수 있습니다. 

 

 

 

 

이번에는 <link > 태그 대신에 <a > 태그를 크롤링하도록 변경하고 저장해보겠습니다.

 

 

 

 

저희가 크롤링 할 대상들을 미리 확인해보겠습니다. 

 

#content
#python-network

...

https://docs.python.org  

위와 같은 내용들이 불러와지면 정상이겠죠? 

 

해당 파일을 실행하니 위와 같이 예상된 값들을 잘 불러오는 것을 확인할 수 있었습니다.

 

이상으로 beautifulSoup 을 활용한 파이썬 웹 크롤링 예제를 알아보았습니다.

 

고맙습니다. 

 

 

beautifulsoup 을 import 하려고 하였을 때 에러가 발생한다면
beautifulsoup 설치가 정상적으로 되지 않았을 수 있습니다.

 

from bs4 import BeautifulSoup

을 수행하였을 때 아래와 같이 에러가 발생하면 pip install을 설치하시기 바랍니다.

 

beautifulsoup 설치 링크를 참고하시거나
아래처럼 파이선 설치 경로로 이동하신 후에 설치해보세요.

 

 

파이썬을 설치한 경로로 이동하신 후에 Scripts 으로 한번 더 이동하셔야 합니다.

 

 

 

해당 경로에서 설치하시면 정상적으로 설치가 될겁니다.

 

 

정상적으로 설치가 되셨으면 아래와 같이 에러가 발생하지 않고  파이썬 개발 프로그램에서도 자동완성이 정상적으로 출력되는 것을 확인하실 수 있습니다.

 

 

 

 

파이썬 크롤링 중에 대표적인 BeautifulSoup 를 설치 해 보겠습니다.

 

기존에 설치되어 있지 확인하기 위해서는 명령프롬프트에서 아래와 같이

from bs4 import BeautifulSoup 

실행하였을 때 아래와 같이 에러가 발생하면 설치가 안된 상태일겁니다.

 

 

설치 시작

 

1. 명령 프롬프트를 실행

 

2. 파이썬을 설치한 위치 에서 Scripts 폴더로 이동 (설치 경로는 사람마다 다를 수 있으니 모르실 경우 아래를 참고해주세요)

 

3. pip install 명령어를 통해서 설치  

   pip install beautifulsoup4 

 

 

 

 

 

돋보기 검색창을 누르신 후 python.exe 를 검색한 후에 파일 위치 열기를 클릭합니다.

python만 검색하시지 마시고 뒤에 .exe 확장자명까지 검색을 해주셔야 합니다.

 

 

해당 위치로 이동하면 Scripts 폴더를 클릭해서 이동합니다.

 

scrips 폴더로 이동하셨으면 아래와 같이 해당 경로를 클릭한 후에  복사합니다.

 

위와 같이 해당 경로로 이동한 후에 pip install 를 통해 설치를 진행합니다. 

 

 pip install beautifulsoup4 

 

 

Successfully installed 가 정상적으로 출력되었으면 설치가 성공된 것입니다.

 

인터넷이 연결되어 있지 않을 경우에는 pip로는 설치가 불가능합니다. 

 

명령 프롬프트에서 python 을 입력하신 후에

 

from bs4 import BeautifulSoup 를 실행합니다.

 

위와 같이 아무 에러 메세지가 발생하지 않으면 정상적으로 설치가 완료된 것입니다.

 

 

에디터를 사용하시는 분들은 위와 같이 자동완성이 뜨면 정상적으로 설치된 것입니다.

 

고맙습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

+ Recent posts