일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- WEB
- 개념정리
- 기술면접
- 웹크롤링
- AWS
- 운영체제
- 개발
- 파이썬
- 자료구조
- airflow
- 클라우드
- 알고리즘
- 부트캠프
- DataWarehouse
- Django
- 에어플로우
- 관계형데이터베이스
- Amazon
- 취준
- Service
- 데이터웨어하우스
- 웹스크래핑
- CS
- 웹자동화
- 데브코스
- SQL
- 데이터베이스
- 데이터엔지니어
- 프로그래머스
- 데이터엔지니어링
- Today
- Total
목록개발/웹 스크래핑 (16)
사진과 음악을 좋아하는 개발자 지망생의 블로그

워드클라우드 - 파이썬을 활용해 텍스트 구름을 그릴 수 있는 텍스트 클라우드 라이브러리 - 한글을 사용 시 한국어 형태소 분석기 라이브러리인 konlpy를 별도로 설치해줘야 한다 1) wordcloud 및 konlpy 설치 - pip install을 통해 간단하게 설치할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install wordcloud pip install konlpy 2) wordcloud 만들기 - WordCloud를 만드는 방법은 다음과 같습니다. 1. KoNLPy 라이브러리로 한국어 문장을 전처리 2. Counter를 이용해 빈도수 측정 3. WordCloud를 이용해 시각화 - 애국가를 활용하여 워드클라우드 만들기 ① 필요한 라이..

1) 기상청 날씨 스크래핑하기 - 기상청 날씨 가운데 있는 온도들을 스크래핑해서 python을 활용해 꺽은선 그래프를 plot 해보자 1. 관련 라이브러리 import from selenium import webdriver from webdriver_manager.microsoft import EdgeChromiumDriverManager from selenium.webdriver.edge.service import Service from selenium.webdriver.common.by import By import matplotlib.pyplot as plt import seaborn as sns 2. 요소 확인 - 스크래핑하고자 하는 온도 데이터는 id = my-tchart인 class 안에 있는..

Seaborn - 스크래핑으로 데이터 추출만 하면 데이터가 너무 분산되어 보기가 힘들다 - 정보를 요약해서 한 눈에 보여줄 수 있는 '시각화'를 하면 완성도 잇는 결과가 나올 것이다 - Seaborn은 matplotlib을 기반으로 하는 파이썬의 데이터 시각화 라이브러리이다 1) Seaborn 설치 - Seaborn을 사용하기 위해 먼저 Seaborn 라이브러리를 설치해야한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install seaborn ※ 만약 설치가 안된다면 다음 코드를 실행해보자 python -m pip install seaborn 2) Seaborn 시작하기 - seaborn을 사용하..

Selenium 라이브러리 - selenium은 Python을 이용해서 웹 어플리케이션 자동화 및 테스트를 위한 포터블 프레임워크이다 1) selenium 및 webdriver 설치 - selenium을 사용하기 위해 먼저 selenium 프레임워크를 설치해야한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) - webdriver는 사용자를 대신해서 웹 브라우저를 움직이도록 하는 모듈이다 - selenium 4.0 이전 까지는 필요에 따라 각각의 웹 드라이버를 따로 설치해야 했으나(Chrome 사용 시 Chrome webdriver 를 설치) selenium 4.0 부터는 'webdriver-manager'만 ..

1) BeautifulSoup으로 원하는 요소 추출하기 - 다음 사이트에 있는 책들의 이름 정보를 스크래핑 해보자 http://books.toscrape.com/catalogue/category/books/travel_2/index.html Travel | Books to Scrape - Sandbox £44.34 In stock books.toscrape.com - 해당 웹 페이지는 임의의 책 정보가 담긴 웹 사이트이다. - 스크래핑을 하기 위해선 특정 웹 페이지 전체에 어디 있는지 알아야 한다 - 그러기 위해선 전체 HTML을 분석할 줄 알아야 하는데, 이것을 돕는 도구가 웹브라우저의 '개발자 도구' 이다 - 알고싶은 곳에 커서를 두고 우클릭 후 검사 를 누르면 된다. - 개발자 도구를통해 요소를 확..

1) BeautifulSoup 라이브러리 - 스크래핑 하고자 하는 사이트에 get 요청을 보내서 받은 문서에서 .body를 할 경우 길고 정리되지 않은 텍스트로 인해 분석하기 힘들어 진다 - HTML, XML 등 긴 텍스트를 분석할 수 있도록 Parser를 사용할 수 있게 해주는 Python 패키지가 BeautifulSoup이다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install bs4 2) BeatifulSoup 객체 만들기 - https://www.example.com 사이트에 get 요청을 보내 응답을 받아 requests 객체를 생성하고 이 객체를 활용하여 get요청으로 받은 문서를 Be..

1) 웹 크롤링과 웹스크래핑 - 웹 스크래핑 : 특정한 목적으로 특저어 웹 페이지에서 데이터를 추출하는 것 - 데이터 추출 - 웹 크롤링 : URL을 타고다니며 반복적으로 데이터를 가져오는 과정(인덱싱) - 데이터 색인 2) 올바르게 HTTP 요청하기 ① HTTP를 올바르게 요청하게 위해 교려해야 할 것들 - 웹 스크레핑/크롤링으르 통해 "어떤 목적"을 달성하고자 하는가? → 웹 스크래핑/크롤링 시 상업적으로 사용할 경우 저작권에 침해하는 것이 없는지 확인해야 한다 - 무분별한 요청은 사이버 공격과 다름 없기 때문에 웹 스크래핑/크롤링 시 서버에 영향이 없는지 확인해봐야 한다 3) 로봇 배제 프로토콜(REP) - 웹 브라우징은 사람이 아닌 로봇이 진행할 수 있다 → 웹 스크래핑/크롤링은 로봇도 진행할 수..

1) requests 라이브러리 - Python을 이용해서 간단한 HTTP 통신을 진행할 수 있는 라이브러리 ※ requests 라이브러리 설치 - requests 라이브러리는 표준 라이브러리가 아니기 때문에 따로 설치를 진행해야 한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install requests 2) Get - 정보를 달라고 요청하기 - 아래 코드는 작성자 블로그에 get 방식으로 요청한 후 결과를 보는 코드이다 - get 방식으로 요청 시 '객체'를 반환 받게되며 응답코드가 '200' 일 경우 해당 URL로 부터 정상적으로 정보를 받은것이다 #requess 라이브러리을 불러온 후, Na..