일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 취준
- 데이터베이스
- Amazon
- airflow
- 자료구조
- 클라우드
- 웹스크래핑
- 프로그래머스
- CS
- 기술면접
- AWS
- 부트캠프
- 데이터엔지니어
- DataWarehouse
- 알고리즘
- 개념정리
- Django
- Service
- WEB
- 에어플로우
- 데브코스
- 개발
- 데이터엔지니어링
- 파이썬
- 데이터웨어하우스
- 운영체제
- SQL
- 웹크롤링
- 웹자동화
- 관계형데이터베이스
- Today
- Total
목록웹스크래핑 (8)
사진과 음악을 좋아하는 개발자 지망생의 블로그
프로그래머스 데이터 엔지니어링 코스를 수강하면서 2주차에 웹스크래핑에 대해 배워봤다. 웹스크래핑을 배우면서 미니프로젝트 하나를 해봐야겠다 생각했고, 토요일인 지금 미니 프로젝트를 진행하고자 했다. 무엇을 할까 고민을 하다가, 최근에 가지고 있던 주식에 수익이 나면서 주식에 대한 관심이 커졌다는 것을 알았다. 따라서! 주식과 관련된 미니프로젝트를 진행해보자 라는 생각이 떠올랐다. 주식을 처음 시작하면 항상 듣는 말이 있다. "싸게 사서, 비싸게 팔아라" 이 말을 뜻을 열심히 찾아보면 바로 나오는 것이 있다 저 PER, 저 PBR 하지만, 요즘 주식 상황을 보면 코인 못지않은 광기와 혼돈 그 자체이기 때문에, 시장 경험이 적은 주린이에게 지금 당장 저 PER, 저 PBR 종목에 접근하는건 조금은 두려운 일이..
워드클라우드 - 파이썬을 활용해 텍스트 구름을 그릴 수 있는 텍스트 클라우드 라이브러리 - 한글을 사용 시 한국어 형태소 분석기 라이브러리인 konlpy를 별도로 설치해줘야 한다 1) wordcloud 및 konlpy 설치 - pip install을 통해 간단하게 설치할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install wordcloud pip install konlpy 2) wordcloud 만들기 - WordCloud를 만드는 방법은 다음과 같습니다. 1. KoNLPy 라이브러리로 한국어 문장을 전처리 2. Counter를 이용해 빈도수 측정 3. WordCloud를 이용해 시각화 - 애국가를 활용하여 워드클라우드 만들기 ① 필요한 라이..
1) 기상청 날씨 스크래핑하기 - 기상청 날씨 가운데 있는 온도들을 스크래핑해서 python을 활용해 꺽은선 그래프를 plot 해보자 1. 관련 라이브러리 import from selenium import webdriver from webdriver_manager.microsoft import EdgeChromiumDriverManager from selenium.webdriver.edge.service import Service from selenium.webdriver.common.by import By import matplotlib.pyplot as plt import seaborn as sns 2. 요소 확인 - 스크래핑하고자 하는 온도 데이터는 id = my-tchart인 class 안에 있는..
Seaborn - 스크래핑으로 데이터 추출만 하면 데이터가 너무 분산되어 보기가 힘들다 - 정보를 요약해서 한 눈에 보여줄 수 있는 '시각화'를 하면 완성도 잇는 결과가 나올 것이다 - Seaborn은 matplotlib을 기반으로 하는 파이썬의 데이터 시각화 라이브러리이다 1) Seaborn 설치 - Seaborn을 사용하기 위해 먼저 Seaborn 라이브러리를 설치해야한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install seaborn ※ 만약 설치가 안된다면 다음 코드를 실행해보자 python -m pip install seaborn 2) Seaborn 시작하기 - seaborn을 사용하..
Selenium 라이브러리 - selenium은 Python을 이용해서 웹 어플리케이션 자동화 및 테스트를 위한 포터블 프레임워크이다 1) selenium 및 webdriver 설치 - selenium을 사용하기 위해 먼저 selenium 프레임워크를 설치해야한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) - webdriver는 사용자를 대신해서 웹 브라우저를 움직이도록 하는 모듈이다 - selenium 4.0 이전 까지는 필요에 따라 각각의 웹 드라이버를 따로 설치해야 했으나(Chrome 사용 시 Chrome webdriver 를 설치) selenium 4.0 부터는 'webdriver-manager'만 ..
1) BeautifulSoup 라이브러리 - 스크래핑 하고자 하는 사이트에 get 요청을 보내서 받은 문서에서 .body를 할 경우 길고 정리되지 않은 텍스트로 인해 분석하기 힘들어 진다 - HTML, XML 등 긴 텍스트를 분석할 수 있도록 Parser를 사용할 수 있게 해주는 Python 패키지가 BeautifulSoup이다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install bs4 2) BeatifulSoup 객체 만들기 - https://www.example.com 사이트에 get 요청을 보내 응답을 받아 requests 객체를 생성하고 이 객체를 활용하여 get요청으로 받은 문서를 Be..
1) 웹 크롤링과 웹스크래핑 - 웹 스크래핑 : 특정한 목적으로 특저어 웹 페이지에서 데이터를 추출하는 것 - 데이터 추출 - 웹 크롤링 : URL을 타고다니며 반복적으로 데이터를 가져오는 과정(인덱싱) - 데이터 색인 2) 올바르게 HTTP 요청하기 ① HTTP를 올바르게 요청하게 위해 교려해야 할 것들 - 웹 스크레핑/크롤링으르 통해 "어떤 목적"을 달성하고자 하는가? → 웹 스크래핑/크롤링 시 상업적으로 사용할 경우 저작권에 침해하는 것이 없는지 확인해야 한다 - 무분별한 요청은 사이버 공격과 다름 없기 때문에 웹 스크래핑/크롤링 시 서버에 영향이 없는지 확인해봐야 한다 3) 로봇 배제 프로토콜(REP) - 웹 브라우징은 사람이 아닌 로봇이 진행할 수 있다 → 웹 스크래핑/크롤링은 로봇도 진행할 수..
1) requests 라이브러리 - Python을 이용해서 간단한 HTTP 통신을 진행할 수 있는 라이브러리 ※ requests 라이브러리 설치 - requests 라이브러리는 표준 라이브러리가 아니기 때문에 따로 설치를 진행해야 한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install requests 2) Get - 정보를 달라고 요청하기 - 아래 코드는 작성자 블로그에 get 방식으로 요청한 후 결과를 보는 코드이다 - get 방식으로 요청 시 '객체'를 반환 받게되며 응답코드가 '200' 일 경우 해당 URL로 부터 정상적으로 정보를 받은것이다 #requess 라이브러리을 불러온 후, Na..