일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 파이썬
- 운영체제
- 개발
- DataWarehouse
- 관계형데이터베이스
- CS
- Amazon
- AWS
- 웹자동화
- 데이터베이스
- 클라우드
- 웹크롤링
- 데이터웨어하우스
- 자료구조
- 에어플로우
- Service
- SQL
- 프로그래머스
- 알고리즘
- 웹스크래핑
- 기술면접
- 개념정리
- Django
- 데이터엔지니어
- WEB
- 데이터엔지니어링
- 부트캠프
- 데브코스
- 취준
- airflow
- Today
- Total
목록웹크롤링 (10)
사진과 음악을 좋아하는 개발자 지망생의 블로그
1) 나의 영어 타자 실력을 믿지 말자 오늘도 어제와 마찬가지로 에러와 마주치고 만다 사건은 사용자가 직접 설문조사 질문을 작성하여 post 버튼을 누르면 데이터에 사용자가 작성한 질문에 저장되고, 저장이 잘됐다는 내용과 함께 사용자가 저장한 설문조사 질문의 질문 내용과 질문 id, 질문의 소유자(사용자)를 띄워주는 프로그램을 작성하는 데서 발생하였다. 해당 코드를 작성하고 컴파일 한 뒤 POST 버튼을 누르는 순간! 에러 내용을 보니 'owner'라는 변수를 못찾겠다고 하더라 이상하다.. 분명 있는데.. 방금 전 작성한 소스를 아무리 봐도 잘못된 점을 못 찾았다. 그렇다면, 그 윗단에 해당하는 소스에서 잘못된 게 있을 거라 판단하여, 모델들을 정의하는 models.py 소스 파일을 찾아봤고 Questi..
1) templates 폴더 어디로 가지..? 강의를 수강하면서 따라하는데, 분명 그래도 따라했는데... 에러가 발생했다. 내용을 보니 template이 없다는 것이었다. 난 분명 template을 만들었다고 생각했는데, 인식을 못하는 것이다. 그렇다면 templates 폴더의 위치가 잘못됐다는 것이었다. templates 폴더를 조정해주니 해결되었다. 2) 중괄호 두개 쓰는거 정말 맞아? 처음 html에서 매개변수를 쓸 때 중괄호 2개를 쓰는것에 익숙하지 않았다. 처음 봤을 때, 강사님이 잘 못 쓰신줄 알았다. 그래서, 중괄호를 하나만 써봤고, 내가 틀렸다는 것을 확인하였다 3) 띄어쓰기도 조심하자... 매개변수에 있어 띄어스기를 해도 될거 같은데 안쓴것을 보면 한번 의심해보자....
프로그래머스 데이터 엔지니어링 코스를 수강하면서 2주차에 웹스크래핑에 대해 배워봤다. 웹스크래핑을 배우면서 미니프로젝트 하나를 해봐야겠다 생각했고, 토요일인 지금 미니 프로젝트를 진행하고자 했다. 무엇을 할까 고민을 하다가, 최근에 가지고 있던 주식에 수익이 나면서 주식에 대한 관심이 커졌다는 것을 알았다. 따라서! 주식과 관련된 미니프로젝트를 진행해보자 라는 생각이 떠올랐다. 주식을 처음 시작하면 항상 듣는 말이 있다. "싸게 사서, 비싸게 팔아라" 이 말을 뜻을 열심히 찾아보면 바로 나오는 것이 있다 저 PER, 저 PBR 하지만, 요즘 주식 상황을 보면 코인 못지않은 광기와 혼돈 그 자체이기 때문에, 시장 경험이 적은 주린이에게 지금 당장 저 PER, 저 PBR 종목에 접근하는건 조금은 두려운 일이..
워드클라우드 - 파이썬을 활용해 텍스트 구름을 그릴 수 있는 텍스트 클라우드 라이브러리 - 한글을 사용 시 한국어 형태소 분석기 라이브러리인 konlpy를 별도로 설치해줘야 한다 1) wordcloud 및 konlpy 설치 - pip install을 통해 간단하게 설치할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install wordcloud pip install konlpy 2) wordcloud 만들기 - WordCloud를 만드는 방법은 다음과 같습니다. 1. KoNLPy 라이브러리로 한국어 문장을 전처리 2. Counter를 이용해 빈도수 측정 3. WordCloud를 이용해 시각화 - 애국가를 활용하여 워드클라우드 만들기 ① 필요한 라이..
1) 기상청 날씨 스크래핑하기 - 기상청 날씨 가운데 있는 온도들을 스크래핑해서 python을 활용해 꺽은선 그래프를 plot 해보자 1. 관련 라이브러리 import from selenium import webdriver from webdriver_manager.microsoft import EdgeChromiumDriverManager from selenium.webdriver.edge.service import Service from selenium.webdriver.common.by import By import matplotlib.pyplot as plt import seaborn as sns 2. 요소 확인 - 스크래핑하고자 하는 온도 데이터는 id = my-tchart인 class 안에 있는..
Seaborn - 스크래핑으로 데이터 추출만 하면 데이터가 너무 분산되어 보기가 힘들다 - 정보를 요약해서 한 눈에 보여줄 수 있는 '시각화'를 하면 완성도 잇는 결과가 나올 것이다 - Seaborn은 matplotlib을 기반으로 하는 파이썬의 데이터 시각화 라이브러리이다 1) Seaborn 설치 - Seaborn을 사용하기 위해 먼저 Seaborn 라이브러리를 설치해야한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install seaborn ※ 만약 설치가 안된다면 다음 코드를 실행해보자 python -m pip install seaborn 2) Seaborn 시작하기 - seaborn을 사용하..
Selenium 라이브러리 - selenium은 Python을 이용해서 웹 어플리케이션 자동화 및 테스트를 위한 포터블 프레임워크이다 1) selenium 및 webdriver 설치 - selenium을 사용하기 위해 먼저 selenium 프레임워크를 설치해야한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) - webdriver는 사용자를 대신해서 웹 브라우저를 움직이도록 하는 모듈이다 - selenium 4.0 이전 까지는 필요에 따라 각각의 웹 드라이버를 따로 설치해야 했으나(Chrome 사용 시 Chrome webdriver 를 설치) selenium 4.0 부터는 'webdriver-manager'만 ..
1) BeautifulSoup 라이브러리 - 스크래핑 하고자 하는 사이트에 get 요청을 보내서 받은 문서에서 .body를 할 경우 길고 정리되지 않은 텍스트로 인해 분석하기 힘들어 진다 - HTML, XML 등 긴 텍스트를 분석할 수 있도록 Parser를 사용할 수 있게 해주는 Python 패키지가 BeautifulSoup이다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install bs4 2) BeatifulSoup 객체 만들기 - https://www.example.com 사이트에 get 요청을 보내 응답을 받아 requests 객체를 생성하고 이 객체를 활용하여 get요청으로 받은 문서를 Be..