일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 에어플로우
- 자료구조
- 웹크롤링
- 운영체제
- 데이터엔지니어링
- 데이터베이스
- WEB
- 클라우드
- 부트캠프
- AWS
- 데이터웨어하우스
- 데브코스
- 파이썬
- 개발
- 관계형데이터베이스
- Amazon
- 프로그래머스
- 기술면접
- Service
- SQL
- 알고리즘
- Django
- 웹자동화
- DataWarehouse
- CS
- 웹스크래핑
- 개념정리
- airflow
- 데이터엔지니어
- 취준
- Today
- Total
목록데이터엔지니어 (61)
사진과 음악을 좋아하는 개발자 지망생의 블로그
1) 웹 크롤링과 웹스크래핑 - 웹 스크래핑 : 특정한 목적으로 특저어 웹 페이지에서 데이터를 추출하는 것 - 데이터 추출 - 웹 크롤링 : URL을 타고다니며 반복적으로 데이터를 가져오는 과정(인덱싱) - 데이터 색인 2) 올바르게 HTTP 요청하기 ① HTTP를 올바르게 요청하게 위해 교려해야 할 것들 - 웹 스크레핑/크롤링으르 통해 "어떤 목적"을 달성하고자 하는가? → 웹 스크래핑/크롤링 시 상업적으로 사용할 경우 저작권에 침해하는 것이 없는지 확인해야 한다 - 무분별한 요청은 사이버 공격과 다름 없기 때문에 웹 스크래핑/크롤링 시 서버에 영향이 없는지 확인해봐야 한다 3) 로봇 배제 프로토콜(REP) - 웹 브라우징은 사람이 아닌 로봇이 진행할 수 있다 → 웹 스크래핑/크롤링은 로봇도 진행할 수..
1) requests 라이브러리 - Python을 이용해서 간단한 HTTP 통신을 진행할 수 있는 라이브러리 ※ requests 라이브러리 설치 - requests 라이브러리는 표준 라이브러리가 아니기 때문에 따로 설치를 진행해야 한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install requests 2) Get - 정보를 달라고 요청하기 - 아래 코드는 작성자 블로그에 get 방식으로 요청한 후 결과를 보는 코드이다 - get 방식으로 요청 시 '객체'를 반환 받게되며 응답코드가 '200' 일 경우 해당 URL로 부터 정상적으로 정보를 받은것이다 #requess 라이브러리을 불러온 후, Na..
1) 웹 사이트와 웹 페이지 - 웹 화면에 보이는 것 = 웹 속에 있는 문서 하나 → 웹 페이지 - 관련된 웹 페이지의 묶음 → 웹 사이트 2) 웹 페이지는 어떻게 만들어질까? - 웹 페이지는 수 많은 코드로 이뤄짐 - 이 코드들은 클라이언트의 요청에 의해 서버로 부터 받아온 HTTP 응답의 Body임 - 서버와 클라이언트 간 소통 중간에서 웹 브라우저는 HTTP 형식으로 서버에서 클라이언트로 html 요청을 보내고 응답으로 받아 온 html 문서를 우리가 보기 쉬운 형태로 화면에 그려주는(렌더링하는) 역활을 함 3) HTML → 아래 게시글 참고 2023.04.17 - [데이터 엔지니어링 데브코스/웹 크롤링] - [Web Scraping 기초] HTML 기초 ")은 선택사항이 될 수도 있고 필수사힝이 ..
1) 인터넷과 웹 ① 컴퓨터 - 컴퓨터가 발명된 후 사용자들은 문서작성이나 연산 작업 등을 컴퓨터에 위임하였다 - 컴퓨터를 활용해 업무를 하는 사람들이 늘어나면서 서로의 정보를 교환할 필요가 있었다 ② 네트워크 - 컴퓨터를 통한 상호간 정보 공유의 필요성을 해결하고자 서로의 컴퓨터를 연결하여 정보를 교환할 수 있는 네트워크(Network)가 탄생하였다 - 하지만, 지금처럼 컴퓨터 이용자가 기하급수적으로 증가하면서 더 많은 컴퓨터와 연결할 필요가 있었다 - 누구나 컴퓨터를 갖고 있는 시대에 이전 보다 더 많은 사람들과 정보를 공유하고자 네트워크를 형성하였고 이러한 수많은 네트워크를 묶어 근거리 지역 네트워크(Local Area Network, LAN)이 탄생하였다 ③ 인터넷, WWW - 이제 전 세계적으로..
아이디 비밀번호 옵션선택 선택하세요 옵션1 옵션2 옵션3 옵션4 옵션5 약관에 동의합니다 1 2 3 4 안녕하세요 안녕하세요 전송 1) FORM ① - 정보를 제출하기 위한 태그 - 정보를 입력하고 선택할 수 있는 input, selectionbox, textarea 등을 가질 수 있다 - 정보를 제출하기 위한 button을 가진다 - "action"속성으로 정보가 제출되었을 때 페이지를 이동시킬 수 있다 - "method" 속성으로 정보가 제출될 대 처리 방식을 결정할 수 있다 2) 입력과 출력 ① - input, textarea, selection의 설명을 작설할 수 있는 태그 - "for" 속성을 사용하여 연결하고자 하는 태그에 "id" 속성을 지칭하면 label을 클릭하면 연결된 태그가 선택된다 ..
리스트 1) , - 정렬되지 않은 목록 태그 - 기본 불릿(bullet) 형식으로 목록을 그린다 - 태그를 사용하여 목록을 구성할 수 있고 다양한 태그를 포함할 수있다 - 태그의 자식요소로는 태그만 들어와야 한다 - 하위 리스트를 만드려면 태그 안에 , 태그를 사용하면 된다 2) , - 정렬된 목록 태그 - 기본 숫자(1, 2, 3,...) 형식으로 목록을 그린다 - 태그를 사용ㅇ하여 목록을 구성할 수 있고 다양한 태그를 포함할 수 있다 - 태그의 자식요소로는 태그만 들어와야 한다 - 하위 리스트를 만드려면 태그 안에 , 태그를 사용하면 된 3) , , - 설명 목록 태그 - 태그에 사용된 단어 혹은 내용의 설명을 태그에 작성할 수 있다 - 주로 용어사전ㅇ이나 "키 - 값"이 있는 쌍의 목록을 나타낼 때..
- - 에베베베 1) - 문서 내에 이미지를 넣을 수 있는 태그 - 가장 기본적인 이미지 넣는 방법 - "src" 속성을 사용해 이미지의 경로를 넣으면 이미지가 출력됨 ※ 해당 경로에 이미지가 반드시 있어야 함 - "alt" 속성을 사용해 이미지 로딩에 문제가 발생했을 시 대체 텍스트를 띄울 수 있음 2) , - 하나의 독립적인 콘텐츠로 분리하고 그에 대한 설명을 넣을 수 있는 태그 - 태그를 사용해 콘텐츠의 설명 혹은 범례를 추가할 수 있고, 제일 처음이나 제일 아래에 추가해서 사용할 수 있다 - 보통 이미지를 넣는데 인용문, 비디오/오디오 등 문서의 흐름에 참조는 되지만 독립적으로 분리되어도 되는 내용을 담을 수 있 3) - 문서 내에 영상을 첨부할 수 있는 태그 - "src" 속성을 사용해 비디오의..