목록Data Engineering (23)
데이터로그😎
MPP(Massively Parallel Processing) MPP 구조 - 각각 다른 Machine & 각각 다른 DB - 여러개의 컴퓨터 특징 - 대용량 병렬 처리 개념의 등장 → 슈퍼컴퓨터(기상청,..) - 컴터 한대한대씩 거대한 데이터베이스를 하나씩 담당해서 따로따로 병렬로 처리 처리 순서 1. 중앙 컴퓨터가 명령 내림(Communications Facility) 2. 명령받은 머신들은 데이터를 분할해서 병렬처리한다. 단점 - 비싸다. - 데이터끼리 조인 필요할때는? 필연적으로 컴터들끼리의 네트워크 통신 필요.. - 한 컴터가 담당하는 데이터가 만약 2.5TB라면…. 이걸 컴터끼리 주고받는게 부담된다. = interconnect → 이를 대체하는 것이 HDFS - 이 때 GFS(Google Fi..
mysql 계정 생성하기 id: air/ pw: 1234 생성해볼것 먼저 ubuntu에서 mysql 계정을 사용하여 아래 명령어를 입력하고 들어간다. mysql -u jeeyeon -p (jeeyeon 이라는 계정으로 패스워드 입력해서 접속할게요) jeeyeon 자리에 각자의 mysql 계정을 입력하면 된다. (보통 root를 사용한다. 혹은 root에 버금가는 권한을 가진 계정) (airflow-env) ubuntu@JeeYeon:~$ mysql -u jeeyeon -p Enter password: Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQL connection id is 19 Server version: 8.0.34-0ubu..
설치 & 기본 설정 가상환경 만들기 airflow를 사용할 때 이용할 가상환경인 ariflow-env 를 만들어주고 activate 시켰다. # 가상환경 생성 conda create -n airflow-env python=3.7 # 가상환경 activate conda activate airflow-env airflow 설치 설치 시 주의사항: 이전에 만든 airflow-env가상환경을 켜고 해당 환경에서 설치를 해야한다. 만약 base에 설치해버리면 추후 airflow-env를 활성화하고 해당 환경에서 dag생성시 진행되지 않는다. pip install apache-airflow airflow 데이터베이스 초기화 & user 생성 airflow db init airflow users create --ro..
로컬에서 wsl (ubuntu) 환경을 깔고 해당 환경을 vscode에서 사용하고 싶을 때? 정말 간단하다. 1. vscode 확장에서 WSL을 설치해줍니다. 2. 맨아래 >< 모양을 클릭합니다. 3. WSL에 연결을 클릭합니다. 4. 새창이 뜨면서 WSL: UBUNTU(계정명) 이 뜨면 완료!
먼저 로컬에서 linux를 사용하려면 wsl을 설치해야 하는데, 아래의 사이트를 참고했다. https://webdir.tistory.com/541 ubuntu 설치 PS C:\Users\TEMP> wsl --install 설치 중: Ubuntu Ubuntu이(가) 설치되었습니다. Ubuntu을(를) 시작하는 중... Installing, this may take a few minutes... Please create a default UNIX user account. The username does not need to match your Windows username. For more information visit: https://aka.ms/wslusers Enter new UNIX username..
1. 빅데이터 구현 기술 단계 역할 활용기술 처리 수집 - 내외부 데이터 연동 -내외부 데이터 통합 Crawling, OpenAPI, FTP, RSS, .. 전처리 적재 - 대용량/실시간 데이터 처리 - 분산 파일 시스템 저장 Distributed File, No-SQL… 전처리 처리 - 데이터 선택, 변환, 통합, 축소 - 데이터 워크플로 및 자동화 Structured Processing, Unstructured Processing, Workflow, Scheduler 전처리 & 후처리 탐색 - 대화형 데이터 질의 - 탐색적 Ad-Hoc 분석 SQL Like, Distributed Programming, Exploration Visualization 후처리 분석 - 빅데이터 마트 구성 - 통계분석, 고..
Data 저장소 데이터 분석을 위해서는 먼저 데이터 수집 & 적재가 필요. 데이터를 적재하는 저장소, 즉 데이터베이스(Database,DB) 에는 3가지 스타일이 있음. Data Mart , Data Warehouse, Data Lake 이들은 데이터 특성 , 데이터 활용방식에 따라 다르게 사용됨. https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse/ 데이터 레이크 사전 정의된 구조 없이 방대한 양의 원시 데이터가 그대로 저장됨 기업이 많은 양의 정형 및 비정형 데이터(ex. 소셜 미디어 또는 클릭스트림 데이터)를 저장하고, 이를 실시간 분석, 데이터 사이언스 및 머신러닝 사용 사례에 즉시 이용 가능하게 함 데이터 레이크 사용 시 형식..