목록Data Engineering (23)
데이터로그😎
🗂️ 분산 파일 시스템 (DFS - Distributed File System) DFS (Distributed File System) DFS란? 빅데이터는 여러 클러스터(컴퓨터)에 걸쳐 데이터를 분산하고, 각 클러스터(노드)의 컴퓨팅 파워를 사용하여 정보를 처리하는 것이다. DFS은 네트워크에 연결된 여러 머신의 스토리지를 관리하는 파일 시스템이다. 종류: HDFS, GFS, Ceph 등 DFS 작동방식 Distribution: 전체 데이터를 나눈 블록을 여러 노드에 분산 시킨다. 각 노드는 고유의 컴퓨팅 능력이 있기 때문에, DFS는 데이터 블록을 병렬 처리할 수 있다. Replication: DFS는 서로 다른 클러스터에 데이터 블록의 복사본을 만들어 놓는다. 이로 인해, 내결함성과 높은 동시성을 갖..
JAVA 환경변수 설정 대표적인 빅데이터 엔지니어링 시스템은 hadoop이다. hadoop은 JAVA를 기반으로 하기 때문에, 먼저 JAVA 환경변수를 설정해주겠다. 현재 Ubuntu 환경에서 진행 중이다. 1. ubuntu 계정 접속 2. JAVA 위치 확인 실제 java의 경로는 readlink 명령어로 확인 가능하다. 해당 명령을 실행한 결과, /usr/lib/jvm/java-11-openjdk-amd64/bin/java 라는 경로가 나왔다. 실제로 해당 디렉토리에 들어가보면 , /usr/lib/jvm/java-11-openjdk-amd64/bin 이라는 디렉토리 아래에 java라는 파일이 존재한다. 3. 환경변수에 JAVA 위치 등록 환경변수는 두가지 방법으로 등록 가능하다. /etc/profil..
빅데이터 아키텍처 빅데이터 아키텍처는 크게 (1) 원천 데이터, (2-1)수집 레이어, (2-2)처리 레이어, (3)저장 레이어, (4)분석&예측 레이어,(5) 출력 레이어로 구성된다. 단계 설명 종류 (1) Data Source - 데이터 소스를 선택하는 단계 - 어떤 데이터를, 어디서, 어떻게 수집할지 결정 - 데이터베이스 기반 (SQL) - 파일 기반 (CSV...) - 네트워크 기반 (API..) (2) Data Ingestion & Processing 실시간 데이터 수집, 처리 (Stream) 실시간 데이터 수집이란 대규모의 데이터 스트림에서 데이터를 수집하고 처리하는 것을 의미함. - 수집: kafka, Flume, NiFi (분산 메시징 시스템) - 처리: Spark Streaming, Fl..
SSH (Secure SHell) Client가 Server를 원격으로 제어할 때 SSH를 사용한다. Server 컴퓨터: SSH Server 설치되어 있어야 함 Client 컴퓨터: SSH Client 설치되어 있어야 함. SSH Client에 명령어를 입력하여 Server 컴퓨터를 제어한다. openssh가 설치되어 있는지 확인하시오. 만약 없다면... 아래 설치 command 참고 sudo apt-get install openssh-server openssh-client ssh start ssh server를 시작한다. sudo service ssh start 제대로 실행되었는지 확인 sshd~~가 있다면 정상! 이제 Client가 접속할 때를 대비하여 ssh 서버가 켜져있게 됨. SSH Clien..
인터넷 (Internet) 인터넷 인터넷은 전 세계적으로 연결된 컴퓨터 네트워크의 집합체로, 수많은 컴퓨터 및 네트워크 장치들이 정보를 교환하고 서로 통신할 수 있는 공간을 말한다. request, response가 반복되는 통신, 컴퓨터 간의 대화 예를들어 우리가 Web browser를 켜서 google.com 을 입력하고 엔터를 쳤다. 이를 통해 우리는 google server에 요청(request)를 한 것이다. 그리고 google server는 google.com 창을 보여줌으로써 응답(response)을 한다. 서버에 접속하는 법 domain name 사용: google.com 이 google server의 domain name이다. 이와 같은 도메인 일므을 웹 브라우저에서 검색하여 서버에 접속..
권한에 대하여 unix 계열 시스템에서 permission을 통해 제어하는 대상 -> File & Directory Permission = 어떤 User가 어떤 File & Directory에 대해 읽기/쓰기/실행을 할 수 있도록 혹은 없도록 하는 권한 A 유저가 생성한 perm.txt라는 파일에 B 유저가 글을 작성하려 한다면 permission denied 오류가 뜬다. perm.txt 에 대한 권한을 확인해보자 ls -l perm.txt type access mode ( rw- / rw- / r --) rw- : user의 권한(여기서 user는 owner를 의미) (read, wright) (실행권한은 X) r- : group의 권한 (read) (쓰기, 실행권한은 X) r-- : other 유저..
다중 사용자 여러명이 운영체제를 같이 사용하는 방법을 알아보자. id => 자신이 누군지 알 수 있다. 내 계정 확인하기. (base) ubuntu@JeeYeon:~$ id uid=1000(ubuntu) gid=1000(ubuntu) groups=1000(ubuntu),4(adm),20(dialout),24(cdrom),25(floppy),27(sudo),29(audio),30(dip),44(video),46(plugdev),116(netdev) uid = user id gid = group id who => 현재 이 시스템에 누가 접속해 있는가? 시스템에 접속한 모든 계정 확인하기 (base) ubuntu@JeeYeon:~$ who ubuntu pts/1 2024-01-16 10:02 아래의 사진은 c..
컴퓨터의 구조 구조 설명 종류 Processor - 컴퓨터의 두뇌. 주어진 명령어를 해독, 실행. - Memory에 올라와 있는 상태의 프로그램을 CPU가 읽어서 동작 후 데이터 처리 CPU Memory - 프로그램을 실제 사용할 때 storage의 프로그램을 읽어서 memory에 적재시킴. - 실행되지 않는 프로그램은 memory에 올라오지 않음 - 프로그램이나 작업을 수행하는 데 필요한 데이터, 명령을 임시저장. - 전원이 꺼지면 데이터 손실. RAM, cache Storage - 프로그램이 깔려있는 장소 (명령어) - 데이터를 영구적으로 저장, 보존. HDD, SSD Storage : command(mkdir, top, rm등)는 /bin, /sbin과 같은 storage에 파일의 형태(*progr..