목록전체 글 (82)
데이터로그😎
❓딥러닝 딥러닝은 머신러닝의 한 분야입니다. 인간의 뇌 구조에서 영감을 받아 구축된 "인공 신경망"을 사용하여 복잡한 패턴 및 특징을 학습하고 이해하는 데 중점을 둔 기술입니다. ❓인공 신경망 인공 신경망의 종류 피드포워드 신경망 (Feedforward Neural Network, FNN): 가장 기본적인 형태의 신경망으로, 정보가 한 방향으로만 흐르는 구조입니다. 입력층, 은닉층, 출력층으로 이루어져 있습니다. 다층 퍼셉트론 (Multi-Layer Perceptron, MLP): 피드포워드 신경망의 한 형태로, 여러 개의 은닉층을 가지고 있는 신경망입니다. 비선형 문제를 해결할 수 있도록 설계되어 있습니다. 순환 신경망 (Recurrent Neural Network, RNN): 순환 구조를 가지며, 이..
이전에 발행한 윈도우 함수 관련 글 ↓ [윈도우 함수] SUM() OVER() 아래 문제를 통해 OVER() 함수에 대해 알아보자. 2023년 4월 기준 전국 주요 시/도의 연령대별 인구수 합계를 구하고, 연령대별 인구 비율 구하기 ✅step1 :2023년 4월 기준 전국 주요 시/도의 연령대별 fine-1004.tistory.com [윈도우 함수] RANK() OVER() 쿼리문 작성 시 '순위'를 매겨야 할 때가 있다. 예를 들면, A라는 class 내에서 수학성적 1등이 누구인지? 혹은 내가 운영하는 책방에서 판매량이 1위인 책이 무엇인지? 등을 알아보고 싶을 때. 이 fine-1004.tistory.com Leet Code를 풀고 있는데, 이전 row와 다음 row를 참조해야 하는 문제가 있었다...
쿼리문 작성 시 '순위'를 매겨야 할 때가 있다. 예를 들면, A라는 class 내에서 수학성적 1등이 누구인지? 혹은 내가 운영하는 책방에서 판매량이 1위인 책이 무엇인지? 등을 알아보고 싶을 때. 이 때, 당연히 MAX()를 사용해도 된다. "SELECT MAX(sales) FROM book_sales ORDER BY sales DESC LIMIT 1;" 이렇게. 그러나 만약 section 별로 순위를 알고 싶다면? 예를 들어, 책 판매량을 "장르 별" 로 알고싶다면??? 나는 자기계발 분야, 소설 분야, 경제 분야 등 이렇게 장르 별로 판매량이 알고 싶은데... 이 땐 전체 전체 sales 중에서 max를 사용해도 장르 별 판매량 1위는 알 수가 없다. 이 때 사용하는 것이 바로 윈도우 함수인 RA..
map 함수 주어진 함수를 반복 가능한(iterable) 객체의 모든 요소에 적용하여 새로운 결과를 생성하는 데 사용됩니다. map() 함수는 원본 데이터를 변경하지 않고 새로운 데이터를 생성하는 데 유용합니다. 반복 가능한 객체: 파이썬에서 데이터의 순회(iteration)를 지원하는 객체 주로 리스트나 튜플과 같은 반복 가능한 객체와 함수를 인자로 받습니다. map 기본 구성 map(function, iterable,..) function: 적용할 함수를 나타내며, 각 요소에 이 함수를 적용합니다. iterable: 함수를 적용할 반복 가능한 객체(예: 리스트, 튜플 등)를 나타냅니다. ... (가변 인수): 하나 이상의 반복 가능한 객체를 인자로 전달할 수 있습니다. 이 경우, 함수는 모든 입력 객..
https://mrnoobiest.tistory.com/77
vscode에서 pip를 사용해 모듈을 설치한 후 불려오려고 명령어를 입력할 때, "000 은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는배치 파일이 아닙니다. " 라고 뜨는 경우가 종종 있다. 나는 pip install tabpy를 설치 후 tabpy명령어를 cmd창에 입력했을 때 이와같은 오류메시지를 받았다. 나와 같이 모듈 실행에 어려움을 겪는 이들을 위해... 이 글을 쓴다. 방법은 두가지이다. 1. 환경변수 추가하기 이러한 오류는 환경변수 설정의 문제 때문일 수가 있다. 쥬피터 노트북(ipynb)를 켜고 아래 코드를 입력해서 파이썬 설치 경로를 찾아보자. import sys sys.executable 아마 C:\Users\사용자\AppData\Roaming\Python\Pytho..
https://github.com/JeeyeonKim00/Airflow/tree/f2cbd0b5c8543b2de4fbb3a537da2fc3ee73872f/naver_search_pipeline
spark3.0이 도입되면서 약간 룰이 달라졌다. 지금부터 도입 이전, 후에 어떻게 달라졌는지 알아보겠다. Spark 3.0 이전 from pyspark.sql import SparkSession spark = SparkSession.builder.appName('trip').getOrCreate() filepath = '/home/ubuntu/working/spark-example/data/fhvhv_tripdata_2020-03.csv' taxi_df = spark.read.csv(f'file:///{filepath}', inferSchema=True, header= True) taxi_df.show(5) 한 번 데이터 프레임의 데이터 형식을 알아볼까? taxi_df.printSchema() ####..