Back-End/Pandas 8

Group by

👨🏻‍💻판다스(Pandas)의 데이터 프레임(Data Frame)의 Group by 함수가 있다. df.groupby( )함수는 SQL의 group by와 유사하다. df.groupby( ) 함수는 원하는 컬럼을 그룹별로 묶어서 해당 컬럼과 연관된 컬럼의 연산된 값을 데이터 프레임으로 반환한다. df.groupby( )함수의 기본 구조는 아래와 같다. df.groupby('컬럼명1')['컬럼명2'].그룹함수() 컬럼명1의 유일한 값 (Unique)값을 추출 후, 컬럼명1의 해당하는 컬럼명2의 값을 그룹함수로 연산한 값을 하나의 데이터 프레임으로 반환한다. 표로 설명하자면 아래와 같다. 👉new_df = df.groupby('부서')['급여'].sum( ) 우선 '부서별'로 유일한 값을 추출하면 '영업',..

Back-End/Pandas 2022.12.19

merge

😤판다스(Pandas)에서 데이터 프레임(Data Frame)을 병합할 때 사용하는 함수는 merge가 있다. pd.merge( ) 함수는 SQL의 JOIN과 유사하다. pd.merge( ) 함수는 크게 세 가지로 나누어 사용할 수 있다. Column과 Column의 병합 Column과 Index의 병합 Index와 Index의 병합 하나씩 순서대로 알아보자 ! 1. Column과 Column의 병합 pd.merge( )함수의 특징은 Inner Join, Outer Join 두 개로 나눌 수 있다. Inner Join : 공통되는 값의 행만 병합하여 하나의 데이터 프레임으로 출력 Outer Join : 공통되는 값의 행과 공통되지 않는 값의 행까지 병합하여 하나의 데이터 프레임으로 출력 글로는 설명이 어..

Back-End/Pandas 2022.12.18

sort

모든 프로그램 언어에서 정렬은 두 가지 종류가 있다. 그것은 '오름차순'과 '내림차순'이다. 모든 프로그램 언어의 기본은 '오름차순'으로 설정되어 있다. 😤판다스의 데이터프레임에서도 정렬을 할 수 있는 함수가 두 가지 있다. 데이터 프레임의 Series의 정렬을 도와주는 함수 df.sort_values( )함수 데이터 프레임의 컬럼 명(Column Label) 또는 열의 인덱스(Index)의 정렬을 도와주는 함수 df.sort_index( )함수 순차적으로 하나씩 알아보자 ! 데이터 프레임(Data Frame)에서 시리즈(Series)의 정렬을 위해서는 sort_values( )함수를 이용한다. 위 함수는 SQL의 order by와 유사하다. Sort_values( ) 함수의 주요 파라미터는 아래와 같다..

Back-End/Pandas 2022.12.16

"Null"

Null 이란 '없음' 을 뜻한다. 프로그래밍에서도 Null 은 '값이 없음'을 의미한다. 이 게시글을 작성할 때도 Null 로 제목을 할 경우, 제목이 없음으로 되기 때문에 게시가 불가하다. 👨🏻‍💻판다스(Pandas)의 데이터 프레임(Data Frame)에서도 Null 값을 처리하는 것은 중요하다. Null 값이 존재할 경우 결과값에 영향을 미칠 수 있기 때문이다. 그러므로, Null 값을 평균값 또는 중앙값으로 변경 처리 하거나, 삭제 처리를 해주어야 한다. 이번에는 Null 조회 및 변경, 삭제하는 방법에 대해서 알아보려고 한다. *Pandas의 Data Frame 에서 Null 값은 None 또는 np.nan으로 표현된다. 조회 Null값을 조회하는 방법은 두가지가 있다. Pandas 함수를 이..

Back-End/Pandas 2022.12.16

추가, 삽입, 삭제

👨🏻‍💻판다스(Pandas)의 데이터 프레임(Data Frame)에서 행(Row) 또는 열(Column)을 추가하거나, 삽입하거나, 삭제를 할 수 있다. 행과 열의 따라 각각의 추가, 삽입, 삭제에 대하여 세 가지로 나누어 알아보자 ! 추가 Column 컬럼을 추가하는 문법은 세 가지가 있다. df['컬럼명'] = 값 df.assign('컬럼명' = 리스트|함수) pd.concat([df, df2], axis=1) 개인적으로 선호하는 함수는 df['컬럼명']= 과 pd.concat( ) 함수를 선호한다. df['컬럼명'] 함수는 매우 간단하여 사용하기가 쉽고, pd.concat( ) 함수는 열 추가와 같이 사용할 수 있다. 👉df['컬럼명'] = 값 import pandas as pd import num..

Back-End/Pandas 2022.12.15

Subset

👨🏻‍💻Subset의 뜻은 '부분 집합'이다. 즉, 판다스(Pandas)의 데이터 프레임(Data Frame)에서 일정 부분을 반환하는 함수를 알아 볼 것이다. 데이터 프레임(Data Frame)에서 열(Column)만 반환하는 함수 데이터 프레임(Data Frame)에서 행(Row)만 반환하는 함수 데이터 프레임(Data Frame)에서 특정 (행(Row), 열(Column))을 반환하는 함수 filter 함수 위 4개의 함수를 순차적으로 알아보자 ! 😤데이터 프레임(Data Frame)에서 열(Column)만 반환하는 함수를 먼저 알아보자 ! 데이터 프레임에서 컬럼을 조회할 때 두 개의 경우가 있다. 1. 하나의 컬럼만 조회할 경우 (단일컬럼) 2. 두 개 이상의 컬럼을 조회할 경우 (다중컬럼) 단일..

Back-End/Pandas 2022.12.14

Data Frame

Data Frame란 무엇일까? 데이터 프레임(Data Frame)은 판다스에서 사용하는 행과 열로 이루어진 자료 구조이다. 데이터프레임은 SQL의 Data table, 엑셀의 sheet와 유사하다. 다만, 차이점은 있다. 판다스의 데이터 프레임(Data Frame)은 생성되는 순간 각 행 마다 고유의 인덱스(Index)라는 위치 값을 가지게 된다. 인덱스를 이용하여 위치 출력 및 각 행에 이름을 지정할 수가 있다. 또한, 데이터 프레임은 컬럼(column)별로 분리가 가능하다. 한 개의 열을 'Series'라고 부른다. Data Frame은 두 개 이상의 Series의 집합이라고 보면 된다. 판다스의 모듈을 아래와 같이 임포트하여 사용한다. import pandas as pd pandas를 pd로 에일..

Back-End/Pandas 2022.12.13