pshoon25
2022. 12. 13. 10:56
🔎Pandas란 무엇인가 ?
https://pandas.pydata.org/about/
Pandas 홈페이지에서 설명하는 내용은 다음과 같다.
Library Highlights
- A fast and efficient DataFrame object for data manipulation with integrated indexing;
- Tools for reading and writing data between in-memory data structures and different formats: CSV and text files, Microsoft Excel, SQL databases, and the fast HDF5 format;
- Intelligent data alignment and integrated handling of missing data: gain automatic label-based alignment in computations and easily manipulate messy data into an orderly form;
- Flexible reshaping and pivoting of data sets;
- Intelligent label-based slicing, fancy indexing, and subsetting of large data sets;
- Columns can be inserted and deleted from data structures for size mutability;
- Aggregating or transforming data with a powerful group by engine allowing split-apply-combine operations on data sets;
- High performance merging and joining of data sets;
- Hierarchical axis indexing provides an intuitive way of working with high-dimensional data in a lower-dimensional data structure;
- Time series-functionality: date range generation and frequency conversion, moving window statistics, date shifting and lagging. Even create domain-specific time offsets and join time series without losing data;
- Highly optimized for performance, with critical code paths written in Cython or C.
- Python with pandas is in use in a wide variety of academic and commercial domains, including Finance, Neuroscience, Economics, Statistics, Advertising, Web Analytics, and more.
|
간단하게 구글 번역기로 번역하면 아래와 같다.
도서관 하이라이트
- 통합 인덱싱으로 데이터 조작을 위한 빠르고 효율적인 DataFrame 객체
- 메모리 내 데이터 구조와 다양한 형식(CSV 및 텍스트 파일, Microsoft Excel, SQL 데이터베이스, 고속 HDF5 형식) 간에 데이터를 읽고 쓰기 위한 도구
- 지능형 데이터 정렬 및 누락된 데이터 의 통합 처리 : 계산에서 자동 레이블 기반 정렬을 얻고 지저분한 데이터를 정돈된 형식으로 쉽게 조작합니다.
- 데이터 세트의 유연한 재구성 및 피벗
- 지능형 레이블 기반 슬라이싱 , 멋진 인덱싱 및 대규모 데이터 세트의 하위 집합
- 크기 가변성 을 위해 데이터 구조에서 열을 삽입하고 삭제할 수 있습니다 .
- 데이터 세트에 대한 분할-적용-결합 작업을 허용하는 엔진 별 강력한 그룹으로 데이터 집계 또는 변환
- 데이터 세트의 고성능 병합 및 조인
- 계층적 축 인덱싱 은 저차원 데이터 구조에서 고차원 데이터로 작업하는 직관적인 방법을 제공합니다.
- 시계열 기능: 날짜 범위 생성 및 빈도 변환, 이동 창 통계, 날짜 이동 및 지연. 도메인별 시간 오프셋을 생성하고 데이터 손실 없이 시계열을 결합할 수도 있습니다.
- Cython 또는 C 로 작성된 중요한 코드 경로를 사용 하여 성능을 위해 고도로 최적화되었습니다 .
- Python with pandas 는 금융, 신경과학, 경제, 통계, 광고, 웹 분석 등을 포함한 다양한 학술 및 상업 영역에서 사용되고 있습니다.
|
간단하게 요약하자면,
판다스는 행과 열로 이루어진 데이터를 파이썬에서 효율적으로 가공 및 처리를 할 수 있는 기능을 제공한다.
(엑셀의 시트나 SQL의 Data Table과 유사하다고 보면 된다.)
판다스는 넘파이를 기반으로 작성되었는데 넘파이보다 훨씬 유연하고 편리하게 데이터 가공을 가능하게 해준다.
다만, 판다스는 너무 광범위하여 모두 배우기에는 시간이 많이 소요가 된다.
판다스의 핵심인 Data Frame에 관련된 내용을 정리할 예정이다.