7. 데이터 분석가의 사는 이야기 - "북극곰(Polars)은 판다(Pandas)를 찢어!"

2023.05.20 | 조회수 1,314
김지영
kt ds
안녕하세요~ 두꺼비세상 김지영입니다. "Life is short You need Python" 인생은 짧으니, 당신은 파이썬이 필요하다. - Bruce Eckel 。 。 。 。 。 데이터분석을 하다보면 주로 사용하는 프로그래밍 언어는 파이썬(Python)입니다. 그중에서도 데이터 처리를 위하여 쓰는 라이브러리인 판다스(pandas)는 너무나도 유명하지요. 간단하게 판다스의 특징을 말씀드리자면 다음과 같습니다. -DataFrame 객체를 통한 다양한 데이터를 로딩하고 조작하는 기능. -SQL 또는 Excel 스프레드시트와 유사한 데이터 조작 연산 (필터링, 결합, 그룹화 등). -누락된 데이터를 처리하는 기능. -행과 열을 바꾸는 등 데이터를 재구성하는 기능. -다양한 형식의 데이터 파일 (CSV, Excel, SQL 등)을 읽고 쓰는 기능. 근 몇년간은 이러한 판다스를 통하여 유용하게 데이터 처리를 하였는데 최근 폴라스라 불리는 새로운 라이브러리가 나와 핫하다고 하여 여러분들에게 같이 공유를 해보고자 합니다. 제목에서도 비유했듯이 북극을 연상시키는 네이밍이네요. 바로 Polars입니다. Pandas와 Polars는 모두 Python에서 인기 있는 데이터 분석 및 처리 라이브러리입니다. 그러나 두 라이브러리 사이에는 몇 가지 주요 차이점이 있습니다. Pandas와 Polars의 주요 차이점과 각각에 가장 적합한 사용 사례를 살펴보겠습니다. [Pandas] Pandas는 데이터 구조 및 작업을 위한 강력한 도구 모음을 제공하는 인기 있는 Python 라이브러리입니다. 다양한 데이터 소스에서 데이터를 읽고 쓰고, 데이터를 필터링하고 정렬하고, 집계하고, 시각화할 수 있습니다. Pandas는 데이터 과학자와 분석가들 사이에서 인기 있는 선택이며 많은 책과 튜토리얼에 설명되어 있습니다. [Polars] Polars는 Pandas의 대안으로 설계된 비교적 새로운 라이브러리입니다. Pandas와 유사한 API를 제공하지만 더 효율적으로 설계되어 대용량 데이터를 처리하는 데 유용할 수 있습니다. Polars는 또한 Pandas보다 더 새롭고 빠르게 성장하는 생태계를 가지고 있습니다. [Pandas와 Polars의 주요 차이점] 다음은 Pandas와 Polars의 주요 차이점 중 일부입니다. 지원되는 데이터 유형: Pandas는 Pandas DataFrame으로 알려진 표 형식 데이터만 지원하는 반면 Polars는 기울기 및 행렬과 같은 다양한 데이터 유형을 지원합니다. 성능: Polars는 Pandas보다 빠르게 설계되어 대용량 데이터 처리에 유용할 수 있습니다. 생태계: Pandas는 더 큰 생태계를 가지고 있으므로 Pandas를 지원하는 더 많은 라이브러리와 도구를 사용할 수 있습니다. [Pandas와 Polars의 활용 방안] 다음은 Pandas와 Polars를 사용할 수 있는 몇 가지 예입니다. 데이터 탐색: Pandas와 Polars는 모두 데이터 탐색에 사용할 수 있습니다. Pandas는 데이터를 필터링하고 정렬하고 집계하고 시각화하는 데 유용한 다양한 도구를 제공합니다. Polars는 또한 Pandas보다 더 효율적일 수 있으므로 대용량 데이터를 탐색하는 데 유용할 수 있습니다. 데이터 처리: Pandas와 Polars는 모두 데이터 처리에 사용할 수 있습니다. Pandas는 다양한 데이터 소스에서 데이터를 읽고 쓰는 데 유용한 다양한 도구를 제공합니다. Polars는 또한 Pandas보다 더 효율적일 수 있으므로 대용량 데이터를 처리하는 데 유용할 수 있습니다. 데이터 분석: Pandas와 Polars는 모두 데이터 분석에 사용할 수 있습니다. Pandas는 통계 및 기계 학습을 위한 다양한 도구를 제공합니다. Polars는 또한 Pandas보다 더 효율적일 수 있으므로 대용량 데이터를 분석하는 데 유용할 수 있습니다. [결론] Pandas와 Polars는 모두 Python에서 인기 있는 데이터 분석 및 처리 라이브러리입니다. 그러나 두 라이브러리 사이에는 몇 가지 주요 차이점이 있습니다. Pandas는 더 오래되고 잘 알려진 라이브러리이며 더 큰 생태계를 가지고 있습니다. Polars는 더 새롭고 빠르게 성장하는 라이브러리이며 Pandas보다 더 효율적으로 설계되었습니다. 궁극적으로 귀하에게 가장 적합한 라이브러리는 귀하의 특정 요구 사항에 따라 다릅니다. 표 형식 데이터를 처리하고 더 큰 생태계를 갖춘 라이브러리가 필요한 경우 Pandas가 좋은 선택입니다. 대용량 데이터를 처리하고 Pandas보다 빠른 라이브러리가 필요한 경우 Polars가 좋은 선택입니다. 。 。 。 。 。 최근 FAST API가 기존 파이썬의 프레임워크의 왕도인 FLASK를 대체하기 시작하듯 점점 데이터에 대한 파이썬의 새로운 라이브러리 등은 계속 업데이트 되기에 새로운 기술이나 형식에 대한 파악은 필수 인듯 합니다. 아직 Polars 등의 데이터 라이브러리 이외에 인공지능이나 빅데이터 관련 라이브러리가 나올수도 있지 않을까 기대해 봅니다. 아마 Pandas와 Polars가 나왔으니 다음 라이브러리 이름은 Grizz가 되지 않을까요?^^ PS. 지난번 기한 글에서 다른분께서 글의 방향성이나 목적이 뚜렸하지 않고, 경험에 있어서 어느정도 부족한 부분에 대하여 피드백을 주셨습니다. 물론 저의 글에서 전문적인 내용이나 형식 구성에 있어서 부족한 점은 인정합니다. 그러므로 앞으로도 관련된 부분은 개선을 하도록 노력해보겠습니다. 부족하지만 제 글들에 대하여 많은 관심을 가져주셔서 감사합니다. 김지영 ([email protected]) -스타트업들을 돌아다니며 기술분석, 패션 등 다양한 분야에서 경험을 쌓으며, 현재 프롭테크 '두꺼비세상' 피터팬의 좋은방구하기- 데이터 분석 전담. -개발% 분석50%하는 반반 개발 분석자. -완벽한 자연어 처리에 대한 관심. -웹크롤링, 텍스트마이닝, 머신러닝 기법에 관심. .cc @POLARS @PANDAS @BAREBEAR
첨부 이미지
닉네임으로 등록
등록
전체 댓글 1

리멤버 회원이 되면 모든 댓글을 보실 수 있습니다

로그인
회원가입
김커뮤니티
@멘션된 회사에서 재직했었음
BEST회사에서 풀지 못한 고민, 여기서 회사에서 업무를 하다가 풀지 못한 실무적인 어려움, 사업적인 도움이 필요한 적이 있으셨나요? <리멤버 커뮤니티>는 회원님과 같은 일을 하는 사람들과 이러한 고민을 해결할 수 있는 온라인 공간입니다. 회원 가입 하고 보다 쉽게 같은 일 하는 사람들과 소통하세요
2020.07.01
154
김커리어
@멘션된 회사에서 재직 중
BEST리멤버 회원을 위한 경력 관리 서비스, 리멤버 커리어를 소개합니다. 당장 이직 생각이 없어도, 좋은 커리어 제안은 받아보고 싶지 않으신가요? <리멤버 커리어>는 리멤버에서 새롭게 출시한 회원님들을 위한 경력 관리 서비스 입니다. 능력있는 경력직 분들이 <리멤버 커리어>에 간단한 프로필만 등록해두면, 좋은 커리어 제안을 받아 볼 수 있습니다. 단 1분의 투자로 프로필을 등록해두기만 하면, 기업인사팀이나 헤드헌터가 회원님께 꼭 맞는 제안을 직접 보내드립니다. 지금 바로 <리멤버 커리어>에 프로필을 등록하고, 새로운 기회를 만나보세요!
2020.07.01
21
대표전화 : 02-556-4202
06235 서울시 강남구 테헤란로 134, 5층
(역삼동, 포스코타워 역삼) (대표자:최재호)
사업자등록번호 : 211-88-81111
통신판매업 신고번호: 2016-서울강남-03104호
| 직업정보제공사업 신고번호: 서울강남 제2019-11호
| 유료직업소개사업 신고번호: 2020-3220237-14-5-00003
Copyright 2019. Remember & Company All rights reserved.