4기가짜리 JSON파일 분석? 간단하지..

E 밀러공
금 따봉
2021.10.05 | 조회수 607 | 좋아요 5 | 댓글수 18
간단한줄 알고 있는데 벌써 삼일째 파일 여는것조차 안되네요 구조 파악도 안되고 R,Python,구글코렙,vim써도 무용지물입니다.. ㅠㅠ 기가단위의 무거운 용량의 파일 분석들 다들 어떻게 하시나요 특히 json...ㅠㅠ 고수님들 조언 부탁드립니다
5
checkbox-on
닉네임으로 등록
등록
댓글 18
개발조아
은 따봉
2021.10.05
BESTAWS S3에 파일을 업로드 하시고요. Glue의 Crawler를 이용해서 Data Catalog에 스키마를 만듭니다. 전체 데이터 쓸거 아니면 필요한 필드만 뽑아 쓰게 Glue Job을 만들어서 ETL을 하시고요. 검색하는 조건에 맞추어서 파티셔닝을 하여 폴더 구조를 만들어서 다시 스키마를 생성하되 파티셔닝하고 파일은 ORC나 Parquet으로 변환하여 압축합니다. 이 데이터 중에 자주 활용되는 데이터는 데이터베이스에 올리고, 이러한 대용량 데이터 집계를 주기적으로 해야한다면 데이터 가공의 파이프라인은 Airflow를 이용하시고, 자주 활용하는 집계 데이터 결과인 마트 데이터는 DW 서비스에 넣어두고 활용합니다. 지주 사용하지 않는 데이터는 S3에 두시고, 더 이상 가공이 필요하지 않은 데이터는 Cold 데이터로 분류하여 더 저렴한 S3 다른 클래스로 이동시켜 둡니다. 비용은 1GB기준 월 저장하는 비용은 서울 기준 $0.025 이고 나머지는 실제 컴퓨팅을 위해서 쓴 만큼만 비용을 내시면 됩니다. ANSI SQL을 이용할 경우 Athena 이용하면 별도의 Database 사용하지 않아도 데이터베이스처럼 조회가 가능합니다. 클라우드를 잘 사용하시면 저렴하게 딱 필요할때만 적절하게 활용할 수 있고 확장성, 안정성에 대한 고민을 할 필요가 없어집니다.
5

리멤버 회원이 되면 18개의 모든 댓글을 보실 수 있습니다

로그인
회원가입
김커뮤니티
2020.07.01
BEST회사에서 풀지 못한 고민, 여기서 회사에서 업무를 하다가 풀지 못한 실무적인 어려움, 사업적인 도움이 필요한 적이 있으셨나요? <리멤버 커뮤니티>는 회원님과 같은 일을 하는 사람들과 이러한 고민을 해결할 수 있는 온라인 공간입니다. 회원 가입 하고 보다 쉽게 같은 일 하는 사람들과 소통하세요
154
김커리어
2020.07.01
BEST리멤버 회원을 위한 경력 관리 서비스, 리멤버 커리어를 소개합니다. 당장 이직 생각이 없어도, 좋은 커리어 제안은 받아보고 싶지 않으신가요? <리멤버 커리어>는 리멤버에서 새롭게 출시한 회원님들을 위한 경력 관리 서비스 입니다. 능력있는 경력직 분들이 <리멤버 커리어>에 간단한 프로필만 등록해두면, 좋은 커리어 제안을 받아 볼 수 있습니다. 단 1분의 투자로 프로필을 등록해두기만 하면, 기업인사팀이나 헤드헌터가 회원님께 꼭 맞는 제안을 직접 보내드립니다. 지금 바로 <리멤버 커리어>에 프로필을 등록하고, 새로운 기회를 만나보세요!
21
대표전화 : 02-556-4202
06158 서울시 강남구 테헤란로79길 6, 6층
(삼성동, 제이에스타워) (대표자:최재호)
사업자등록번호 : 211-88-81111
통신판매업 신고번호: 2016-서울강남-03104호
| 직업정보제공사업 신고번호: 서울강남 제2019-11호
| 유료직업소개사업 신고번호: 2020-3220237-14-5-00003
Copyright 2019. Drama & Company All rights reserved.