data engineer/database(7)
-
[de]Bigquery: 쿼리 작성 흐름
PROCESS 지표 고민 문제를 해결하기 위해 어떤 데이터가 필요한지 지표 구체화 추상적이지 않고 구체적인 지표 명시(분자, 분모 표시) 지표 탐색 유사한 문제를 해결한 케이스가 있나 확인 쿼리작성 데이터가 있는 테이블 찾아서 활용 (단일테이블, 복수테이블-Join) 데이터 정합성 확인 예상한 결과와 동일한지 확인 쿼리 가독성 나중에 쿼리를 활용하기 위해 깔끔하게 정리 쿼리 저장 쿼리는 재사용될 수 있기에 문서로 작성 쿼리 작성 템플릿 쿼리를 작성하는 목표와 확인할 지표를 정의함 쿼리 계산 방법 정리 데이터의 기간 사용할 테이블 Join Key 데이터 특징
2024.03.08 -
[de]Bigquery:기본정보와 문법
0. 기본 개념 ✔️ 데이터 웨어하우스 데이터 창고로 대규모의 데이터를 사용할 때 단일 데이터베이스로 충분하지 않아 대규모의 데이터를 저장하는 저장소임. 주된 사용 목적은 비즈니스 관점에서 사용자 또는 부서의 의사결정을 지원하기 위해 데이터를 효율적으로 통합하고 분석 및 보고하는데 활용됨. 이때, 데이터 통합 과정, ETL (Extract 추출/Transfrom 변환/Load 적재)을 거친다. ETL은 필요한 소스를 추출하고 저장할 수 있도록 동일한 구조로 변환하고 테이블에 적재하는 과정이다. 이를 통해 비즈니스 목적에서 데이터를 실질적으로 유용한 상태로 변환할 수 있다. 데이터 품질향상, 일관성 확보를 위해 데이터를 정리한다고 이해해도 좋다. ✔️ ERD(Entity Relationship Diagra..
2024.03.07 -
[de]Bigquery: 구글서치콘솔 데이터 확인
0. 빅쿼리/구글서치콘솔 연결 사전세팅 1. API 사용 빅쿼리(GCP)로 구글서치콘솔 데이터를 확인하기 위해서 세팅해야되는 부분들이 있다. 일단, 빅쿼리 관련 api를 사용하고 있어야 된다. 바로, Bigquery api와 Bigquery storage api 이다. 다른 it 언어/기술들처럼 공식문서가 있어 문제가 생기는 경우 reference를 찾아보면 된다! https://cloud.google.com/bigquery/docs/reference/rest 2. iam 설정하기 빅쿼리 관련해서 추가적으로 '프로젝트 액세스 권한 부여'한다. 주체로는 " search-console-data-export@system.gserviceaccount.com" 역할로는 각각 "Bigquery 데이터 편집자" 와 ..
2024.03.01 -
[de]Bigquery
0. Bigquery 시작 배경 NMBB 프로젝트를 진행하면서 GA4, Google Search Console, Big Query 이렇게 세가지를 연결시켜놨다. 바쁘다는 핑계로 GA4 내부 보고서 기능으로 트래픽 획득, 이벤트, 사용자 등 간략하게 살펴보았다. 이제! 마케팅 활동도 어느정도 마쳤고 자사몰 관리도 안정화되어 Big Query를 통한 로그데이터 분석 발판을 만들어보려고 한다. 작은 사업체에서 데이터 관련 사수없이 혼자 GA4 설치, SEO 설정, Organic/Paid 마케팅(Meta), 타판매채널 데이터분석, SNS 관리, 자사몰 관리 등 다양하게 처리하느라 GA4 설치 후 빅쿼리 연동을 한두달 뒤에 해버리는 실수를 저질렀다. 하지만 빅쿼리의 중요성을 인지하자마자 연동 설정하고, 그 사이에..
2024.02.29 -
[de] Oracle (1/3)
1. get ready 공부 목적: oracle sql 문법을 익히고자 초보자를 위한 sql 200제를 풀었습니다. 실행 환경: livesql https://livesql.oracle.com/apex/f?p=590:1000 해당 게시글은 sql을 공부하다면서 정리하고싶은 부분만 요약한 내용입니다. 또한, 추가적인 검색을 통해 설명을 보완했습니다. 2. 목차 입문 > 초급 > 중급 > 활용 1️⃣ 입문 1. 별칭에 " "을 넣는 경우 대소문자 구분 출력 공백문자 출력 특수문자 출력 ($, _, # 만 가능) 2. alias 편리점 기존컬럼의 변형을 가하는 경우 새로운 이름 지정할 때 유용 ORDERBY 절에서 별칭 간결하게 사용 3. 연결 연산자 || : 값을 연결할 떄 사용 SELECT ename || ..
2023.09.21 -
[de] Pymongo (2/2)
⚙️ 실행환경 OS: Silicom Mac (m1) IDE: Pycharm ✔️ 목차 1. Basic 2. find/ insert/ update/ delete/aggregate 관련 모듈 3. json 데이터를 이용한 geo spatial 사용 1️⃣ Basic MongoDB란 NoSQL로 비정형 데이터를 분산 저장하고 유연한 데이터 스키마를 갖는 특징이 있다. Pymongo는 python으로 몽고db를 다루기 위해 사용하는 패키지이다. MongoClient(ip, port)는 ip와 port를 파라미터로 갖고, client를 지정한다. 과정을 요약하자면 mongo client 클래스 객체 할당 >> db객체 할당 >> collection 객체 할당 아래 코드에서는 'test' db에서 'multi' c..
2023.09.21