pg_clickhouse 튜토리얼
개요
이 튜토리얼은 [ClickHouse 튜토리얼]을 따르되, 모든 쿼리를 pg_clickhouse를 통해 실행합니다.
ClickHouse 시작하기
먼저, 아직 ClickHouse 데이터베이스가 없다면 생성하십시오. Docker 이미지로 빠르게 시작할 수 있습니다:
테이블 만들기
간단한 데이터베이스를 만들기 위해 [ClickHouse 튜토리얼]의 예시를 참고하여 The New York City 택시 데이터셋을 사용하겠습니다:
데이터 세트 추가
그런 다음 데이터를 가져오십시오:
쿼리할 수 있는지 확인한 후 클라이언트를 종료하십시오:
pg_clickhouse 설치
PGXN 또는 GitHub에서 pg_clickhouse를 빌드해 설치합니다. 또는 [pg_clickhouse image]를 사용해 Docker 컨테이너를 실행할 수 있으며, 이는 Docker Postgres image에 pg_clickhouse만 추가한 이미지입니다:
pg_clickhouse 연결
이제 Postgres에 연결하십시오:
다음으로 pg_clickhouse를 생성합니다:
ClickHouse 데이터베이스의 호스트 이름, 포트, 데이터베이스 이름을 사용하여 외부 서버를 생성합니다.
여기서는 ClickHouse 바이너리 프로토콜을 사용하는 바이너리 드라이버를 선택했습니다. HTTP 인터페이스를 사용하는 "http" 드라이버를 사용할 수도 있습니다.
다음으로, PostgreSQL 사용자를 ClickHouse 사용자에 매핑합니다. 가장 간단한 방법은 현재 PostgreSQL 사용자를 foreign server의 원격 사용자에 매핑하는 것입니다:
password 옵션도 지정할 수 있습니다.
이제 taxi 테이블을 추가합니다. 원격 ClickHouse 데이터베이스의 모든 테이블을 Postgres 스키마로 가져오십시오:
이제 테이블이 임포트된 상태여야 합니다: psql에서 \det+를 사용하여 확인하십시오:
성공했습니다! \d를 사용해 모든 컬럼을 확인하세요:
이제 테이블을 쿼리하십시오:
쿼리가 매우 빠르게 실행된 점에 주목하십시오. pg_clickhouse는 COUNT() 집계를 포함한
전체 쿼리를 푸시다운하므로, ClickHouse에서 실행되고 Postgres에는
단일 행만 반환됩니다. 이를 확인하려면 EXPLAIN을 사용하십시오:
"Foreign Scan"이 실행 계획의 최상위에 표시된다는 점에 유의하십시오. 이는 전체 쿼리가 ClickHouse로 푸시다운되었음을 의미합니다.
데이터 분석
몇 가지 쿼리를 실행해 데이터를 분석합니다. 다음 예시를 살펴보거나 직접 SQL 쿼리를 실행해 보십시오.
-
평균 팁 금액을 계산합니다:
-
승객 수를 기준으로 평균 비용을 계산하세요:
-
동네별 일일 픽업 수를 계산합니다:
-
각 이동의 소요 시간을 분 단위로 계산한 다음, 결과를 소요 시간별로 그룹화합니다:
-
하루 중 시간대별로 동네별 승차 건수를 표시합니다:
-
표시 시간대를 뉴욕으로 설정하고 라과디아 또는 JFK 공항으로 가는 승차 기록을 조회합니다:
딕셔너리 생성
ClickHouse 서비스의 테이블과 연결된 딕셔너리를 생성합니다. 이 테이블과 딕셔너리는 New York City의 각 동네마다 하나의 행을 포함하는 CSV 파일을 기반으로 합니다.
이 동네들은 New York City의 5개 자치구 (Bronx, Brooklyn, Manhattan, Queens, Staten Island)와 Newark Airport(EWR) 이름에 매핑됩니다.
다음은 사용할 CSV 파일의 일부를 테이블 형식으로 나타낸 것입니다. 파일의
LocationID 컬럼은 trips 테이블의 pickup_nyct2010_gid 및
dropoff_nyct2010_gid 컬럼에 매핑됩니다:
| LocationID | Borough | Zone | service_zone |
|---|---|---|---|
| 1 | EWR | Newark Airport | EWR |
| 2 | Queens | Jamaica Bay | Boro Zone |
| 3 | Bronx | Allerton/Pelham Gardens | Boro Zone |
| 4 | Manhattan | Alphabet City | Yellow Zone |
| 5 | Staten Island | Arden Heights | Boro Zone |
-
계속해서 Postgres에서
clickhouse_raw_query함수를 사용해 ClickHouse dictionarytaxi_zone_dictionary를 생성하고 S3의 CSV 파일에서 딕셔너리를 채우십시오:참고LIFETIME을 0으로 설정하면 S3 버킷에 대한 불필요한 트래픽을 피하기 위해 자동 업데이트가 비활성화됩니다. 다른 경우에는 다르게 구성할 수도 있습니다. 자세한 내용은 LIFETIME을 사용한 딕셔너리 데이터 갱신을 참조하십시오.- 이제 이를 가져오십시오:
- 쿼리할 수 있는지 확인합니다:
- 좋습니다. 이제 쿼리에서
dictGet함수를 사용해 자치구 이름을 조회합니다. 이 쿼리는 LaGuardia 또는 JFK 공항에서 끝나는 자치구별 택시 탑승 횟수를 합산합니다:
이 쿼리는 LaGuardia 또는 JFK 공항에서 끝나는 자치구별 택시 탑승 횟수를 합산합니다. 승차 동네를 알 수 없는 이동이 꽤 많다는 점에 유의하십시오.
조인 수행하기
taxi_zone_dictionary를 trips 테이블과 조인하는 몇 가지 쿼리를 작성해 보겠습니다.
-
먼저 위의 공항 쿼리와 비슷하게 동작하는 간단한
JOIN부터 살펴보겠습니다.참고위
JOIN쿼리의 출력은 위의dictGet쿼리와 동일합니다. 단,Unknown값은 포함되지 않습니다. 내부적으로 ClickHouse는 실제로taxi_zone_dictionary딕셔너리에 대해dictGet함수를 호출하지만,JOIN구문이 SQL 개발자에게는 더 익숙합니다. -
이 쿼리는 팁 금액이 가장 큰 1000건의 이동에 대한 행을 반환한 다음, 각 행을 딕셔너리와 inner join합니다.
일반적으로 PostgreSQL과 ClickHouse에서는 SELECT * 사용을 피합니다. 실제로 필요한 컬럼만 조회해야 합니다.