python으로 공간 데이터 시각화를 하는 방법은 두 가지가 있습니다.

  1. matplotlib
  2. plotly

과학자들은 matplotlib으로 그래프를 그리는 것이 익숙합니다.
공간 데이터 시각화에도 matplotlib 기반으로 많이 접근합니다.
plotly는 지도를 그려놓고 그 위에서 공간 데이터를 시각화합니다.
오늘 할 이야기는 matplotlib을 기반으로 공간 데이터를 시각화하는 얘기, 그 중에서도 Basemap을 사용하는 방법에 대해 알아보고자 합니다.

왜 Basemap이냐?

matplotlib기반 공간 정보 시각화 방법에는 cartopy와 basemap이 있습니다.
이때까지는 cartopy를 많이 썼습니다.
제가 matplotlib 기반으로 그래프는 많이 그려봤지만 cartopy는 그 명성은 익히 들었지만 거의 사용해 본 적이 없었습니다.
일단 무겁고, 설치 환경에서 자꾸 환경 설정에 실패했기 때문입니다.
그 대안으로 어떤 라이브러리를 사용할 까 고민하던 와중에 발견한 것이 Basemap입니다.

cartopy와 basemap의 차이점은 다음과 같습니다.
둘 다 matplotlib 기반이지만, basemap은 matplotlib에서 만든 라이브러리고 cartopy는 그 기반이 matplotlib이지만 자체 생태계를 구축했습니다.
저도 basemap이 matplotlib에서 만든 줄은 이번에 글을 쓰기 위해 자료를 찾아보던 중 알게 되었습니다.
basemap 공식 문서

어떻게 사용하는가?

GEOS Projection?

이번 포스팅에서는 GEOS Projection을 따르는 위성 영상을 시각화 하기 위해서 basemap을 사용합니다.
GEOS Projection이 뭔지에 대해서는 아래 링크를 참조하세요.
GEOS

쉽게 얘기하자면 위성 영상이 전 지구(Full Disk)를 찍은 모습을 나타내는 projection입니다.
아래 그림처럼요.


이 projection을 나타내는 Proj string은 다음과 같습니다.

+proj=geos +h=35785831.0 +lon_0=128.2 +sweep=y

lon_0은 세로로 지구본을 얼마나 돌릴 건지 결정합니다.

설치

  • 설치 링크 : https://matplotlib.org/basemap/
  • pip install : https://pypi.org/project/basemap/
    • basemap-data-hires : 라이브러리 사용 시 high-resolution 자료들(해안선 등)을 지도에 쓰려면 반드시 설치해야 합니다.
    • 기본 해상도 데이터는 basemap-data로 basemap 설치할 때 같이 깔립니다.
      python -m pip install basemap
      python -m pip install basemap-data-hires

사용 예시

기본 GEOS 표출

from mpl_toolkits.basemap import Basemap, cm
import matplotlib.pyplot as plt

plt.figure(figsize=(10,10))
m2 = Basemap(rsphere=(6378137.00,6356752.3142), projection='geos',lon_0=128.2,resolution='h')
m2.drawcoastlines()

원하는 영역만 표출하기

lat1, lat2, long1, long2 = (46.830415916691464,
 -16.043669898267705,
 90.29636166074948,
 172.08684795392023)

plt.figure(figsize=(10,10))
'''
llcrnr : left lower corner
urcrnr : upper right corner
resolution : basemap에서 제공하는 해안선 등의 데이터를 어떤 해상도로 표출할 지 결정. h면 high resolution을 의미
lon_0 : longitude 방향으로 중앙
lat_0 : latitude 방향으로 중앙
'''
m= Basemap(llcrnrlon=long1,llcrnrlat=lat2,urcrnrlon=long2,urcrnrlat=lat1, resolution='h',epsg=4326,lon_0=(long2-long1) / 2,lat_0=(lat1-lat2) / 2)
m.drawcoastlines()

표출 예시

NOAA에서 제공하는 GOES위성의 어떤 밴드 영상을 단순 시각화한 예시

결론

Cartopy보다 덜 무거우면서도 친숙한 인터페이스 내에 Projected map을 사용하고 싶다면 basemap 사용을 고려할 것.

그리고 기초편이 있다는 것은 심화 편도 있다는 얘기.
심화 편에서는 그렇다면 cartopy에서 그리던 것들을 어떻게 basemap 코드로 옮길 수 있는데?에 대해 쓸 예정입니다.
일하면서 틈틈히 메뉴얼을 작성하고 그 메뉴얼을 더 다듬어서 틈나는 대로 블로그 포스팅을 하다 보니 시간이 좀 걸립니다.

Reference

2022년도 회고를 보아하니까 그 때랑 지금의 나랑 또 다르다는 생각이 들어서 신기했다.
그리고 작년 회고는 2021년도와 2022년도를 같이 묶어서 했기 때문에
시간이 이렇게 흘렀고 내 움직임은 대략적으로 이렇더라~ 라서
이번에는 키워드를 바탕으로 적어보겠다.

2023년도의 키워드

탈출과 이사, 처음 가는 길, 시각화, 커뮤니티

탈출과 이사

원래 이 키워드에는 '이사'만 있었다. 그런데 '탈출'을 아니 적을 수 없겠더라.
먼저 조직 개편과 팀 이동 2번의 이사가 있었다.
조직 개편을 하면서 탈출을 했고 팀 이동을 통해 이사를 했다.

탈출

탈출에 대해서 말하기 조심스럽지만 키워드로 넣은 이유가 있다.
2022년도에서 '좋은 엔지니어가 되기 위해서 고려해야 하는 점'을 적어놨던데
실은 2021년-2022년도에는 시간과 성과와 자원의 사용에 대해 많이 쫓겼다.

그런데! 조직 개편으로 그 분위기에서 벗어날 수 있었다는 말로 탈출에 대한 설명을 대신하겠다.
오죽하면 2023년도 초에는 다시 회사를 들어온 것 같은 느낌을 받았다.
아아니? 기술 개발 '연구'를 위해 이만큼 자원을 쓸 수 있다고???
다른 사람들이 보면 별거 아닌 것 처럼 보이겠지만 나에게는 감동이었다.

이사

그리고 직군도 좀 바뀌었다.
원래는 GIS엔지니어면서 데이터 엔지니어가 하는 일을 한번씩은 다 해봤는데(주의: 다 해봤다 해서 할줄 아는게 아니다)
지금은 데이터 전처리와 시각화, 분석에 초점을 맞추면서 연구개발쪽으로 많이 넘어왔다.
그래서 팀도 개발팀에서 연구팀으로 한번 더 바뀌게 되었다.
지금은 내 자신이 데이터 리서치 분야에 좀 가깝지 않나 생각이 들고 있는데, 내년은 또 어떻게 될 지 모르지.

처음 가는 길

완전히 조직도 팀도 바뀌니까 모든 것이 새로웠다. 여름쯤에 팀을 바꾸기 전에는 내가 여기 계속 있어도 되는가 하는 정체성의 혼란을 느꼈다.
으레 늘 하는 얘기지만 업무가 업무다 보니 내가 회사를 왕따시키는게 아닐까 하는 우스갯소리가 생각날 정도로 혼자다! 그리고 외로웠다!
2023년도부터는 회사에 천사같은 GIS 엔지니어분이 한분 더 합류하셔서 덜 고독하다.

그리고 또다른 고독은 문제 해결에서 찾아왔다.
내가 하려는 일에 대해 레퍼런스를 찾고 싶어도 찾을 수 없어서 머리를 정말 열심히 굴렸다.
예를 들어 A->E까지 가는 법을 알고 싶다 치자. 나는 A->B, B->C, C->D, D->E 혹은 그 이상으로 문제를 쪼갤 수 있을 만큼 쪼개고
해결법을 엮어 나가고 싶었는데 A->B가는 일도 보통이 아닐 때가 있다.
아, 이런 일을 하면서 문제를 잘 정의하는 법도 배웠지만 나는 매일이 불안했다.

이건 시간이 흐르고 팀의 소속감을 느끼면서 점차 잦아들었다.
아예 없어졌다고 할 수 없다. 나 혼자 결정을 내려야 한다면 나는 내 모든 결정에 대해서 판단하고 책임져야한다.
그런 쪽의 경각심은 늘 가지며 살고 있다.

시각화

처음 가는 길에서 나왔던 이야기는 사실 시각화 이야기다.
아니? 위성영상 기반 모델의 인퍼런스 결과를 지도 위에 시각화하라구요? 아아니 이걸 보고서로 만들라구요??!
시각화에 그치지 않고 분석으로 이어지는 일을 하다 보니 선례 삼을 만한게 없어서 눈뜬 장님이 된 기분이었다.
쓰다 보니까 내가 하반기 후반에 접어들기까지 정말 불안했나보다.

하반기에 내가 시각화한 결과물들이 전시 자료로 쓰이고 홍보 책자에 실리는 것을 보고 놀랐다.
아니 이렇게까지 반응이 좋다고!?
(적고 보니 아니 근데 진짜를 빼놓고 얘기 할 수 없는거니...)
거기에 더해 내가 작년에 한 일을 사람들이 기억하고 날 찾아줘서 놀랐다.
보안 때문에 뭐 한다고 말도 못하고 그렇게 끝난 프로젝트였기 때문이었다.

내가 만든 결과물이 영향력이 있구나를 확인할 수 있는 소중한 기회들이었다.

커뮤니티

원래 커뮤니티 활동에 소극적이었다.
ENFP고 사람은 좋아하는데 내 직무가 워낙 독특하니까 사람들 간의 연결고리를 찾기 힘들었다.
올해 여름에 페북 친구인 강성욱님이 나에게 먼저 손을 내밀어주셨다.
그렇다, 나는 누군가 나를 이끌면 가속도가 붙더라고.
올해가 다 가는 시점에서는 마침내 운영진에 합류할 수 있었다!
운영진 추천도 감사하게도 강성욱님이 나를 적극 추천해주셨다.
(링크 : https://k-devcon.com/staff)
커뮤니티에 가입한지 어연 반년이 지났는데, 이번에는 아이템으로 느낀 점들을 써보고자 한다.

커뮤니티 활동을 하면서 느낀 건 다음과 같다.

  • 다른 사람들이 얼마나 치열하게 사는지
  • 주말에 할거 없을 때 나와서 공부 좀 합시다
  • 내가 겪는 고민을 똑같이 겪는 사람들이 많구나. 내가 괜한 걱정을 만든 게 아니었구나
  • 2022년에 다짐했던 것 : 지식을 나눈다 -> 어떤 것이든 내가 나누는 것들이 지식이 되고 도움을 받는 사람들이 생긴다
  • 내가 이렇게 사람들이랑 같이 어울리다 보면 그들에게도 조금씩 배울 것들이 생기고, 나도 그들에게 줄 수 있는게 생기는구나

운영진으로서 다음과 같은 생각을 하고 있다

  • 이렇게 꾸준히 활동 하는(격주 토요일이다) 그룹에서 운영진으로 활동하는 것은 처음이라서 떨리고 긴장된다
  • 커뮤니티 사람들이 여기서 편안함을 느끼고 조금씩 십시일반 해서 뭐라도 해봤으면 좋겠다. 당장 나도 그런 생각을 가지고 들어왔으니까
  • 내년에는 조금 더 적극적인(소극적이여도 괜찮다. 소규모로 플래시몹 스터디를 짧게 짧게 할까 생각도 들고...) 활동을 해보자
  • 리더쉽, 운영과 기획, 스트레스 관리에 대해서 배우자

내년 포부

2024년의 팀 내 로드맵도 내 로드맵도 대략 다 짜여있다.
이번 해도 공부할 것이 많고(분산 처리를 배워야 한다), 맡는 것도 의외로 많고(운영진과 운영진과 노사협의회), 2023년도에 했던 일을 좀 더 발전시켜야 한다. 너에게 확신을 가졌으면 좋겠다 혜미야. 불안했던 날들 방황했던 날들이 이제 완전히 끝이 난 건 아니지만 이제는 너를 믿어주는 사람들이 많으니까 네 자신부터 나를 많이 아꼈으면 좋겠다. 낙수가 주춧돌을 뚫듯 그렇게 잔잔하고 꾸준하며 우직한 힘을 내길 바라.
내년에도 잘 부탁해!

오늘의 교재와 키워드

교재

  • 운영체제(공룡책) : 1,2장
  • 가상 면접 사례로 배우는 대규모 시스템 설계 기초 : 1장 사용자 수에 따른 규모 확장성키워드캐시, 메모리, 커널, NoSQL, 로드밸런서, 데이터베이스 다중화, 메세지큐, 고가용성

스터디 내용

운영체제

  1. 레지스터와 캐시와 램의 차이?
    • 레지스터 : flip-flop(1bit)의 집합. 데이터와 명령어 저장. 최대 처리 용량은 CPU의 처리 용량을 따라간다.
    • 캐시 : CPU 내부에 존재하는 저장공간. 명령어를 저장하는 공간과 데이터를 저장하는 공간 둘로 구분. 또는 레벨별로 구분(L1,L2...)
    • 램 : CPU 외부에 존재하는 메모리, 버퍼의 역할(느린 저장장치를 보조), 여기까지가 주기억장치이고 휘발성.
  2. 커널의 정의
    시스템의 모든 것을 제어한다. 특징으로 보안, 자원관리, 그리고 추상화를 담당하고 있다. 커널의 종류는 위키피디아를 참조.
  3. Interface란?
    • 사전적인 정의
      • 전기 신호의 변환으로 중앙 처리 장치와 그 주변 장치를 서로 잇는 부분. 또는, 그 접속 장치.
      • 키보드나 디스플레이 등등 사람과 컴퓨터를 연결하는 장치
      • 소프트웨어끼리 접촉,공통되는 부분. 순화어는 '접속'
      • 위키피디아
        • 인터페이스, 또는 접속기는 서로 다른 두 개 이상의 독립된 컴퓨터 시스템 구성 요소 간에 정보를 교환하는 공유 경계(shared boundary)이다. 컴퓨터와 사용자 간의 통신이 가능하게 하는 장치나 프로그램을 의미하기도 한다.
  4. Runtime Environment란?
    컴퓨터가 실행되는 동안 프로세스나 프로그램을 위한 소프트웨어 서비스를 제공하는 가상 머신의 상태이다. 운영 체제 자체에 속하는 경우도 있고 운영 체제에서 작동하는 소프트웨어를 뜻할 수도 있다.
    => 프로그램을 실행시키기 위해 필요한 환경 혹은 상태
  5. (심화) JAVA의 정체성, 인터프리터와 컴파일러
    • 인터프리터의 정의 : 프로그래밍 언어의 소스 코드를 해석함과 동시에 실행시키는 프로그램 혹은 환경. OS종속적
    • 컴파일러의 정의 : 순화어 해석기, 번역기, 특정 프로그래밍 언어로 쓰여 있는 문서를 다른 언어로 옮기는 언어 번역 프로그램. (위키피디아). 흔하게 프로그래밍 언어를 컴퓨터가 이해하기 쉽게 기계어로 바꾸는 행위도 컴파일에 해당.
    • 자바는 인터프리터를 쓸까요, 컴파일러를 쓸까요?**
      • 정답 : 둘 다.
      • 설명 : .javac -> .class로 컴파일을 하고, class파일(byte코드)을 프로그램 실행 환경에 맞게 변환하면서 인터프리터를 사용한다.
      • 장점 : .class로 컴파일하면서 보안을 지킬 수 있고, 인터프리터를 사용하면서 그게 리눅스가 되었던, 맥이 되었던, 윈도우가 되었던 프로그램을 실행시킬 수 있다.(물론, 외부 코드에 의존성이 없다고 가정하면)
      • 단점 : 속도가 느리다

가상 면접 사례로 배우는 대규모 시스템 설계 기초

  1. RDBMS에서 지켜야 할 4가지 요소는?
    • Atomicity, Consistency, Isolation, Durability
  2. NoSQL의 종류는?
    • key-value : redis
    • graph : Neo4j
    • document store : MongGo DB
    • column store : Kassandra
  3. NoSQL에서 key-value방식과 문서저장소, 컬럼저장소의 차이는?
    • 문서저장소 : key-value 형식인데, 이제 이 value를 문서 타입으로 저장(json, xml 등의 표준들 또는 스키마가 정의된 구조가 존재하는 value)
    • Column store : Column store 그림 설명한 자료 row 내에 key(column)-value 데이터의 쌍이 있다고 생각하면 된다. 각 row는 key(column)의 수가 동일하지 않아도 된다. => 데이터 압축이 가능, 데이터 쓰는 데 용이
  4. NoSQL의 각 종류별 유리한 상황
    • key-value : 데이터 캐싱, 이미지와 오디오 파일 등 비정형 데이터 저장
    • document store : 속성 단위로 객체가 관리될 때, value에 json과 같은 계층을 가진 schema를 사용할 때(key-value에서 좀 더 나아가서)
    • Column store : 데이터 수정 작업이 많을 때, 디스크의 I/O 속도를 올릴 때 사용. RDBMS보다 메모리 사용에 이점이 있다.
  5. 로드밸런서의 역할은?
    • 트래픽을 다수의 서버에 분산시키는 장치이다.
    • 트래픽의 균등 배분과 고가용성 담당
    • 웹 서버 다중화와 연결된다.
    • Scale-out과는 다른 개념.
  6. 데이터베이스 다중화란? 샤딩이랑 같은 건가?
    서버 여러대를 중복 구성해서 일부가 장애가 되었을 때 시스템의 가용성을 유지하는 방법. 샤딩은 데이터 덩어리를 나누어서 저장하는 방법. 트래픽을 나누는 데 사용할 수 있다. 데이터베이스 다중화에는 replication을 사용한다.
  7. 메세지큐의 프로토콜은?
    • MQTT : Message Queue Telemetry Transport. Publisher-Subscriber 사이에 broker 존재. publisher와 subscriber는 topic을 공유한다.
    • AMQP : Advanced Message Queue Protocal. 중간에 Exchange라는 라우터가 존재(분배) Exchange와 message queue간의 매핑 룰을 binding이라 한다.
  8. 메세지큐의 특징은?
    • Asynchronous : Queue에 메시지 넣기 때문(우편 시스템을 생각해보라)
    • Decoupling : 양 끝 단과 분리 가능.
    • Resilience(탄력성) : 일부가 실패해도 전체는 영향을 받지 않는다
    • Redundancy(과잉) : 실패 시 반복 가능
    • Scalable : 다수의 프로세스들이 큐에 메세지를 보낼 수 있다
    • Guarantees : 작업이 처리된 것을 확인 가능
  9. Kafka와 RabbitMQ의 차이는?
    • RabbitMQ : 여러 소스에서 스트리밍 데이터를 수집하고 처리를 위해 다른 대상으로 라우팅하는 분산 메시지 브로커
    • Kafka : 실시간 데이터 파이프라인 및 스트리밍 애플리케이션을 구축하는 데 사용되는 스트리밍 플랫폼. 높은 처리량을 요구하는 실시간 데이터 피드 처리 혹은 대기 시간이 짧은 플랫폼 운영을 목표. 빅데이터, 스트리밍, 대용량.
    • 둘 다 사용처가 달라서 설계가 다르다. RabbitMQ의 경우 AMQP, Kafka는 MQTT방식을 채택하고 있다. 그리고 RabbitMQ는 메시지의 우선순위를 지원하나 Kafka는 그렇지 않다. 스트리밍이 메시지의 동등 취급에서 오는 말인가...
    • 차이점을 상세히 설명해둔 페이지AWS
  10. 메시지 큐의 장점 : 메세지큐의 특징을 읽어보세요
  11. 메시지 큐의 단점 : 큐를 사용하면서 큐 운영 규칙을 정해야 하고 지원이 필요하며, 큐에 메시지를 I/O하면서 오는 오버헤드가 발생할 수 있다. (좋은 것이 있다면 그에서 오는 나쁜 것이 있지...)
  12. 고가용성이란?
    시스템을 오랜 시간 동안 중단 없이 유지할 수 있는 능력

소감

  • 책을_미리미리_읽어_옵시다
  • 공룡책을 버리지 맙시다

목적

배경

  • 공간 정보 데이터는 맞는데, 그렇다고 이를 바로 지도에 표출하려니 데이터가 다른 분야에서 다루는 데이터라서 공간 정보 데이터의 형식에 맞춰줘야 할때
  • 기상 데이터들은 공간에서 일어나는 현상을 다룬 데이터라 위치 정보들이 있지만, 우리가 생각하는 EPSG:4326 혹은 EPSG:3857 같은 GIS 계에서 흔히 쓰는 좌표계를 쓰지 않는다
    • lambert conformal coordinate
    • 각 픽셀마다 좌표 정보가 있다지만, 다음의 두 가지 형식으로 저장된다
      • 픽셀 마다 좌표 정보가 있다. 각 픽셀들은 lcc 좌표계 내에서 등간격으로 존재하고 표기는 위경도로 표기된다
      • 상대적인 범위 내에 격자 형식으로 좌표를 기술할 수도 있다. 아래 그림은 기상청에서 쓰는 격자 좌표계를 기술한 문서의 일부
  • 기상 데이터들은 정해진 데이터 모델에 위치 정보와 데이터를 넣어 그에 맞춰 시각화를 한다. 지구 위에서 보려면 별도의 처리 과정이 필요하다.
    • 데이터 모델을 통해 가시화 하면 이런 형태로 가시화 한 것을 볼 수 있다. 위성으로 측정한 지표면 절대온도 데이터
    • lcc에서는 분명 직사각형으로 보였는데 EPSG:4326에서는 이렇게 부채꼴로 보인다.

대상

  • 기상 데이터와 같이 위치 정보는 있는데, 자주 쓰는 좌표계로 데이터를 georeference 해주고 싶을 때
  • gcp를 이용해서(특히 네 구석의 점) 어떻게 georeference를 하는가? 코드로 하고 싶다
  • npy로 출력한 이미지를 어떻게 지구상에 표출할까?

내용

상황

  • 주어진 건, 모델의 예측 결과(npy)와 각 array의 요소들의 위경도 좌표 리스트
    • lat, lon 정보가 따로 따로 2차원 배열로 들어옴
  • lcc 좌표계 내에서 정보는 아래와 같은 모양새로 분포하고 있다.

코드

작업할 좌표계에 맞춰 기준 좌표 준비하기

좌표는 위경도로 서술되어 있지만 이미지를 가장 쉽게 Georeference하는 방법은 직사각형의 이미지의 상하좌우 꼭지를 그대로 좌표계에 붙여넣는 것이다.

이미지의 회전, w-e/n-s 간의 gsd 차이 등을 신경쓰지 않아도 되기 때문이다.

좌표는 위경도 좌표계에서 부채꼴의 양상을 띄기 때문에, 만약 이를 그대로 Georeference하려면 이미지의 테두리에 있는 상당한 점들을 써야 한다.

그래서 위경도 좌표계로 서술한 점을 lcc 좌표계에 맞게 변환한다.

import pyproj

proj_102012 = "+proj=lcc +lat_0=0 +lon_0=105 +lat_1=30 +lat_2=62 +x_0=0 +y_0=0 +datum=WGS84 +units=m +no_defs +type=crs"

# 1. 기준으로 삼을 네 구석의 점을 준비
corner_points = [(45.55741, 118.57613),
 (45.55741, 133.8462),
 (32.30801, 118.57613),
 (32.30801, 133.8462)]

# 2. 위경도 좌표계로 기술된 점을 원본 lcc 좌표계의 점으로 변환
lcc_corner_points = [pyproj.Proj(proj_102012)(x[1],x[0]) for x in corner_points]

gdal gcp 생성하기

from osgeo import gdal

# 1. 생성할 이미지의 사이즈를 지정
# width가 col, height가 row에 해당함
row = lat_array.shape[0]
col = lat_array.shape[1]

# 2. 맞춰줄 픽셀 좌표 정의
# 픽셀 좌표와 실 좌표를 어떻게 맞춰줄 지 정하려면 이미지의 어느 부분이 실제 어느 위치에 존재하는 지 이어줘야 한다
# 이미지의 원점은 좌상단. upper_left, upper_right, lower_right, lower_left
pixel_index = [(0,0), (0,col),(row,col),(row, 0)]
gcp_list = []

# 3. 픽셀 좌표와 맞는 실 좌표의 쌍을 만든다. 
for x in range(4) : 
    gcp_list.append((pixel_index[x][0],pixel_index[x][1],lcc_corner_points[x][0],lcc_corner_points[x][1]))
'''
gcp_list = 
[(0, 0, 1013848.356912874, 5479167.3746448895),
 (0, 576, 2116635.162965722, 5784374.250365057),
 (720, 576, 2629740.4931766586, 4450362.210115054),
 (720, 0, 1259620.9893719808, 4071168.434106591)]
'''  
# 4. gdal 내의 gcp class를 이용해서 gcp 객체들을 생성
gdal_gcp_ins_list = []

for item in gcp_list:
    pixel, line, x, y = map(float, item)
    z = 0
        # pixel, line이라는 단어가 등장하는데, col과 row에 해당한다고 생각하면 된다. 
    gcp = gdal.GCP(x, y, z, pixel, line)
    gdal_gcp_ins_list.append(gcp)

새로운 geotiff 생성

먼저 좌표계 정보를 알려주기 위해서 wkt string으로 표기된 ESRI:101210 좌표계의 정보를 가져왔다.

#lcc_wkt_str = 'PROJCS["Asia_Lambert_Conformal_Conic",GEOGCS["WGS 84",DATUM["WGS_1984",SPHEROID["WGS 84",6378137,298.257223563,AUTHORITY["EPSG","7030"]],AUTHORITY["EPSG","6326"]],PRIMEM["Greenwich",0,AUTHORITY["EPSG","8901"]],UNIT["degree",0.0174532925199433,AUTHORITY["EPSG","9122"]],AUTHORITY["EPSG","4326"]],PROJECTION["Lambert_Conformal_Conic_2SP"],PARAMETER["latitude_of_origin",0],PARAMETER["central_meridian",105],PARAMETER["standard_parallel_1",30],PARAMETER["standard_parallel_2",62],PARAMETER["false_easting",0],PARAMETER["false_northing",0],UNIT["metre",1,AUTHORITY["EPSG","9001"]],AXIS["Easting",EAST],AXIS["Northing",NORTH],AUTHORITY["ESRI","102012"]]'

이 부분은 gdal의 geotiff 드라이버의 영상 생성 기능을 이용해 geotiff로 영상을 저장하는 함수이다.

from osgeo import gdal, osr
'''
인자 설명
- gcps : gdal의 gcp 클래스 객체가 들어간다. 최소 세 개는 들어가야 한다(평면을 구성하는 최소 꼭지점의 갯수)
- img_path : 이미지를 저장할 경로
- band_num : rgb 저장이 필요하면 3
- radar_array : 저장하려는 numpy array
'''
def radar_to_geotiff(gcps, img_path, band_num, radar_array) : 
    format = "GTiff"
    # 1. 이미지 크기 정하기
        col = radar_array.shape[0]
    row = radar_array.shape[1]    
    driver = gdal.GetDriverByName( format )
    metadata = driver.GetMetadata()
    # 주의해야 할 점 1 : col, row의 순서다 보니 numpy array를 넣으려면 transpose가 필요하다. 
    # 2. geotiff를 생성하기 위해 data source 생성
        '''
        인자들을 설명한다. 
        - img_path : 저장경로
        - col : 영상의 width
        - row : 영상의 height
        - band_num : 당시 RGB로 저장했기에 3이 들어감
        - gdal.GDT_Float32 : 데이터 타입
        - options : 별도 옵션. 이 옵션을 정해주지 않으면 자꾸 qgis에서 gray scale로 파일을 읽어 성가셨음
        '''
        dst_ds=driver.Create(img_path, col, row, band_num ,gdal.GDT_Float32,options = [ 'PHOTOMETRIC=RGB' ])
    for i in range(1, band_num+1) : 
        dst_ds.GetRasterBand(i).WriteArray( np.transpose(radar_array[:,:,i-1]) )
                # nodatavalue를 (255,255,255)로 설정한다    
        dst_ds.GetRasterBand(i).SetNoDataValue(255)

        # 3. 영상의 좌표계를 설정한다. 우리는 ESRI:102012를 쓸 건데, osr의 ImportFromEPSG에 ESRI 코드도 들어감
        # 다만 GDAL 3.x 버전을 사용할 것
    srs_lcc = osr.SpatialReference()
    srs_lcc.ImportFromEPSG(102012)
        # 3-1. data source에 projection 설정
    dst_ds.SetProjection(srs_lcc.ExportToWkt())
        # 4. gcp 설정 
    dst_ds.SetGCPs(gcps, srs_lcc.ExportToWkt())    
        # 5. 4에서 입력한 GCP에서 geotransform을 계산해서 data source에 세팅하기
        '''
        gdal의 c++ 코드를 까면 대부분 GeoTransform이 data source에 설정되어 있다는 것을 가정하고 계산을 한다.
        gdal 함수 중 입력한 gcp에서 역으로 GeoTransform을 계산해서 설정하는 함수가 있다. 꼭 쓰자. 
        '''
    geotransform = gdal.GCPsToGeoTransform(dst_ds.GetGCPs())
    dst_ds.SetGeoTransform(list(geotransform))
    # 6. 설정 저장. data source의 포인터를 저장한 변수에 None을 넣으면 여태 입력한 정보를 영상에 넣어 영상 생성
        dst_ds = None

reproject

이 부분은 정말 아쉽게도 아직 코드로 구현하는 방법을 찾지 못해서, cli를 통해 ESRI:102012에서 EPSG:4326으로 reproject 해줬다. 이 부분은 추후에 코드로 다루는 방법을 보완할 예정

  • nodata설정을 해줘야 나중에 시각화 할 때 nodata 부분은 투명하게 볼 수 있다.
**gdalwarp -t_srs EPSG:4326 -dstnodata 255 ${src_path} ${dst_path}**

결론

  • 이 문서는 GDAL 3.x 버전을 기준으로 작성되었다. 2.4 버전에서는 lcc좌표계(ESRI:102012)가 인식이 안되더라
  • GDAL vrt로 reproject하는 cli를 코드로 대체할 수 있을 것 같다. GDAL vrt에 대한 학습이 필요

개요

해당 문서의 대상 독자(이하 서술 조건의 대부분에 속하신다면 대상이십니다)

  • 급하게 ArcGIS로 데이터를 처리해야 함
  • javascript보다는 python이 편함
  • ArcGIS에 데이터는 올렸는데 편집이 필요하다. 근데 나 맥 써서...ArcGIS Pro로 대응을 할 수 없다. <- 글쓴이는 이 경우였음
  • ArcGIS Online이 편하다.

해당 문서의 주요 키워드

  • ArcGIS
  • ArcGIS Online
  • ArcGIS Python API

내용

1. ArcGIS API package를 통한 local 사용

전제 : ArcGIS Pro 또는 ArcGIS Server가 깔려 있는 컴퓨터

  • 2021년까지만 해도 ESRI는 ArcGIS 제품이 해당 머신에 깔려 있는 경우에만 API를 사용하도록 허용했다.
  • 2021년 부터는 새로운 방법을 지원한다고 하는데, 솔직히 뭐가 바뀌었는지는 모르겠다.(문서 작성 당시인 2022년 10월에 시도했지만 실패)
  • 해당 방법은 기존 API 사용시 가장 기본으로 생각하는 경우이다.
  • 두 제품군 모두 윈도우에서만 지원한다.
  • arcgis (python) package가 미리 깔려있음을 전제함
  • 다음의 두가지 방법이 있다(참고 : 문서)
    • python pakcage manager를 사용하라고 안내한다.
    • arcgis가 설치된 폴더 내에 위치한 Python Command Prompt를 켜서 conda명령어를 통해 python api를 깐다.

전제 : ArcGIS 제품군이 없는/설치 불가인 머신

(문서 작성 시 참 많은 시도를 해봤는데, 잘 되지 않았다.)

  • conda를 사용해서 리눅스에도 깔 수 있다고 문서에 나와있지만 실패.
  • install offline
    • 파일 다운로드 받아서 압축 풀기 > conda에서 offline 설치 가능하게 환경 설정 > 명령어
    • 공식 문서에는 The conda
      utility will pull all the arcgis package dependencies from the installed set of Anaconda libraries instead of searching the internet. 라고 되어있지만 cli로 테스트해보니까 제대로 import 되지 않아 포기
  • docker install
    • 사실상 윈도우만 지원 (참고 : 문서)

2. ArcGIS Online을 통한 API 사용

전제 : ArcGIS Online 내 notebook 서버 사용

  • arcgis package만 지원하는 서버 : 무료

    • 우리가 하는 일을 하려면 arcgis 서버에 접근해야 하는데, 접근 권한을 얻기 위해서는 arcgis package에서 지원하는 GIS class 를 통해 접근 권한을 얻어야 한다.

    • 예시

      from arcgis.gis import GIS
      gis = GIS() # anonymous connection to www.arcgis.com
      # Search for 'USA major cities' feature layer collection
      search_results = gis.content.search('title: USA Major Cities',
                                        'Feature Layer')
  • 다른 옵션

    • arcpy 지원하는 서버 : 크레딧
    • arcpy + gpu resouces : 크레딧

ArcGIS Online을 통한 Python API 사용 예시

1. feature layer access

주의 : 아래 나오는 코드들은 모두 예시 코드로, 실제 접속 정보는 제외함. 데이터도 이하동문.

password = 'blablabla'
# jungham.map.arcgis.com은 해당 계정이 속한 organization의 주소
# source로 해당 계정이 접속할 수 있는 데이터에 접근 가능(contents)
source = GIS("https://jungham.maps.arcgis.com", f"{arcgis_user_account}", f"{password}", verify_cert=False)
# 이 레이어의 이름은 ham, 자원 유형은 'Feature Layer'이다 
sample_data_layer = source.content.search('ham',item_type='Feature Layer')

2. feature layer update

1) geometry 형태

{"x": -10617585.164750207,"y": 5160968.961654072,"spatialReference": {"wkid": 102100, "latestWkid": 3856}
}

2) feature 형태

아래는 layer를 이루는 feature 하나의 정보이다.

    {"geometry": 
    {"x": 13948339.367548944, "y": 4677527.208890018, "spatialReference": {"wkid": 4326}}, 
    "attributes": {"FID": 6, "type": 'candyshop', "content": "old-fashioned candyshop", "create_datetime": "2019-03-11 00:00:00"}
    }

3) 업데이트 예시

ArcGIS 내에서 데이터 구조를 이해하면 아래의 코드가 쉽게 이해된다.
OGC 표준에서는 보통 featurecollection > features > feature 이런 단계로 정의가 되는데
ArcGIS에서는 featurelayer > layer > featureset > feature 이런 구조로 데이터를 관리하고 있다.
그리고 Pandas의 DataFrame을 확장한 spatially enabled DataFrame(sedf)이라는 독특한 데이터 타입을 정의해서 featureset에 이 타입을 대응해서 사용하고 있다.

# spatially enabled Dataframe -> featureset -> update
# features in layer are treated as 'featureset'
sedf = pd.DataFrame.spatial.from_geodataframe(sample_event_df)
# adds, updates, deletes 등의 키워드가 있다. 
sample_data_layer[1].layers[0].edit_features(adds=sedf.spatial.to_featureset())

ArcGIS 내에서 데이터를 관리하는 구조와 그 타입

해당 내용은 Python API 사용 방법을 이해하는데 도움이 되었기에 사용 예제와 함께 적는다.

데이터 구조

  • FeatureLayer > layer > featureset > feature
  • 실제 서버에서 publish된 layer(feature layer를 예시로 들면) 아래에는 여러 layer가 포함되어 있을 수 있다. 그리고 하나의 layer는 featureset 내에 feature 데이터를 저장한다. featureset은 feature의 집합이다. feature들을 list로 가지고 있다.

시간 활성화

시간 활성화 메뉴얼에 대한 추가 설명

시간 활성화 메뉴는 메뉴얼을 봐도 찾기 힘들었다.
published feature layer 아래에 layer의 집합이 있다. 그러니까 feature layer는 layer의 집합이다.
예를 들면, 'the location of the opened shops' 라는 이름의 feaure layer가 있으면 그 아래에 'the location of the opened shops_0'이라는 point layer가 존재한다. 실제로 사용한 feature layer의 경우 {feature layer name}_0라는 이름을 가진 기하 레이어가 그 아래에 존재한다.

피처 레이어는 건물, 필지, 도시, 도로, 지진 진앙 등 유사한 지리적 피처를 그룹화한 것입니다. 피처는 포인트, 라인 또는 폴리곤(영역)일 수 있습니다.

문구 출처 : 피처 레이어

아래 첫번째 그림은 feature layer아래에 위치한 layer에 들어가서 시간 옵션을 활성화하는 예시이다.


아래 두번째 그림은 시간 옵션을 활성화 했을 때 arcgis online map viewer에서 해당 layer를 열었을 경우 자동으로 time series bar가 생긴 화면이다.

date field가 활성화 되어 있어야 하며, 이 때 해당 column에 유효하지 않은 값이 저장되어 있다면 해당 시간 옵션은 활성화되지 않는다.

그림 출처 : How To: Enable time on a layer in ArcGIS Online and create a web app with time animation

후기와 회고

  • ArcGIS Python API를 사용하는데, 문서간의 연속성이 없어서 문서 간 이동을 통해 얻어낸 내용을 정리하고 싶었다.
  • 좀 더 직설적으로 '구려!'라고 말하고 싶지만, 누구에게는 ArcGIS가 많은 일들을 해주고 있을 것이고, 실제로도 그렇기 때문에 그렇게는 적고 싶지 않았다. 문제는 존재하니까 남은건 푸는 것일 뿐. 다만 아래 한 마디만 남기겠다.
  • 한국 서비스 지원 센터에 문의를 했으나...
  • ArcGIS 한국인 사용자 중 python api를 어떻게 써야 할지 감이 잡히지 않는다면, 데이터를 불러오는 간단한 예제부터 따라해보라고 말하고 싶다. 이 글이 그런 분들에게 도움이 되길 바라는 마음에서 작성했다.
  • 정리하다 보니, feature layer crud 예제까지 작성해도 될 것 같았다. 그것은...! 시간이 되면 이 글에다가 추가하겠다.

개요

  • qgis 3.22버전에서 새롭게 annotation layer라는 layer가 새로 생겼다.
    qgis에서 annotation layer가 포함된 qgs를 열면 다음과 같이 보인다. raster와 qgs가 한 쌍으로 움직인다.
  • 이 layer는 벡터 데이터가 아니며, qgis project file(qgs)에 xml로 도형을 기록한다
  • 어떻게 annotation의 geometry를 추출할 수 있는가?

참고 자료

  • qgis annotation layer란?
  • 3.22에는 annotation layer을 대응할 수 있는 tool bar가 있는 것으로 보이나, 내가 쓰는 QGIS 3.26 버전에서는 찾을 수 없었다.
    • (수정 : 22.11.18) macos QGIS 3.28 버전 기준, View > Toolbar > annotation toolbar(주석 툴바)로 추가하시면 다음의 툴바를 확인할 수 있습니다. 글 작성 시점으로는 3.29까지 나왔습니다. 

  • annotation layer 정보는 qgs 내에 xml로 기술되어있다.

    위 그림에서 볼 수 있듯, qgs내에 기술된 annotation layer와 qgs가 바라보는 raster layer 두 레이어가 뜨나, qgz를 압축해제해서 얻은 결과는 qgs와 링크된 raster 데이터 둘 뿐이었다.

코드

import shapely.wkt
import xml.etree.ElementTree as elemTree
from osgeo import ogr
import geopandas as gpd

'''
box, polygon, mask
'''
'''
parse_annotation은 여기서 qgs 내에 xml으로 기술되어있는 프로젝트 정보 중 'layer'단위의 xml을 파싱한다. 
return : annotation 파일 내의 geometry를 모아서 shapely.geometry 타입으로 list를 반환
'''
def parse_annotation(elem) : 
    items = elem.findall('.//items/item[@wkt]')
    wkts = [x.get('wkt') for x in items]
    geoms = list()
    for wkt in wkts : 
        if 'Curve' in wkt :
            try : 
                geom = ogr.CreateGeometryFromWkt(wkt)
                geom_approx = geom.GetLinearGeometry()
                geom_shapely = shapely.wkt.loads(geom_approx.ExportToWkt())
                geoms.append(geom_shapely)
            except : 
                print(wkt)
        else : 
            geom_shapely = shapely.wkt.loads(wkt)
            geoms.append(geom_shapely)
    return geoms

'''
path : 파일의 위치
return : annotation 파일 내의 전체 geometry를 list로 반환 
'''

def parse_qgs_for_annotation(path) : 
    tree = elemTree.parse(path)
    root = tree.getroot()

    main_annotation_layer = root.findall('.//main-annotation-layer')[0]
    extra_annotation_layers = root.findall(".//projectlayers/*[@type='annotation']")

    geoms = list()
    geoms.extend(parse_annotation(main_annotation_layer))
    for extra_annotation_layer in extra_annotation_layers :
        geoms.extend(parse_annotation(extra_annotation_layer))
    return geoms

주의사항

CurvePolygon 때문에 ogr 모듈을 썼다. esri shapefile format에서는 geometry에서 curve 타입을 지원하지 않는다고 했기 때문에, shapefile 말고 geojson으로 내보내길

용례

tree = elemTree.parse(path)
root = tree.getroot()
srid = root.find('./projectCrs//srid')
srid = int(srid.text)

res = parse_qgs_for_annotation(path)
gdf = gpd.GeoDataFrame(geometry=res)
gdf = gdf.set_crs(f'epsg:{srid}')

gdf.to_file("test.geojson", driver='GeoJSON')

+ Recent posts