AI 이야기를 하면 보통 이런 상상을 많이 했어.
AI가 글을 쓰고, 그림을 그리고, 코드를 만들고… 그런 것들 말이야.
그런데 최근에 흥미로운 접근을 하나 봤어.
AI가 옛날 뉴스 기사를 읽어서 돌발 홍수(Flash Flood)를 예측하는 데이터를 만든다는 이야기였어.
이 프로젝트는 Google 리서치 팀이 진행했는데, 발상이 꽤 재미있었어.
“데이터가 부족하다면… 우리가 놓친 데이터를 다시 찾아보면 되는 거 아닐까?” 이런 질문에서 시작됐거든.

홍수는 많은데 데이터는 없다
돌발 홍수는 생각보다 무서운 자연재해야. 갑자기 폭우가 쏟아지면서 몇 시간 만에 도시나 마을이 물에 잠겨버리는 경우가 많거든.
전 세계적으로 매년 수천 명이 이런 홍수로 목숨을 잃는다고 해.
그런데 문제는 이거였어. 홍수 자체는 많지만 홍수 데이터는 별로 없다는 것. 왜냐하면 돌발 홍수는 이런 특징이 있어.
- 발생 시간이 매우 짧음
- 특정 지역에서만 발생함
- 관측 장비가 없는 지역이 많음
그래서 기존 기상 모델이 사용하는 것처럼 온도, 강수량, 레이더 같은 정확한 숫자 데이터가 거의 쌓이지 않았어.
AI 모델 입장에서 보면 연료가 없는 셈이었지.
그래서 구글은 “뉴스 기사”를 봤어
여기서 Google 연구팀이 아주 독특한 생각을 했어.
“홍수 데이터를 찾을 수 없다면… 홍수 기록을 찾으면 되는 거 아닐까?”
그리고 그들이 본 곳이 바로 뉴스 기사였어. 전 세계 뉴스에는 이런 내용이 계속 등장하거든.
- 어느 도시에서 폭우로 홍수 발생
- 마을이 침수됨
- 도로가 물에 잠김
- 주민 대피
사람들이 그냥 읽고 지나가는 기사지만, 사실 이런 기사에는 중요한 정보가 들어 있어. 예를 들면 이런 것들 말이야.
- 언제 발생했는지
- 어디에서 발생했는지
- 피해 규모는 어떤지
그래서 연구팀은 전 세계 뉴스 약 500만 건을 분석했어.

AI가 문장을 숫자로 바꿨다
여기서 AI가 등장했어. 연구팀은 Gemini 같은 LLM을 사용해서 뉴스 문장을 분석했어. 그리고 이런 작업을 했어.
- 기사에서 홍수 사건을 찾는다
- 사건의 장소를 추출한다
- 발생 시간을 추출한다
- 피해 유형을 구조화한다
결국 이렇게 만들어진 건 단순한 텍스트가 아니라 이런 데이터였어.
- 위도
- 경도
- 발생 시간
- 사건 유형
즉 뉴스 문장이 데이터 포인트로 변한 거야. 이렇게 만들어진 데이터셋 이름이 Groundsource야. 말 그대로 사람들이 남긴 기록을 기반으로 만든 지상 데이터라는 의미지.
그 다음 단계는 AI 예측 모델
데이터가 만들어지니까 이제 할 수 있는 일이 생겼어. 연구팀은 이 데이터를 기반으로 Long Short-Term Memory (LSTM) 기반 예측 모델을 학습시켰어. 이 모델은 이렇게 동작해.
- 전 세계 기상 데이터를 입력으로 받음
- 특정 지역의 날씨 패턴을 분석함
- 해당 지역에서 돌발 홍수 발생 확률을 계산함
이 결과는 지금 실제 서비스에도 들어가 있어. 대표적인 게 Flood Hub라는 시스템이야.
- 전 세계 약 150개 국가
- 도시 단위 홍수 위험도 제공
- 재난 대응 기관과 데이터 공유
즉 연구 프로젝트 수준이 아니라 실제로 현장에서 쓰이는 단계까지 올라온 거지.
물론 한계도 있다
물론 완벽한 시스템은 아니야. 예를 들어 이런 한계가 있어.
- 공간 해상도가 약 20㎢ 수준이라 다소 거칠다
- 미국 기상청 같은 고급 시스템보다 정밀도는 낮다
- 실시간 레이더 강수 데이터를 사용하지 못한다
하지만 이 프로젝트의 목표는 조금 달라. “센서가 없는 나라에서도 쓸 수 있는 예측 시스템”
이게 핵심이었어. 즉 비싼 장비 없이도 기본적인 재난 예측을 할 수 있게 만드는 것이 목표였던 거지.
이 프로젝트가 진짜 흥미로운 이유
이 이야기에서 가장 흥미로운 부분은 기술보다 데이터 철학이야.
지구에는 데이터가 부족할까? 사실 그렇지 않아. 문제는 이거야. 데이터는 많은데 모델이 쓸 수 있는 형태의 데이터는 부족하다.
예를 들면 이런 것들 말이야.
- 뉴스 기사
- 행정 보고서
- 시민 제보
- 사고 기록
이런 것들은 엄청 많지만 대부분 텍스트 형태라서 분석에 잘 안 쓰였어.
그런데 LLM이 등장하면서 상황이 바뀌었어. AI가 이런 텍스트를 읽고 구조화된 데이터로 바꿀 수 있게 된 거야. 즉 AI가 단순히 글을 쓰는 도구가 아니라 데이터를 복구하는 도구가 된 셈이지.
사실 이건 기업에도 똑같이 적용된다
이 접근은 기후 문제에만 해당되는 게 아니야. 회사 안에도 이런 데이터가 엄청 많거든. 예를 들면 고객 문의 메일, 콜센터 상담 기록, 서비스 장애 보고서, 제품 불만 리뷰 등 대부분 그냥 로그로 쌓여 있어.
하지만 LLM으로 구조화하면 이런 것도 가능해져.
- 장애 예측 모델
- 고객 이탈 예측
- 품질 사고 조기 감지
즉 텍스트 기록이 예측 데이터셋으로 변할 수 있는 시대가 된 거야.
그래서 앞으로 중요한 질문
AI를 도입하는 조직이라면 이 질문을 한 번 해볼 필요가 있어. 우리 회사 안에는
숫자로 정리되지 않은 텍스트 기록이 얼마나 쌓여 있을까? 그리고 그 기록을 AI로 구조화하면
- 어떤 위험을 예측할 수 있을까
- 어떤 의사결정을 더 빨리 할 수 있을까
- 어떤 새로운 데이터 자산이 생길까
어쩌면 미래의 AI 프로젝트는 새로운 데이터를 만드는 일이 아니라 이미 존재하지만 우리가 읽지 않았던 기록을 다시 읽는 일일지도 몰라.
'LIFE' 카테고리의 다른 글
| 권력은 법 위에 있는가 (0) | 2026.03.22 |
|---|---|
| 저 사람들은 종목만 다른 거지… (0) | 2026.03.21 |
| 검찰개혁, 드디어 한 고비 넘었어 (0) | 2026.03.20 |
| 세상은 결국 “Hook”으로 돌아간다 (0) | 2026.03.19 |
| 젠슨 황의 AI 5 Layer (0) | 2026.03.17 |