Google taught AI to predict floods using old newspaper reports
Google uses old news reports and LLM to predict flash floods. Archival texts are converted into numerical data — solving the shortage of hydrological measuremen

Google разработала нестандартный подход к прогнозированию внезапных наводнений: вместо дорогостоящей инфраструктуры датчиков компания использует архивные новостные репортажи как источник исторических данных. Языковая модель переводит качественные текстовые описания стихийных бедствий в количественные показатели, пригодные для тренировки гидрологических моделей. Проблема, которую решает этот метод, хорошо известна климатологам.
Точные модели предсказания паводков требуют многолетних рядов данных об уровне воды, осадках и рельефе. Но в большинстве развивающихся стран, где наводнения наиболее смертоносны, такая инфраструктура просто отсутствует. Датчики стоят денег, требуют обслуживания и электричества — всего этого в уязвимых регионах не хватает.
При этом исторические сведения о наводнениях всё же существуют — в газетных архивах, репортажах местных изданий, правительственных сводках. Проблема в том, что эти данные качественные: «сильный паводок затопил три деревни» — это не цифра, с которой может работать традиционная модель. Google предложила использовать LLM как переводчик: модель читает исторический текст и извлекает из него структурированные числовые оценки масштаба, продолжительности и географии события.
Полученные синтетические числовые ряды затем используются для тренировки модели прогнозирования наводнений. По сути, архивная журналистика становится заменой десятилетиям инструментальных измерений. Это принципиально новый способ справляться с дефицитом данных в климатических задачах — подход, который потенциально применим далеко за пределами гидрологии.
Google уже тестирует систему в регионах Африки и Южной Азии, где паводковые предупреждения практически отсутствуют. Компания развивает направление Flood Hub с 2023 года, покрывая сегодня более 80 стран. Новый метод должен расширить охват на территории, которые прежде оставались вне зоны прогнозирования из-за отсутствия исторических числовых данных.
Это показательный пример того, как LLM меняет саму структуру научных данных. Раньше граница между «есть данные» и «нет данных» определялась наличием измерительного оборудования. Теперь эту границу можно отодвигать с помощью языковых моделей, которые умеют извлекать скрытую количественную информацию из текстов, написанных без какой-либо научной цели.