CICLO DE CHARLAS IER2022 - Martes 27/9 a 11 hs,  Edificio las cúpulas

Extracción automatizada de datos de la web


 Javier Foguet,
CPA del Instituto de Ecología Regional.

 

 Los términos  “data mining”  y “ big data”  suenan cada vez más en el Instituto, probablemente por la importancia que últimamente se le da a los “socio-ecosistemas” en las distintas líneas de investigación del IER. En mi charla voy a presentar una serie de trabajos que son ejemplos sencillos de interacción y extracción de datos de la nube con dos tipos de estrategias: usando APIS (Application programming interface) y usando “web scraping”. La idea es introducir estas estrategias y mostrar que se puede extraer información muy útil sin caer en volúmenes de datos inmanejables por una única computadora. Hacia el final de la presentación mostraré alguna pista para encarar eventualmente el problema de los grandes datos con alguna  arquitectura de procesamiento. 

Los casos a presentar serán:

  1. Geocoding de registros COVID con la API de Google maps
  2. Uso de la API de Open Street Map para generación de isocronas
  3. Uso de la API de Wikipedia para extraer nubes de puntos de ciudades con su fecha de fundación
  4. Web Scraping de la Gaceta, para sacar información sobre eventos climáticos en el área del pedemonte de las sierras de San Javier

ver la presentación