
Extracción de Google Maps Street View
Construí pipelines de ML para extraer nombres de calles, números y señales de tráfico utilizando detección, OCR y segmentación semántica a escala global.
Soy un científico investigador con más de 20 años de experiencia en visión por computador, aprendizaje profundo y sistemas de ML. He trabajado en la academia y la industria en Google, Momenta, ENSCO y UMD, entregando soluciones impactantes desde la concepción hasta la implementación.
Soy Xavier Gibert-Serra, Doctorado, un consultor especializado en aprendizaje automático y visión por computador. Anteriormente, fui Ingeniero de I+D en Momenta Europa trabajando en percepción para conducción autónoma, y un Ingeniero de Software de Aprendizaje Automático en Google Maps y Google X Robotics. Antes, en ENSCO, lideré el I+D de visión para sistemas de inspección ferroviaria. Obtuve mi Doctorado en Ingeniería Eléctrica y Informática en la Universidad de Maryland, bajo la dirección de Rama Chellappa.
May 2023 – Jul 2025
Desarrollé, entrené y desplegué actualizaciones del módulo de percepción para clientes de conducción autónoma en la UE y EE. UU. Centrado en detección de objetos 3D, fusión de múltiples sensores, seguimiento, predicción y minería de datos.
Sep 2015 – Abr 2023
Google Maps: Diseñé pipelines de visión a gran escala para extraer información estructurada de Street View utilizando detección, segmentación, OCR y bundle adjustment.
X Robotics: Desarrollé algoritmos de estimación de pose y seguimiento en tiempo real para aplicaciones de robótica utilizando técnicas geométricas.
Sep 2011 – Sep 2015
Gestioné un proyecto con fondos federales para la detección de defectos en vías férreas. Creé algoritmos de detección de anomalías acelerados por GPU, pipelines de procesamiento distribuido y registro de imágenes médicas multimodales.
Abr 2004 – Abr 2013
ENSCO Rail: Lideré el Grupo de Procesamiento de Imágenes. Desarrollé algoritmos en tiempo real para el análisis óptico de perfiles de rieles y la detección de grietas. Gestioné la I+D y la producción de la familia de sistemas RailScan.
Team ENSCO — DARPA Grand Challenge: Construí un detector de obstáculos utilizando cámaras estéreo, permitiendo que un vehículo robótico condujera de forma autónoma 91 millas en por el desierto y terminara sexto.
Sep 2001 – Dic 2003
Desarrollé marcos para la extracción de features en videos multimedia, evaluación de OCR y clasificación utilizando múltiples modalidades.
Construí pipelines de ML para extraer nombres de calles, números y señales de tráfico utilizando detección, OCR y segmentación semántica a escala global.
Desplegué un sistema en tiempo real para la detección de grietas desde trenes en movimiento utilizando cámaras de escaneo de línea, integradas en vehículos de inspección en producción.
Desarrollé módulos de detección de objetos 3D, fusión y predicción para sistemas de conducción autónoma L2+/L3 en Europa y EE. UU.
Diseñé un detector de obstáculos basado en estéreo que permitió al vehículo del Equipo ENSCO viajar 91 millas de forma autónoma y terminar sexto en la general.
Diseñé un sistema para la inspección automática de componentes ferroviarios utilizando deep learning, con detección de grietas, clasificación de traviesas y detección de anclajes de riel faltantes y/o rotos.
Diseñé una herramienta de análisis y visualización cardíaca multimodal para la facultad de medicina de la Universidad de Maryland.
¿Interesado en colaborar? Envíame un correo o conéctate en LinkedIn.