Gemini y búsqueda semántica: AI selecciona muebles a partir de planos con una precisión del 87%
En la construcción y el diseño de interiores, los especialistas todavía pasan horas revisando catálogos manualmente para seleccionar muebles a partir de un…
Procesado por IA desde Habr AI; editado por Hamidun News
La selección de muebles basada en un dibujo arquitectónico es una tarea que en la construcción y el diseño de interiores aún se realiza en gran medida manualmente. Un especialista toma el dibujo, abre el catálogo de un proveedor y comienza a revisar metódicamente las posiciones: comparando dimensiones, materiales, estilo. Un proyecto lleva de 20 a 40 horas-persona solo en esta etapa.
Cuando hay múltiples objetos, los costos se multiplican proporcionalmente. Un equipo ruso de desarrolladores decidió cerrar esta brecha construyendo un sistema de IA que automatiza todo el proceso de selección y entrega recomendaciones con 87% de precisión. El problema se encuentra en la intersección de la visión por computadora y la recuperación de información.
Un dibujo arquitectónico es un documento especializado con notaciones, símbolos convencionales, cuadrículas de escala y capas multinivel. Simplemente reconocer un objeto en una imagen no es suficiente: necesitas entender la solución de planificación en su conjunto, identificar zonas funcionales, extraer áreas de asiento para categorías específicas de muebles y tener en cuenta las limitaciones reales del espacio. El corazón del sistema es una arquitectura multimodal con Gemini como coordinador principal.
Este modelo se encarga de entender el dibujo: reconoce el diseño, identifica las habitaciones, determina dónde está el dormitorio, dónde está la sala de estar, cuáles son las zonas de circulación y dónde hay limitaciones de altura, iluminación o configuración de paredes. Esto no es simplemente OCR ni es reconocimiento trivial de objetos — Gemini trabaja con la semántica del documento arquitectónico, extrayendo datos estructurados para la siguiente capa del sistema. Después de que el dibujo se desglosa en unidades semánticas, la búsqueda semántica en el catálogo entra en juego.
Cada artículo ya ha sido vectorizado: las características del producto — dimensiones, material, estilo, paleta de colores, segmento de precio — se transforman en embeddings vectoriales. El sistema compara los requisitos del dibujo con esta representación vectorial y encuentra las coincidencias más cercanas. La salida no es simplemente una lista de cientos de artículos adecuados, sino una selección clasificada con una explicación de por qué este modelo particular se recomienda para un lugar específico en el plan.
La arquitectura técnica no se limita a dos componentes. Además de Gemini y la búsqueda semántica, el pipeline involucra modelos para el preprocesamiento de dibujos: normalización de escala, separación de capas, limpieza de artefatos de escaneo. Los dibujos reales de organizaciones de diseño llegan en diferentes estados — desde exportaciones CAD limpias hasta documentos en papel escaneados con rasgaduras y manchas.
El sistema debe funcionar de manera estable con este rango completo sin preprocesamiento manual. Lograr 87% de precisión no fue algo que se logró en el primer intento. El equipo iteró sobre varios nodos clave: la calidad del análisis de dibujos en diferentes formatos, la estrategia de vectorización de datos de catálogo y el mecanismo de clasificación final.
Un desafío particular fueron los diseños inusuales — cuando un arquitecto usa notaciones no estándar o el dibujo contiene solo un fragmento de la habitación. Para casos extremos, agregaron lógica de respaldo y una capa adicional de validación de resultados. El valor práctico del desarrollo radica en escalar el tiempo de trabajo de los especialistas.
Si antes un diseñador podía trabajar detalladamente en 2–3 proyectos por semana, con el sistema de IA verifica y corrige recomendaciones ya listas en lugar de formularlas desde cero. Para empresas constructoras que trabajan con complejos residenciales estándar, esto significa la capacidad de administrar decenas de objetos en paralelo sin un aumento proporcional de personal. El proyecto demuestra cómo los sistemas de IA multimodal están comenzando a automatizar tareas operativas que durante mucho tiempo se consideraron demasiado especializadas para el procesamiento por máquina.
Los dibujos arquitectónicos son un tipo complejo de datos no estructurados, y el hecho de que Gemini maneje su análisis semántico abre la puerta a soluciones similares en campos relacionados: esquemas de ingeniería, dibujos estructurales, especificaciones técnicas. El siguiente paso lógico es la integración con plataformas BIM y exportación directa de recomendaciones a la documentación del proyecto.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.