LLM de código abierto para abogados: el experimento de Reg.cloud y Raft
Рег.облако и Raft провели эксперимент по использованию open-source LLM для анализа юридических документов. Статья рассматривает ограничения, инженерные решения

La automatización del trabajo con documentos legales ha recorrido un largo camino, desde expresiones regulares hasta redes neuronales modernas. Sin embargo, como demuestra la práctica, o bien la calidad del procesamiento resultaba insuficiente para tareas comerciales reales, o bien el costo de implementación y mantenimiento de la solución era prohibitivamente alto. En busca de una solución óptima, el equipo de Reg.cloud otorgó una subvención al equipo de Raft para llevar a cabo un experimento utilizando LLMs open-source modernos en servidores en la nube con GPUs A100. El objetivo del experimento era determinar qué tan bien los LLMs manejan documentos legales largos y si es posible su aplicación para la extracción industrial de datos críticos para el negocio.
Durante el experimento, el equipo de Raft enfrentó una serie de limitaciones. En primer lugar, los LLMs, incluso los más modernos, tienen restricciones en la longitud del contexto. Los documentos legales suelen ser muy voluminosos y, para procesarlos efectivamente, es necesario dividirlos en fragmentos o utilizar técnicas de expansión de contexto. En segundo lugar, la precisión de la extracción de datos depende directamente de la calidad del entrenamiento del modelo y su capacidad para comprender la terminología legal. Los modelos entrenados con datos generales pueden tener dificultades al trabajar con textos legales específicos.
Para resolver estos problemas, el equipo de Raft aplicó una serie de soluciones de ingeniería. Se utilizaron técnicas de chunking (división de texto en fragmentos) y summarization (compresión de información) para procesar documentos largos. El equipo también realizó ajuste fino de modelos en conjuntos de datos jurídicos especializados. Se prestó especial atención a la selección de parámetros óptimos del modelo y a la configuración del proceso de extracción de datos.
Los resultados del experimento resultaron prometedores, pero no sin inconvenientes. Los LLMs demostraron una buena capacidad para extraer información clave de documentos legales, pero la precisión y la integridad de la extracción variaban según el tipo de documento y la complejidad de la tarea. Los mejores resultados se lograron utilizando modelos ajustados en datos especializados. Sin embargo, incluso en este caso, fue necesaria la verificación manual de los resultados para garantizar alta precisión.
Este experimento tiene implicaciones importantes para la industria legal. Demuestra que los LLMs open-source pueden ser una herramienta útil para automatizar el procesamiento de documentos legales, pero requieren un ajuste cuidadoso y adaptación a tareas específicas. En el futuro, con el avance tecnológico y la aparición de modelos más poderosos, podemos esperar mejoras significativas en los resultados y una aplicación más amplia de los LLMs en la práctica legal.
En conclusión, el experimento de Reg.cloud y Raft ha demostrado el potencial de los LLMs open-source para automatizar el trabajo con documentos legales. Aunque existen ciertas limitaciones y complejidades, las soluciones de ingeniería y el ajuste fino de los modelos permiten lograr resultados aceptables. La investigación y el desarrollo futuro en esta área abrirán nuevas oportunidades para mejorar la eficiencia y reducir costos en el sector legal.