Home / Area / DOCTRINA EN DOS PÁGINAS Diario DPI Suplemento Derecho y Tecnologías Nro. 90 – 29.12.2022


DOCTRINA EN DOS PÁGINAS

Inteligencia Artificial aplicable a Imágenes: Eficiencia en el tratamiento judicial de la violencia contra las mujeres. Parte II

Por Juan G. Corvalán, Laura Cecilia Díaz Dávila, Carina M. Papini, Cristian E. Morilla, Facundo Nieto, Matías N. Sosa

VII. Desarrollo UBA IALAB

Durante el año 2021, se trabajó en pos de alcanzar una propuesta de solución basada en Inteligencia Artificial (IA) que, de manera automática, realiza clasificación y detección en documentos provenientes del Poder Judicial de un país de América Latina, vinculados a casos de violencia contra las mujeres. A partir de los datos recibidos, se construyó una prueba de concepto.

VII.1. Los expedientes

Para diseñar y desarrollar la prueba de concepto, UBA IALAB dio tratamiento a los expedientes enviados por el Poder Judicial con la finalidad de preparar los datos que consume la arquitectura de algoritmos inteligentes propuesta.

Los expedientes eran heterogéneos en varios aspectos y comprometían su legibilidad: estado de conservación, calidad de digitalización, contenido con diversas cantidades de piezas procesales,  formato variable en función de la zona y del año y, además, los procesos a los que se habían sometido, que incluían el escaneo en algunos casos o la fotografía, en otros.

Cada expediente incluía el formulario de estimación del riesgo, declaraciones verbales, textos manuscritos y escritos digitales que posteriormente fueron escaneados. En algunos se acompañaba también un informe.

VII.2. La lista de chequeo para estimar el nivel de riesgo de la víctima y de las personas que integran su grupo familiar

Todos los expedientes, independientemente de la zona de origen, de sus diversidades culturales y de infraestructura tecnológica, cuentan con una lista de chequeo preformada en formulario para facilitar la estimación del nivel de riesgo. Este documento se imprime para luego escanearse junto con el resto de la denuncia cuando se completa de forma manuscrita.

Consiste esencialmente en una serie de preguntas de diferente importancia y ponderación, a partir de las cuales, se obtiene un puntaje que determina el tipo de riesgo en el que la persona se encuentra, información de vital importancia en este tipo de delitos.

Su formato varía entre las diversas zonas del país. Se identificaron cuatro diferentes en total. Además, contiene un espacio destinado a seleccionar el nivel de riesgo (mediante una marca visible), en base a la suma ponderada obtenida. También es variable su diseño, se detectaron  cuatro diferentes.

Basado en una Ley nacional, se definen los tres niveles de riesgo mencionados. Sin embargo, una de las divisiones político administrativa del país, incluye un cuarto tipo: severo extremo.

La valoración del riesgo permite establecer un orden de prioridades de las distintas causas, comenzando por las más severas, conforme lo expresan los actores involucrados en estos procesos.

VII.3. Innovación tecnológica para aumentar la eficiencia y proteger a la víctima de violencia de género y a las personas que integran su grupo familiar

En este contexto, UBA IALAB consideró que se requiere un sistema que asista a las personas juezas en la detección del tipo de riesgo asociado a la denuncia, para determinar el nivel de prioridad en el abordaje de los casos.

La innovación propuesta permitiría aumentar la eficiencia ya que se constituye como un asistente inteligente que haría posible determinar el riesgo automáticamente de modo que podría ser usado en un sistema que ordene los expedientes, los clasifique y exponga para que el juez pueda decidir aquellos a los cuales debe asignarles prioridad en la resolución.

VIII.  Propuesta Metodológica

La propuesta contempla el tratamiento del texto basado en IA aplicada a imágenes, incorporando modelos de Redes Neuronales Convolucionales (CNN) y además, algoritmos arquitecturas complejas de DL, pre entrenados para la  detección de objetos, más específicamente, YOLO (You Only Look Once). Todos pertenecen a la familia de las Redes Neuronales Profundas (DL), con aprendizaje supervisado.

YOLO es un algoritmo transfer learning open-source, con una arquitectura de CNN muy potente para el fin previsto. Si bien este algoritmo se  especializa en la detección de objetos, su elección para la resolución del problema abordado es una estrategia basada en la experiencia y el conocimiento previos, que en función de la calidad de los resultados y de los costos de su incorporación, podría concebirse como una alternativa para  este y otros problemas, susceptibles de enfocar su resolución a través del tratamiento de imágenes.

VIII.1.  Etiquetado y dataset

Los procesos de preparación de los datos que consumen los algoritmos inteligentes, modelos de redes neuronales, consisten esencialmente en una fase de organización y una de etiquetado manual  basado en  los tipos de documentos.

Fue necesario realizar  una conversión de los documentos escaneados en formato pdf a formato de imagen. En total, se manipularon 1800 documentos provenientes de diversas zonas del país.

En las carpetas de imágenes (una para cada documento) se etiquetaron los objetos con sus categorías de estimación del riesgo. Estos objetos contienen la información esencial que se busca.

De este modo, los datos fueron tratados para cumplir con los requerimientos de   YOLO, que  especifican restricciones para  la imagen y para sus coordenadas que deben alojarse en un archivo de texto homónimo al de la imagen.

Inicialmente se definieron los patrones visuales necesarios para etiquetar. En base a ellos, se ensayaron las primeras pruebas de concepto con un dataset reducido, resultando exitosas. Luego, se prosiguió con un etiquetado de mayor volumen.

VIII.2. Procesamiento con YOLO

Una característica importante del algoritmo es que devuelve dos datos de interés: la posición del objeto en la imagen y a qué etiqueta pertenece (además de informar la probabilidad de pertenencia a esa categoría). En este caso, el sistema detecta por medio de Machine learning, la marca realizada en el formulario correspondiente que determina el nivel de riesgo que se ha asociado a la causa.

Es importante observar que el sistema no toma la decisión sobre el grado de severidad de la situación de la persona denunciante, sino que a través de la detección inteligente de imágenes identificará la marca realizada por la persona a cargo de completar el formulario de estimación del riesgo.

Para una primera aproximación, se trabajó únicamente con las categorías RIESGO1 y RIESGO2, que hacen referencia a las dos formas diferentes en la que el riesgo puede ser marcado y clasificado según el formulario de estimación de riesgo.

El sistema que se diseña seguirá trabajando en función de la información devuelta por el modelo YOLO. Para cada tipo de riesgo se harán dos procedimientos diferentes, más precisamente, se harán dos modelos de redes neuronales convolucionales, las cuales serán las encargadas de identificar finalmente cuál es el riesgo asociado al expediente.

VIII.3.  Redes convolucionales

Las dos formas de marcar el riesgo (RIESGO1 y RIESGO2), definieron la necesidad de entrenar dos CNN diferentes. Para ello, se utilizó el etiquetado realizado para YOLO, y a través del desarrollo de un programa, se logró recortar y armar un nuevo dataset para cada tipo de riesgo.

Se identificaron casos en los que se contaba con pocos ejemplos de la categoría, para ellos se aplicó la técnica de data augmentation (aumentación de datos). Data augmentation es la generación artificial de datos por medio de perturbaciones en los datos originales. Permite mejorar tanto en tamaño como en diversidad al conjunto de datos de entrenamiento. En visión computacional, esta técnica es un estándar de regularización, y también una estrategia para mejorar la performance y combatir el sobreajuste en CNN[6].

Se realizaron pruebas con diferentes arquitecturas y se analizaron los resultados. Finalmente se eligió  un arquitectura simple compuesta por tres capas convolucionales, seguidas por una de dropout  (técnica de regularización en Redes Neuronales Artificiales para reducir el sobre ajuste) y una capa densa como capa de salida.

VIII.4.  La Transformada de Hough

Una alternativa al uso de las CNN, es haciendo uso de la Transformada de Hough. Consiste en  una técnica para la detección de cualquier forma parametrizada y representada en una forma matemática conveniente. Es útil para encontrar formas geométricas como por ejemplo, las elipses. Es posible identificar los círculos donde se marcan el tipo de riesgo, y luego saber cuál se marcó sabiendo el orden de los círculos a través de sus coordenadas.

El círculo marcado se sabe a partir de hacer un conteo de píxeles blancos dentro del círculo detectado, para luego compararlo entre los tres o cuatro círculos detectados según el tipo de formulario. Aquel que tenga la menor cantidad de círculos blancos es el que fue marcado.

Para un buen funcionamiento de esta técnica es necesario binarizar la imagen, es decir, que todos los píxeles sean o blancos o negros, que no existan grises.

Se hicieron distintas pruebas y se obtuvieron buenos resultados, si bien se evidenció que es muy sensible a la calidad de la imagen. Si surgen partes sombreadas, puede que un círculo cuente menos píxeles blancos simplemente por la sombra y no por la marca.

VIII.5.  Resultados

Los resultados del sistema utilizando la CNN  tiene una precisión ligeramente superior al 96% para ambos modelos. Esto se logró con alrededor de 200 imágenes por categoría.

Los resultados que se obtuvieron utilizando la transformada de Hough es del 95% para un tipo de ficha, y del 87% para el otro.

Puede notarse que los resultados de las CNN podrían continuar mejorando si se cuenta con mayor cantidad de datos.

  1. Conclusiones

Aumento de la eficiencia a partir de la intervención del sistema de IA

Se logró un sistema capaz de identificar elementos claves dentro de un documento escaneado.

El sistema es útil para aumentar la eficiencia. Cuenta con la potencialidad de que la persona que trabaja con el caso conozca rápidamente el tipo de riesgo asociado en la causa que se encuentra analizando ya que el sistema basado en Machine Learning detecta la marca realizada en el formulario de estimación de riesgo.

Se genera el fenómeno de cobotización inclusiva[7] donde el sistema asiste para que la persona pueda dar respuestas con mayor velocidad en casos donde se encuentra en juego derechos humanos y hasta la vida de la persona víctima del delito.

Si se tiene en cuenta la gravedad de la situación que padecen las mujeres y muchas minorías en el mundo y la urgencia que significa para los Estados los cuales deben tomar medidas apropiadas, las herramientas que permiten aumentar la eficiencia en el tratamiento de los casos podrían constituirse como aliadas.

Es importante observar que, en estos casos, y por el impacto en los derechos humanos involucrados, no se ha entrenado un sistema que decida el tipo de riesgo que correspondería asociar a una causa.

Aplicable a diversos ámbitos

Es posible concebir la oportunidad de utilizar estas técnicas para solucionar otros problemas en distintos ámbitos que requieren abordajes similares, como por ejemplo los sistemas hospitalarios de la región, que diariamente conviven con estos documentos digitalizados, u otros sistemas gubernamentales.

El uso de estas herramientas puede colaborar en pos de aumentar la eficiencia en el sector de Justicia de los países de la región y, principalmente como asistentes de las personas juezas en la detección de los casos vinculados con ciertos criterios que requieren un abordaje prioritario, como lo es la violencia contra las mujeres y las personas integrantes de su grupo familiar.

En particular, a partir de la visión artificial, es posible detectar rápidamente ciertos criterios de relevancia que permiten asignar prioridad a ciertos expedientes, analizar su complejidad, entre otras cuestiones, de acuerdo a la materia de la que se trate.

Resultados a pesar de actuar en escenario sin automatización completa

La propuesta tiene el potencial de lograr una buena eficiencia del sistema semi-digital mientras todavía se avanza a la digitalización completa.

Se obtuvo una alternativa al uso del OCR para resolver este tipo de problemas, con excelentes resultados.

Es evidente que el uso de herramientas de DL son de increíble utilidad. Es importante insistir en que el algoritmo no decide la severidad del documento, sino que identifica la severidad del riesgo que una persona ya calculó.

En definitiva, consideramos que el uso de estas herramientas puede colaborar en pos de aumentar la eficiencia en el sector de Justicia de los países de la región y, principalmente como asistentes de las personas juezas en la detección de los casos vinculados con ciertos criterios que requieren un abordaje prioritario, como lo es la violencia contra las mujeres y las personas integrantes de su grupo familiar.

 

[1] El presente corresponde a la continuación del artículo publicado en el Diario Nº  89 (22.11.2022).

[2] PhD. Postdoctorando en la Universidad de París 1 Panthéon- Sorbonne y profesor visitante en la misma Universidad. Co- fundador y Co- director del Laboratorio de Innovación e Inteligencia Artificial de la Facultad de Derecho de la Universidad de Buenos Aires – UBA IALAB. Director del Posgrado en Inteligencia Artificial y Derecho de la Universidad de Buenos Aires. Director del Posgrado en Metaverso y Gaming de la Universidad de Buenos Aires y del Posgrado en Inteligencia Artificial y Derecho de la misma Universidad. Director del Programa de Formación Multidisciplinaria de Datos e Inteligencia Artificial impulsado desde UBA IALAB. Co- director de la Diplomatura en Derecho 4.0 de la Universidad Austral. Profesor de Inteligencia Artificial en grado y posgrado. Director y co- autor del Tratado de Inteligencia Artificial y Derecho de la editorial La Ley. Autor de cuatro libros en materia de Inteligencia Artificial y Derecho. Co- creador de Prometea, el primer sistema predictivo inteligente en aplicación en Latinoamérica. Co- creador de PretorIA, el primer sistema inteligente en aplicación dentro de un máximo tribunal judicial. Actualmente cursando el Máster en Inteligencia Artificial – CEUPE.

[3] Académica e investigadora experta (II-SPU) en Inteligencia Artificial aplicada a las políticas públicas. Doctora en Administración y política pública. Magíster en Administración Pública, Ingeniera Especialista en Calidad e Ingeniera Civil. Profesora a cargo de Inteligencia Artificial de la FCEFyN de la UNC y en diversos Posgrados del país. Directora de programa y proyecto de investigación – SECyT UNC. Ha participado en calidad de miembro de comité científico, organizadora, conferencista invitada, expositora, autora y/o directora de trabajos en eventos científicos nacionales e internacionales y realizado publicaciones en libros, revistas y otros medios de difusión. Investigadora experta en Inteligencia Artificial por designación del Laboratorio de Innovación e Inteligencia Artificial de la Facultad de Derecho de la Universidad de Buenos Aires – UBA IALAB, de la Red Iberoamericana de Investigadores sobre Apropiación de la Tecnología, del DUI-UNC.

[4] Abogada por la Universidad de Buenos Aires, abandera en la Ceremonia de Entrega de Diplomas. Recibió el Diploma de Honor. Distinción a la Excelencia por la calidad académica acreditada en los estudios de Derecho por el Colegio de Abogados de la Ciudad de Buenos Aires. Diplomada en Derecho 4.0 por la Universidad Austral. Diplomada en Administración Pública 4.0: “Hacia una administración pública inteligente” por la Procuración General de la Ciudad. Coordinadora Académica del Programa de Actualización en Inteligencia Artificial y Derecho de la Facultad de Derecho de la Universidad de Buenos Aires. Coordinadora de proyectos en UBA IALAB. Miembro del Comité Editorial del Diario Derecho para Innovar. Co- autora del Tratado de Inteligencia Artificial y Derecho de la editorial La Ley. Colaboradora en el libro Perfiles Digitales Humanos de editorial La Ley.

[5] Cristian E. Morilla, Facundo Nieto y Matías N. Sosa, son integrantes del Proyecto de Investigación Aprendizaje Inteligente – Depto. Computación – FCEFyN – SECyT – UNC. Realizaron la práctica en el contexto del Programa de Formación Multidisciplinaria de Datos e Inteligencia Artificial del Laboratorio de Innovación e Inteligencia Artificial de la Facultad de Derecho de la UBA, en GIDIA, el Grupo de Investigación, Desarrollo y Despliegue de Inteligencia Artificial Aplicada de UBA IALAB. En este contexto, participaron en un proyecto de desarrollo que involucró técnicas de Machine Learning y fueron programadores del sistema que se describe en el presente artículo, bajo la dirección de la Dra. Díaz Dávila y del Dr. Corvalán.

[6] V. Franspg, «Generación de datos artificiales (Data Augmentation)», franspg, 2022. [Online]. Available:

https://franspg.wordpress.com/2020/01/27/generacion-de-datos-artificiales-data-augmentation/.

[7] Ver más en Cevasco, Corvalán y Le Fevre, Inteligencia Artificial y Trabajo. Construyendo un nuevo paradigma de empleo, DPI Cuántico, Astrea, IMODEV, año 2019, disponible en: IAyT_V26 (ialab.com.ar)

DESCARGAR ARTÍCULO