Reconocimiento y extracción Introducción
El módulo de reconocimiento de documentos y de extracción de datos nos permitirá gestionar la Librería de Reconocimiento del sistema que está compuesta por Sets de Configuración. Esos Sets de Configuración, a su vez, están compuestos por Templates o “plantillas” que se agrupan en sets para poder activarlos o desactivarlos en su conjunto.
Término | Definición |
---|---|
Librería de Reconocimiento | Conjunto de 'Set de Configuraciones' (de reconocimiento) activos y des-habilitados en un puesto de Captika. |
Set de Configuración | Es un conjunto de templates que se agrupan de forma tal que el administrador pueda activarlas o desactivarlas. También puede establecer que las plantillas se generen automáticamente a medida que el usuario de digitalización va identificando el lote (auto-aprendizaje). |
Template o plantilla | Unidad de mínima de configuración que agrupa todas las definiciones necesarias para que el sistema pueda identificar un documento y, una vez reconocido el documento, pueda extraer los datos. Su configuración tiene tres componentes: una imagen de prueba, una configuración de reconocimiento (para detectar el tipo de documento) y una configuración de extracción (para extraer los datos del documento reconocido). |
Captika cuenta con la opción de que el reconocimiento de OCR se realice de forma asincrónica y multi-threading (usando varios hilos de procesamiento a la vez). Bajo esa modalidad, cuando se realice el reconocimiento que requiera de OCR de un lote se generara un pool de hilos que irán realizando el OCR de forma simultánea dependiendo en la cantidad de procesadores que tenga la PC. Se realizaran tantos reconocimientos simultáneos como cantidad de procesadores que tenga la PC menos uno que quedará libre. De esta forma si la PC tiene cuatro procesadores se utilizaran tres instancias.
Se recomienda seleccionar la misma zona de lectura en todos los templates de reconocimiento ya que, de esa manera, Captika leerá la zona una sola vez y guardará los datos hallados en memoria. Esto mejorará de forma significativa el rendimiento de la aplicación.
Módulo de reconocimiento y extracción
Al presionar el botón, se abre la ventana de configuración de reconocimiento de imágenes y extracción de datos. Este módulo tiene tres paneles o secciones:
Panel de Configuraciones: permite configurar dos grandes secciones
Configuración Set: Un Set de Configuraciones es una grupo de template de reconocimiento. El set permite agrupar varios templates de reconocimiento y otorgarles configuraciones comunes como ser por ejemplo en que momento se ejecutarán.
Configurar Tempate: permite configurar template. Cada uno de los templates permite establecer las reglas que se utilizaran para identificar las imagenes procesadas por Captika y proceder a la extracción de datos
Panel de imagen del template: muestra la imagen configurada para template seleccionado. En este panel pueden seleccionarse los templates, clonarlos, eliminarlos y eliminarlos.
Panel de imagen de prueba: permite cargar imágenes de prueba comprobar la configuración de un template en particular, o bien contra toda la librería de templates. Es útil par evaluar mientras se configura un template la eficacia en el reconocimiento y la extracción.
El módulo de reconocimiento de documentos y de extracción de datos nos permitirá gestionar la Librería de Reconocimiento del sistema que está compuesta por Sets de Configuración. Esos Sets de Configuración, a su vez, están compuestos por Templates o “plantillas” que se agrupan en sets para poder activarlos o desactivarlos en su conjunto.
Barra de herramientas sobre templates
Abre el modulo de configuración de templates
Permite cambiar y guardar el orden con el que se ejecutan los templates.
Captika cuenta con la opción de que el reconocimiento de OCR se realice de forma asincrónica y multi-threading (usando varios hilos de procesamiento a la vez). Bajo esa modalidad, cuando se realice el reconocimiento que requiera de OCR de un lote se generara un pool de hilos que irán realizando el OCR de forma simultánea dependiendo en la cantidad de procesadores que tenga la PC. Se realizaran tantos reconocimientos simultáneos como cantidad de procesadores que tenga la PC menos uno que quedará libre. De esta forma si la PC tiene cuatro procesadores se utilizaran tres instancias.
Se recomienda seleccionar la misma zona de lectura en todos los templates de reconocimiento ya que, de esa manera, Captika leerá la zona una sola vez y guardará los datos hallados en memoria. Esto mejorará de forma significativa el rendimien