/
Características/Features

Características/Features

Captura de diferentes fuentes

  • Permite la captura de imágenes desde escáneres TWAIN compatibles.

  • Captura desde Thuban Software:

    • Permite capturar directamente desde bandejas de workflow

    • Captura desde ThubanExecSP y ThubanQueries (busquedas nativas de documentos)

  • Captura desde Sharepoint:

    • Mediante busquedas ViewXML

  • Captura desde FileSystem, indicando las extensiones de documentos a importar. Permite asignar a campos de Captika utilizando nombres de archivos o rutas desde donde cada archivo fue procesado. Procesamiento Anidado de carpetas. Contempla manejo de flags, control de tamaño y lockeos para evitar procesar archivos que se encuentran siendo copiados o estan siendo utilizados por otro usuario y/o proceso.

  • Captura desde servidores sFTP/FTP.

  • Captura desde correo Cloud de Microsoft Office 365. Permite conexion con la nube cloud de Microsoft para acceder a carpetas de Correo y procesar automaticamente los mismos, indicando para cada trabajo que componentes se desean descargar (EML, extensiones de archivos adjuntos)

Metadatos y validaciones

  • Permite configurar campos a tres niveles: campos del lote, campos del documento y campos por página.

  • Permite configurar campos con combos/listas de valores utilizando:

    • Bases de datos y comandos SQL, que pueden considerar inclusive valores de otros campos del documento, posibilitando el armando de listas dinámicas.

    • Thuban Software, ya sea mediante la utilización de ThubanExecSP o a través de consultas ThubanQueries que se realizan con APIs nativas.

    • Sharepoint, mapeando campos de Captika con campos que tengan metadatos configurados en Sharepoint.

  • Permite realizar validación de campos y recuperación de datos adicionales utilizando:

    • Bases de datos y comandos SQL.

    • Thuban Software

    • Scripting brinda eventos especificos de validación que permiten desarrollar llamadas a WebServices y/o APIs que validen y enriquezcan los campos capturados.

  • Scripting Captika brinda la posibilidad de configurar Scripting para ajustar las soluciones a los principales eventos definidos en el sistema. De esta forma las oportunidades de integración de la plataforma son prácticamente ilimitadas. La configuración del Scripting debe ser codificada en lenguaje C# o .VB (.NET6).

Captura de datos

  • Captika permite realizar extracciones de datos via OCR utilizando la librería Tesseract 5x, las lecturas son realizadas una vez por página guardando las ubicaciones espaciales de cada palabra y linea permitiendo hacer lecturas subsiguientes sin generar nuevas lecturas. Brinda una interfaz gráfica que permite la limpieza y validación del texto reconocido.

  • Además de Tesseract Captika brinda una integración con la nube de Amazon AWS para posibilitar el reconocimiento de OCR mediante la utilización de Textract de Amazon. La utilizacion de Textract permite capturar tanto escrito óptico (OCR) como escrito a mano (ICR). Tambien permite la lectura automática de tablas (Textract Tables) y de Formularios (Textract Forms)

  • Para la captura de los archivos PDFs utiliza dos metodos de importación: PDFBox y PDFIUM. Con estas librerias permite la importación y procesamiento eficaz de archivos PDF. Brinda una captura SMART de pdfs que separa cada una de sus paginas, verifica si posee firmas, captura su capa de texto y renderiza la imagen por si va a ser necesario extraer información mediante lecturas de codigos de barra o lectura de OCR. Esta lectura de las capas nativas de texto antes de ejecutar el OCR generan mejoras significativas en los tiempos y la calidad el texto reconocido.

  • Captura de datos a partir del reconocimiento de códigos de barra 1D , 2D y patchcodes: CODE128, CODE25, CODE39, CODE39 , EXTENDED, CODABAR, DATABAR, DATAMATRIX, EAN13, EAN8, PDF417, UPCA, UPCE, QRCODE, PATCHCODES, UNREAD.

  • Más de 100 reglas de limpiezas de datos que permiten la localización y extracción de datos puntuales como puede ser extraer un CUIT, Nro de Comprobantes, fechas u otro valor relevante para cada documento procesado.

Reconocimiento

  • Captika permite tanto el reconocimiento de documentos mediante templates pre-armados con reglas de extracción por cada campo. Esta flexibilidad le permite a Captika reconocer tanto documentos estructurados (Facturas, Formularios impositivos) como no-estructurados (Actas, Cartas, Balances).

  • Para el reconocimiento de documentos Captika permite:

    • Reconocer documentos por códigos de barras

    • Reconocer documentos por campos extraídos

    • Por orden de página, tamaño, peso, formas (image Fingerprint)

    • Por OCR extracción y ejecución de reglas

    • Por similitud de texto. Esta característica permite subir una imagen de ejemplo, el sistema toma la capa de texto de la misma y se establece un nivel de similitud mínimo para reconocer futuros documentos.

    • Bolsas de palabras. Permite el armado de diferentes bolsas de palabras para diferentes secciones de la capa de texto del documento, agilizando de manera significativa los tiempos consumidos en el armado de los template.

    • Detección y limpieza de campos mediante reglas OCR y de limpieza de valores.

  • Dentro de las reglas de limpieza de campos Captika cuenta con:

    • Reglas nativas de NLP (Natural Language Processing) que permiten la detección de fechas, correos, números escritos, números de CUIT\CUIL\RUT, máscaras de datos y otros conceptos pre-armados.

    • Amazon Comprehend Detect Entities: Extraer entidades conceptuales (Nombres de personas, organizaciones, lugares, números, teléfonos, etc.)

    • Amazon Comprehend Detect Key Phrases: Detectar frases claves

    • Amazon Comprehend Sentiment: Analizar el sentimiento de un texto (para analizar correos de clientes o reclamos)

    • Amazon Rekognition: Reconocer objetos dentro de una imagen (caras, autos, sillas)

    • Amazon Comprehend Classification: permite clasificar un documento en base al texto capturado. Este reconocimiento se realiza en base a un aprendizaje de clasificaciones anteriores.

    • OpenAI que permite la ejecución de preguntas (Prompts) sobre los textos extraidos. Esta integración permite mejorar la extracción y el reconocimiento de datos mediante el procesamiento del lenguaje natural, el reconocimiento óptico de caracteres, el aprendizaje automático y la integración con otros sistemas. Tambien automatiza y agiliza tareas que requieren la extracción de información de fuentes no estructuradas, mejorando la eficiencia y la precisión en diversos campos, como la gestión de documentos, la investigación y el análisis de datos.

Todas estas herramientas combinadas permiten a Captika de reconocer documentos estructurados y no estructurados de una forma ágil. Su interfaz gráfica permite agilizar significativamente el proceso de reconocer automáticamente los documentos y extraer los datos claves. La integración con Amazon AWS permite a nuestros clientes incursionar en modelos ML (Amazon Comprehend Classification) para ir aprendiendo y mejorando sus circuitos de captura de datos.

Publicación de datos

  • Publicación de datos en formato PDF o TIF multipágina de documentos. Los PDFs pueden generarse con capa de texto generada al momento de la captura. El sistema brinda un análisis previo de PDFs que contengan firmas para evitar su escritura o modificación.

  • Permite la publicación simultánea en diferentes destinos de información:

    • Publicación en FileSystem. Permite la publicación de los documentos reconocidos en directorios de FileSystem permitiendo configurar tanto el nombre de cada archivo como generar opcionalmente archivos de texto parametrizables con datos adicionales para uno de ellos. . Permite generar estructuras de carpetas utilizando los campos reconocidos

    • Publicación en SQL. Permite la publicación en bases de datos de los datos colectados e interpretados para su posterior utilización

    • Publicación en sFTP/FP. Permite la publicación en servidores FTP/SFTP de forma segura, permitiendo configurar tanto el nombre de cada archivo como generar opcionalmente archivos de texto parametrizables con datos adicionales para uno de ellos.

    • Publicación en Portal Thuban. Permite configurar la publicación de documentos en Thuban, configurando los campos que serán publicados y permitiendo tanto la incorporación de documentos nuevos como la actualización de documentos existentes.

    • Publicación en Sharepoint. Permite la publicación de documentos en Sharepoint, los campos de Captika que coincidan con los de Sharepoint serán actualizados

    • Publicación en AmazonS3. Permite la publicación de documentos Amazon S3, seleccionado el bucket S3 al que se desea publicar y el nombre de archivo.

Captika Service

  • Captika brinda una aplicación CaptikaService que permite la ejecución desatendida de servicios de captura y reconocimiento y publicación de documentos electrónicos.

  • El servicio de Captika permite el procesamiento multithreading de los diferentes trabajos configurados permitiendo tanto la ejecución simultánea de trabajos como el procesamiento de varios archivos a la vez.

  • El origen de los trabajos a procesar en modalidad servicio son los siguientes:

    • FileSystem

    • Thuban

    • Correo electrónico

  • Agenda de procesamiento, manejo de errores y almacenamiento de logs.

 

Related content