Estrategias de Extracción (ExtractorStrategy)

Las estrategias de extracción son complementos para ciertos preprocessors y processors que le permiten obtener los índices a utilizar como valores de campos de distintas formas dependiendo del origen de esos índices. Así por ejemplo, si tenemos un caso donde los índices con los cuáles debemos subir un cierto documento a Thuban se encuentran en el nombre del archivo a subir, se puede utilizar distintas estrategias para interpretar dichos índices.

Ejemplo práctico:

Dado un archivo pdf cuyo nombre es DNI_12345678_Masc_soltero.pdf, si quisiésemos subir dicho PDF a Thuban e indexarlo por los datos contenidos en el nombre del archivo, podríamos utilizar una extrategia de extracción que en base al nombre del archivo, separe por “_” y agregar al mapa de campos del workitem dichos valores utilizando los nombres que le indiquemos, por ejemplo los siguientes:

TIPO_DOC
NRO_DOC
SEXO
ESTADO_CIVIL

De esta forma, si por ejemplo, utilizamos un CreateDocumentWorkitemProcessor cuándo éste reciba el workitem pasado por la estrategia de extracción, tendrá dentro del mismo en el mapa de campos los valores obtenidos y con ellos subirá el documento a Thuban. Como resultado tendremos en Thuban un documento cuyos índices son:

TIPO_DOC = DNI
NRO_DOC = 12345678
SEXO = Masc
ESTADO_CIVIL = Soltero

y estará acompañado por el PDF que inicio el proceso de DocIntro.

Cabe resaltar que las estrategias de extracción no pueden operar por sí solas, siempre requieren de un procesador que las invoque.

A continuación listamos los ExtractorStrategy disponibles en Thuban DocIntro:

Page:

NameIndexesExtractorStrategy

Thuban

Estrategias de Extracción (ExtractorStrategy)

Analytics

Related content