Corpus Map

Definición

El corpus map es un mapa de cada uno de los corpus que pueden ser usados para preparar a un mismo bot. La función de este mapa es almacenar los nombres de las diferentes sheets de cada corpus y atribuir la función a dichas sheets para que el sistema pueda interpretar correctamente los datos que estas contienen.

Nota: un bot desarrollado por Mammut puede ser preparado usando varios corpora. El corpus map hace posible que el sistema identifique los vínculos que existen entre las partes de un mismo corpus, y que identifique los distintos corpora que se utilizarán en un solo bot.

El corpus map almacena el nombre de las sheets que guardan las opciones del corpus, especifica el idioma y el tipo de corpus. Si se trata de un corpus M, además, se deben listar las sheets que pertenecen a la ontology. De manera opcional, un corpus M puede incluir también la información de otras sheets, como la que guarda información sobre las variables, los scenario defaults y las translations del knowledge.

Conceptos relacionados: corpus, corpus extension, corpus N, corpus M, ontology, property, edge, vertices, variable, scenario default, translation.

Formato general

El corpus map es una sheet del Mammut package. Los nombres de las columnas del corpus map se encuentran en la fila #2, y a partir de allí cada fila contiene la información correspondiente a un corpus distinto.

Los nombres de las sheets que se listan en las columnas del corpus map pueden contener cualquier serie de caracteres (letras, números, códigos, etc.). Ahora, para que el sistema pueda reconocer estas sheets listadas, los nombres de estas sheets deben ser escritos en el corpus map de la misma manera como fueron escritos en el proceso de identificación de los sheets del Mammut package. Además, al nombrar los sheets no se admiten guiones "-" o espacios en blanco " "; estos se pueden sustituir por guiones bajos " _ " , por ejemplo: 'entry_point' en lugar de 'entry point'.

La estructura de la hoja de cálculo corpus_map es la siguiente:

Campo Descripción Obligatoriedad
id Identificación de un corpus expresada con un número entero comenzando desde 1. El id debe ser distinto para cada corpus listado en el corpus map. Obligatorio.
main_sheet Columna en la que se agrega el nombre de la sheet en la que está contenido el corpus. Obligatorio.
extension_sheet Columna en la que se agrega el nombre de la sheet en la que está contenido el corpus extension. Opcional.
variable_sheet Columna en la que se agrega el nombre de la sheet que contiene los datos de las variables de un corpus M. Opcional para corpus M.
corpus_type Identifica el tipo de corpus. Para un corpus tipo Natural, esta columna se llena con una 'N' escrita en mayúscula, mientras que para un corpus tipo Mammut, se llena con una 'M'. Obligatorio.
regional_setting Especifíca el idioma principal (idioma en el que está escrito el corpus original, sin traducir) del corpus. En esta columna se usan los códigos “es” (para un corpus en español) o “en” (para un corpus en inglés) según sea el caso. Obligatorio.
annotable Esta columna se llena con una equis "x" solo para los corpus que se desee anotar. Opcional.
ontology_instances Columna en la que se agrega el nombre de la sheet en la que está contenido el vértice entry_point de la ontology de un corpus M. Obligatorio para corpus M.
ontology_vertices Columna en la que se agrega el nombre de la sheet en la que está contenida la información de los vertices de la ontology de un corpus M. Obligatorio para corpus M.
ontology_edges Columna en la que se agrega el nombre de la sheet en la que está contenida la información de los edges de la ontology de un corpus M. Obligatorio para corpus M.
ontology_properties Columna en la que se agrega el nombre de la sheet en la que está contenida la información de las properties de la ontology de un corpus M. Obligatorio para corpus M.
scenario_defaults Columna en la que se agrega el nombre de la sheet que contiene la configuración de los scenario_defaults de un corpus M. Opcional para corpus M.
knowledge_translations Columna en la que se agrega el nombre de la sheet que contiene las translations de las instances del knowledge de un corpus M. Opcional para corpus M.
hidden Esta columna se llena con una equis "x" solo para los corpus que se desee ocultar. Opcional.

Ejemplo

id main_sheet extension_sheet variables_sheet corpus_type regional_settings configuration_json annotable ontology_instances ontology_vertices ontology_defaults ontology_edges ontology_properties scenario_defaults knowledge_translations hidden
1 corpus_jollivanders corpus_jollivanders_extension variables M es x tienda vertices edges properties defaults translations
2 jollivanders_corpus_N jollivanders_corpus_N_extension N es x