Corpus N
Definición
Un corpus N es un tipo de corpus que se compone únicamente de scenarios en lenguaje natural. El corpus normal o natural (N) es un tipo de corpus básico que está conformado por peticiones y respuestas creadas por el desarrollador. Este tipo de corpus es sencillo y rápido de construir, sin embargo, el bot de Mammut podrá responder únicamente a los events dispuestos en él.
El corpus N se almacena en una sheet del Mammut package. La información dispuesta en el corpus N contiene ejemplos representativos de conversaciones escritas en lenguaje natural, así como información necesaria para la preparación del bot.
Nota: el corpus N es un conjunto de interacciones simples que conforman a un bot de Mammut para que este pueda comunicarse con un usuario. El corpus N se considera un subconjunto del corpus M.
Conceptos relacionados: corpus, corpus extension, scenario, event.
Formato general
Un corpus N es una sheet de un Mammut package. El corpus N está compuesto por scenarios y events. Cada fila de la sheet se corresponde con un event. Los nombres que corresponden a cada una de las columnas se encuentran en la fila #2: id, sub_id, scenario_type, event_message, hidden field, source, regional_settings, complexity.
La estructura de este sheet es la siguiente:
Campo | Descripción | Obligatoriedad |
---|---|---|
id | Identificador de un scenario. Los valores válidos son de tipo entero. Enteros iguales se corresponden a un mismo scenario. | Obligatorio. |
sub_id | Identificador de un event. Los valores válidos son de tipo entero, y estos deben ser consecutivos, de menor a mayor, uno a uno, empezando en 1 cuando forman parte de un mismo scenario. La numeración se reinicia para el siguiente scenario. Los valores consecutivos del sub_id se corresponden con la secuencia prototípica en la que se presentan las partes integrantes de una conversación (por ejemplo, primero un saludo, segundo una pregunta, etc.) | Obligatorio. |
scenario_type | Tiene tres valores posibles: Conversation, Monologue y Dialogue para cada tipo de scenario. (Véase scenario). | Obligatorio. |
event_message | Mensaje que determina al event. Los valores válidos son de tipo cadena de caracteres. En el caso del corpus M, las variables tendrán un formato específico. | Obligatorio. |
hidden | Ignora un event específico. Se marca con una "x" para esconder el event. Se deja vacío este valor para que el event sea tomado en cuenta por el framework. | Opcional. |
field | Indica una palabra vinculada al tema del event. | Opcional. |
source | Origen de los events que recibe o genera el bot. Es una cadena de caracteres. La cadena de caracteres "Mammut" se reserva para los events iniciados por el bot. Cualquier otra cadena será interpretada como el nombre genérico de otro agente. | Obligatorio. |
regional_seting | Especifíca el idioma en que está escrito el event. En esta columna se usan los códigos “es” (para un corpus en español) o “en” (para un corpus en inglés) según sea el caso. | Obligatorio |
complexity | Identificador del grado de complejidad de un event. Los valores válidos son números de tipo entero. | Opcional. |
Ejemplo
Como se puede apreciar en la siguiente imagen, el corpus N está conformado por intervenciones (petición/respuesta) que sirven como modelos conversacionales al bot de Mammut:
id | sub_id | scenario_type | event_message | hidden | field | source | regional_settings |
---|---|---|---|---|---|---|---|
1 | 1 | Conversation | Hola! | Carla | es | ||
1 | 2 | Conversation | Hola! Bienvenido a la tienda de varitas y calderos del señor Jollivanders. ¿En qué puedo ayudarte? | Mammut | es | ||
2 | 1 | Conversation | ¿Qué varitas venden? | Carla | es | ||
2 | 2 | Conversation | Vendemos varitas de madera de cedro, de olmo, de sauco. | Mammut | es | ||
2 | 3 | Conversation | ¿Cuál es el precio de la varita de sauco? | Carla | es | ||
2 | 4 | Conversation | La varita de sauco cuesta 50 galeones. | Mammut | es | ||
2 | 5 | Conversation | La quiero | Carla | es |