Máquinas que aprenden el lenguaje más como los niños.
El modelo de computadora podría mejorar la interacción hombre-máquina, proporcionar información sobre cómo los niños aprenden el idioma
- 31 de octubre de 2018
- Instituto de Tecnología de Massachusetts
- Los investigadores describen un analizador que aprende a través de la observación para imitar más estrechamente el proceso de adquisición del lenguaje de un niño, lo que podría ampliar considerablemente las capacidades del analizador.
HISTORIA COMPLETA
Crédito: MIT News
Los niños aprenden el lenguaje observando su entorno, escuchando a las personas que los rodean y conectando los puntos entre lo que ven y escuchan. Entre otras cosas, esto ayuda a los niños a establecer el orden de las palabras de su idioma, por ejemplo, donde los sujetos y los verbos caen en una oración.
En computación, aprender lenguaje es tarea de analizadores sintácticos y semánticos. Estos sistemas están entrenados en oraciones anotadas por humanos que describen la estructura y el significado detrás de las palabras. Los analizadores son cada vez más importantes para búsquedas en la web, consultas en bases de datos en lenguaje natural y sistemas de reconocimiento de voz como Alexa y Siri. Pronto, también pueden ser utilizados para robótica doméstica.
Pero la recopilación de los datos de anotación puede llevar mucho tiempo y ser difícil para los idiomas menos comunes. Además, los humanos no siempre están de acuerdo con las anotaciones, y las anotaciones en sí mismas pueden no reflejar con precisión cómo las personas hablan naturalmente.
En un artículo presentado en la conferencia de Métodos empíricos en el procesamiento del lenguaje natural de esta semana, los investigadores del MIT describen un analizador que aprende a través de la observación para imitar más estrechamente el proceso de adquisición del lenguaje de un niño, lo que podría ampliar enormemente las capacidades del analizador. Para aprender la estructura del lenguaje, el analizador observa videos con subtítulos, sin otra información, y asocia las palabras con objetos y acciones grabados. Dada una nueva oración, el analizador puede usar lo que aprendió sobre la estructura del lenguaje para predecir con precisión el significado de una oración, sin el video.
Este enfoque "débilmente supervisado" (lo que significa que requiere datos de capacitación limitados) imita cómo los niños pueden observar el mundo que los rodea y aprender el idioma, sin que nadie proporcione un contexto directo. El enfoque podría ampliar los tipos de datos y reducir el esfuerzo necesario para la capacitación de analizadores, según los investigadores. Algunas oraciones anotadas directamente, por ejemplo, podrían combinarse con muchos videos subtitulados, que son más fáciles de conseguir, para mejorar el rendimiento.
En el futuro, el analizador podría usarse para mejorar la interacción natural entre humanos y robots personales. Un robot equipado con el analizador, por ejemplo, podría observar constantemente su entorno para reforzar su comprensión de los comandos hablados, incluso cuando las oraciones habladas no son completamente gramaticales o claras. "Las personas se hablan entre sí en oraciones parciales, pensamientos repetidos y lenguaje confuso. Usted quiere un robot en su hogar que se adapte a su forma particular de hablar (...) y aún se entienda lo que significan", dice co- el autor Andrei Barbu, investigador en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y el Centro de Cerebros, Mentes y Máquinas (CBMM) del Instituto McGovern del MIT.
El analizador también podría ayudar a los investigadores a comprender mejor cómo aprenden el lenguaje los niños pequeños. "Un niño tiene acceso a información redundante y complementaria de diferentes modalidades, incluidos padres oyentes y hermanos que hablan sobre el mundo, así como información táctil e información visual [que le ayuda a entender el mundo", dice el coautor Boris Katz, científico investigador principal y jefe del Grupo InfoLab en CSAIL. "Es un rompecabezas increíble, para procesar toda esta información sensorial simultánea. Este trabajo es parte de una pieza más grande para comprender cómo ocurre este tipo de aprendizaje en el mundo".
Los coautores del artículo son: el primer autor Candace Ross, un estudiante graduado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación y CSAIL, e investigador en CBMM; Yevgeni Berzak PhD '17, postdoctorado en el Grupo de Psicolingüística Computacional en el Departamento de Cerebro y Ciencias Cognitivas; y el estudiante graduado de CSAIL Battushig Myanganbayar.
Aprendiz visual
Para su trabajo, los investigadores combinaron un analizador semántico con un componente de visión artificial entrenado en reconocimiento de objetos, humanos y actividades en video. Los analizadores semánticos generalmente se entrenan en oraciones anotadas con un código que atribuye significado a cada palabra y las relaciones entre las palabras. Algunos han sido entrenados en imágenes fijas o simulaciones por computadora.
El nuevo analizador es el primero en ser entrenado usando video, dice Ross. En parte, los videos son más útiles para reducir la ambigüedad. Si el analizador no está seguro acerca de, por ejemplo, una acción u objeto en una oración, puede hacer referencia al video para aclarar las cosas. "Hay componentes temporales, objetos que interactúan entre sí y con personas, y propiedades de alto nivel que no se ven en una imagen fija o solo en el lenguaje", dice Ross.
Los investigadores compilaron un conjunto de datos de aproximadamente 400 videos que muestran a personas que realizan una serie de acciones, entre ellas recoger un objeto o dejarlo, y caminar hacia un objeto. Los participantes en la plataforma de crowdsourcing Mechanical Turk proporcionaron 1,200 subtítulos para esos videos. Dejaron de lado 840 ejemplos de subtítulos de video para entrenamiento y ajuste, y usaron 360 para pruebas. Una de las ventajas de usar el análisis basado en la visión es que "no necesita casi la misma cantidad de datos, aunque si tuviera [los datos], podría escalar hasta grandes conjuntos de datos", dice Barbu.
En el entrenamiento, los investigadores le dieron al analizador el objetivo de determinar si una oración describe con precisión un video dado. Le dieron al analizador un video y una leyenda correspondiente. El analizador extrae los posibles significados de la leyenda como expresiones matemáticas lógicas. La oración, "La mujer está recogiendo una manzana", por ejemplo, puede expresarse como:? Xy. mujer x, pick_up xy, apple y.
Esas expresiones y el video se ingresan en el algoritmo de visión por computadora, llamado "Rastreador de oraciones", desarrollado por Barbu y otros investigadores. El algoritmo examina cada cuadro de video para rastrear cómo se transforman los objetos y las personas con el tiempo, para determinar si las acciones se están ejecutando como se describe. De esta manera, determina si el significado es posiblemente verdadero del video.
Conectando los puntos
La expresión con las representaciones más cercanas para objetos, humanos y acciones se convierte en el significado más probable de la leyenda. La expresión, inicialmente, puede referirse a muchos objetos y acciones diferentes en el video, pero el conjunto de significados posibles sirve como una señal de entrenamiento que ayuda al analizador a reducir continuamente las posibilidades. "Suponiendo que todas las oraciones deben seguir las mismas reglas, que todas provienen del mismo idioma, y al ver muchos videos con subtítulos, puedes restringir aún más los significados", dice Barbu.
En resumen, el analizador aprende a través de la observación pasiva: para determinar si un subtítulo es verdadero de un video, el analizador por necesidad debe identificar el significado de probabilidad más alta del subtítulo. "La única manera de averiguar si la oración es cierta en un video [es] para pasar por este paso intermedio de '¿Qué significa la oración?' De lo contrario, no tiene idea de cómo conectar los dos ", explica Barbu. "No le damos al sistema el significado de la oración. Decimos: 'Hay una oración y un video. La oración debe ser cierta en el video. Averiguar alguna representación intermedia que lo haga verdadero en el video'".
El entrenamiento produce una gramática sintáctica y semántica para las palabras que se aprenden. Dada una nueva oración, el analizador ya no requiere videos, sino que aprovecha su gramática y léxico para determinar la estructura y el significado de la oración.
En última instancia, este proceso es aprender "como si fueras un niño", dice Barbu. "Ves el mundo a tu alrededor y escuchas a las personas hablar para aprender un significado. Un día, puedo darte una oración y preguntar qué significa y, incluso sin una imagen, sabes el significado".
En el trabajo futuro, los investigadores están interesados en modelar interacciones, no solo en observaciones pasivas. "Los niños interactúan con el entorno mientras aprenden. Nuestra idea es tener un modelo que también use la percepción para aprender", dice Ross.
Este trabajo fue apoyado, en parte, por el CBMM, la Fundación Nacional de Ciencia, una beca de investigación de posgrado de la Fundación Ford, el Instituto de Investigación de Toyota y el proyecto de comprensión multimedia inspirado en el cerebro del MIT-IBM.
Fuente de la historia:
Materiales proporcionados por el Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y duración.
Citar esta página :
Instituto de Tecnología de Massachusetts. "Las máquinas que aprenden el lenguaje más como los niños lo hacen: el modelo de computadora podría mejorar la interacción persona-máquina, y ofrecer una visión de cómo los niños aprenden el lenguaje" Ciencia diaria. ScienceDaily, 31 de octubre de 2018. .
https://www.sciencedaily.com/releases/2018/10/181031124944.htm