Un nuevo algoritmo mejora los resultados de búsqueda en la web

Fuente: MIT

Cada día existen más portales especializados que permiten localizar un determinado producto o servicio de acuerdo a unos criterios de búsqueda comunes. Por ejemplo, una web de reserva de restaurantes ofrece la posibilidad de elegir local en función del precio, la distancia al centro o el número de comensales, entre otros. Sin embargo, existen otras características menos usuales que para muchos internautas podrían constituir la diferencia entre contratar el menú de un negocio o el de su competidor, como quizá, el tamaño de las raciones, la comodidad de los asientos o la destreza del barman para preparar cócteles.

Ese tipo de información suele aparecer en los comentarios escritos por los usuarios de la web que ya han probado el restaurante señalado, pero revisar todas esas valoraciones podría significar hojear páginas y páginas de texto irrelevante. Ahora, gracias a un nuevo proyecto del Instituto Tecnológico de Massachusetts, la comunicación entre el hombre y la máquina puede estar más cerca de alcanzar un verdadero sentido semántico. Según un comunicado del MIT, el grupo del laboratorio de sistemas de lenguajes hablados, inteligencia artificial e informática de la institución estadounidense ha formulado un algoritmo que consigue peinar a automáticamente todos los comentarios de los usuarios para extraer la información útil publicada por éstos en la web y organizarla para facilitar las búsquedas.

Pero ¿cómo lo hace? En primer lugar, determinando la estructura gramatical de las frases que componen los comentarios y ordenando las palabras que se usan en parejas de nombre-adjetivo. Por ejemplo, si alguien ha escrito "me pareció que los martinis fueron excelentes", el algoritmo extrae la frase "martinis excelente."

Como el nombre del grupo de investigación da a entender, su principal área de trabajo son los sistemas informáticos que responden al lenguaje hablado. De hecho, la interfaz de su prototipo está basada en el habla, de modo que un usuario podría buscar un restaurante de marisco simplemente diciendo "muéstrame una marisquería” en el micrófono de un ordenador o un teléfono móvil. En este sentido, el algoritmo que posibilita el análisis gramatical se remonta a hace una veintena de años, cuando la principal investigadora del actual grupo, Stephanie Seneff, lo comenzó a desarrollar como un componente de los sistemas de reconocimiento de voz. Ahora, ella y su estudiante de posgrado Liu Jingjing han aplicado este algoritmo para un caso sustancialmente diferente de análisis de texto escrito, con escasas modificaciones por lo que no estaban seguros de cómo les iría. "Teníamos que darnos prisa pero estamos absolutamente encantados con lo bien que ha funcionado", reconoce Seneff.

Correlación número-significado

El algoritmo da como resultado parejas de nombre-adjetivo (como "martini excelente" o "buenas vibraciones") basadas únicamente en las posiciones de las palabras en las frases, sin tener ni idea de lo que significan éstas. Por suerte, muchos sitios de valoraciones permiten a los usuarios proporcionan resultados numéricos de algunos aspectos de su experiencia como clientes. En el trabajo presentado en varias conferencias patrocinadas por la Asociación de Lingüística Computacional, Liu y Seneff presentaron un segundo sistema de algoritmos que utilizan clasificaciones numéricas para inferir los significados de los adjetivos. Si las personas que describir los alimentos como "excelentes" le dan siempre cinco de cinco estrellas, y quienes los califican como "horribles" solo le dan una, entonces el sistema deduce que "excelente" indica una mayor satisfacción del cliente que "horrible".

Una vez que el sistema ha calibrado una serie de adjetivos en relación a puntuaciones numéricas, utiliza esto para deducir el significado del resto de palabras. Por ejemplo, si el servicio en muchos restaurantes suele ser descrito como "horrible" y "grosero", el sistema llega a la conclusión de que tanto "grosero" como "horrible" son términos de reprobación. Del mismo modo, si el adjetivo "grosero" con frecuencia se combina con nombres como "servicio", "mozos" y "personal", pero no con palabras como "ver" o "aparcamiento", el prototipo deduce que "servicio", "camareros " y "personal" son términos relacionados temáticamente.

Como consecuencia, si un usuario pide al sistema que identifique restaurantes con un ambiente agradable, su lista de resultados de búsqueda incluirá locales descritos como "ambiente amigable", por ejemplo. También puede analizar información obtenida de los sitios web de las propias empresas para ampliar su repertorio semántico. Si, pongamos por caso, el foie gras y la sopa de marisco en un restaurante son constantemente alabados, y ambos están colocados bajo el título "aperitivos", entonces el sistema incluye el restaurante entre los locales con buenos aperitivos, incluso si la palabra "aperitivo" nunca aparece en ninguno de los comentarios.

Xiao Li, científico del grupo de investigación del lenguaje hablado de Microsoft, dice que la extracción de valoraciones cuantitativas de los comentarios no estructurados es un tema en auge, tanto en la academia como en la industria, puesto que diferentes productos comerciales ya ofrecen alguna versión de la misma funcionalidad. Sin embargo, en su opinión, el trabajo del MIT se diferencia en que "hace un montón de análisis lingüísticos”. Otros sistemas, por ejemplo, podrían tratar de inferir las relaciones entre las palabras sin antes determinar qué papel juegan en al oración. El enfoque que prevalecerá aún está por verse, dice, pero añade que la abundancia de la investigación en este campo demuestra que el trabajo tiene una importancia práctica obvia.

Tanto es así que ya existen dos prototipos del proyecto del MIT en la red, ambos con interfaces de voz. Uno tiene comandos en chino y contiene información sobre empresas en Taipei y Taiwán, y el otro tiene los tiene en Inglés e incluye información sobre empresas en Boston.