Pronto se hizo evidente que este esfuerzo requeriría nada menos
que la escala de datos y potencia de cómputo que Google puede
ofrecer. "Podría intentar darte algún tipo de acceso a todo
ello", Page respondió a Kurzweil. "Pero para una empresa
independiente, va a ser muy difícil hacerlo". Así que Page
sugirió que Kurzweil, que nunca había tenido un trabajo excepto en
sus propias compañías, se uniera a Google.
Kurzweil no tardó mucho
tiempo en tomar una decisión: en enero comenzó a trabajar para
Google como director de ingeniería. "Esta es la culminación de
literalmente 50 años centrado en la inteligencia artificial",
señala.
Kurzweil no solo se sintió atraído por los recursos informáticos
de Google, sino también por el sorprendente progreso que la
compañía ha hecho en una rama de la IA denominada aprendizaje
profundo. El software de aprendizaje profundo intenta imitar la
actividad de las distintas capas de neuronas en la corteza
cerebral, el arrugado 80 por ciento del cerebro donde se produce el
pensamiento. El software aprende, en un sentido muy real, a
reconocer patrones en representaciones digitales de sonidos,
imágenes y otros datos.
La idea de base, es decir, que el software pueda simular la gran
variedad de neuronas del neocórtex en una 'red neuronal'
artificial, tiene décadas de antigüedad, y ha dado lugar a tantas
decepciones como avances. Sin embargo, debido a las mejoras en las
fórmulas matemáticas y al uso de ordenadores cada vez más potentes,
los científicos informáticos pueden hoy día modelar muchas más
capas de neuronas virtuales que antes.
Gracias a esta mayor profundidad, se están produciendo avances
notables en el reconocimiento del habla e imágenes. En junio
pasado, un sistema de aprendizaje profundo de Google, al que se le
habían mostrado 10 millones de imágenes de vídeos de YouTube, logró
ser casi dos veces mejor que cualquier esfuerzo de reconocimiento
de imagen anterior a la hora de identificar objetos como por
ejemplo gatos. Google también ha utilizado la tecnología para
reducir la tasa de errores en el reconocimiento de voz en su último
software Android para teléfonos móviles. En octubre, el director de
investigación de Microsoft, Rick Rashid, cautivó a los asistentes a
una conferencia en China con una demostración de software de voz
que transcribió sus palabras habladas a texto en inglés con una
tasa de error del 7 por ciento, después lo tradujo a texto en
chino, y más tarde simuló su propia voz para pronunciar el texto en
mandarín. Ese mismo mes, un equipo de tres estudiantes de posgrado
y dos profesores ganó un concurso realizado por Merck para
identificar moléculas que pudieran conducir a nuevos fármacos. El
grupo utilizó el aprendizaje profundo para centrarse en aquellas
moléculas más propensas a unirse a sus objetivos.
Google, en particular, se ha convertido en un imán para todos
los profesionales del aprendizaje profundo y la IA. En marzo, la
compañía compró una start-up cofundada por Geoffrey
Hinton, profesor de ciencias informáticas de la Universidad de
Toronto (Canadá), que fue parte del equipo que ganó el concurso de
Merck. Hinton, que dividirá su tiempo entre la universidad y
Google, señala que planea "sacar ideas de este campo y
aplicarlas a problemas reales", como el reconocimiento de
imágenes, las búsquedas y la comprensión de lenguaje natural,
asegura.
Todo esto hace que los investigadores dedicados a la IA, que
normalmente son bastante cautelosos, tengan la esperanza de que las
máquinas inteligentes puedan, finalmente, ir más allá de las
páginas de ciencia ficción. De hecho, la inteligencia artificial
está empezando a transformarlo todo, desde las comunicaciones y la
informática hasta la medicina, la industria manufacturera y el
transporte. Las posibilidades resultan evidentes en casos como el
ordenador Watson de IBM, ganador del concurso americano de
preguntas y repuestas Jeopardy!, que utiliza algunas
técnicas de aprendizaje profundo y hoy día está siendo entrenado
para ayudar a los médicos a tomar mejores decisiones. Microsoft ha
incorporado el aprendizaje profundo a su teléfono Windows y la
búsqueda por voz de Bing.
Extender el aprendizaje profundo a aplicaciones más allá del
reconocimiento del habla e imágenes requerirá más avances
conceptuales y de software, por no hablar de muchos más avances en
potencia de procesamiento. Y es probable que no contemos con
máquinas que todos consideremos capaces de poder pensar por sí
mismas durante años, quizá décadas, si es que alguna vez logran
crearse. Pero por ahora, según Peter Lee, director de Microsoft
Research EE.UU., el "aprendizaje profundo ha reavivado algunos
de los grandes retos de la inteligencia artificial".
La construcción de un cerebro
Se han dado muchos enfoques opuestos para superar esos desafíos.
Uno de ellos ha consistido en aportar a los ordenadores información
y reglas sobre el mundo, lo cual ha exigido a los programadores
escribir laboriosamente un tipo de software que estuviera
familiarizado con los atributos de, por ejemplo, un borde o un
sonido. Eso ha llevado muchísimo tiempo y aún así los sistemas no
pueden hacer frente a datos ambiguos. Se limitan a aplicaciones de
corto alcance y controladas, como por ejemplo sistemas de menú de
teléfono que te pidan que hagas consultas diciendo palabras
específicas.
Las redes neuronales, desarrolladas en la década de los 50 poco
después de los albores de la investigación en IA, parecía
prometedora puesto que trataba de simular la forma en que el
cerebro funcionaba, aunque de modo muy simplificado. Un programa
traza un conjunto de neuronas virtuales y asigna valores numéricos
aleatorios, o 'pesos', a las conexiones entre ellas. Estos
pesos determinan cómo responde cada neurona simulada, con una
salida matemática entre 0 y 1, ante una característica
digitalizada, como por ejemplo un borde o un tono de azul en una
imagen, o a un nivel de energía en una frecuencia particular de un
fonema, la unidad individual de sonido en sílabas habladas.
Algunas de las redes neuronales artificiales de hoy día pueden
ser entrenadas para reconocer patrones complejos.
Los programadores podrían formar una red neuronal para detectar
un objeto o un fonema mediante el bombardeo de la red con versiones
digitalizadas de imágenes que contengan esos objetos u ondas
sonoras que contengan los fonemas. Si la red no reconoce con
precisión un patrón particular, un algoritmo ajustaría los pesos.
El objetivo final de este entrenamiento era conseguir que la red
reconociera de forma consistente patrones de discurso o conjuntos
de imágenes que nosotros los humanos conocemos como, por ejemplo,
el fonema 'd' o la imagen de un perro. Esto se parece mucho
a la forma en que un niño aprende qué es un perro mediante la
observación de los detalles de la forma de la cabeza, el
comportamiento y otras características en animales peludos y que
ladran, conocidos por las personas como perros.
Sin embargo, las redes neuronales iniciales solo podían simular
un número muy limitado de neuronas al mismo tiempo, por lo que no
podían reconocer patrones de gran complejidad. Acabaron
languideciendo a lo largo de la década de los 70.
A mediados de la década de los 80, Hinton y otros expertos
contribuyeron a un renacimiento del interés en las redes neuronales
con los llamados modelos 'profundos', que hacían un mejor
uso de varias capas de neuronas de software. Sin embargo, la
técnica todavía requería una gran cantidad de intervención humana:
los programadores tenían que etiquetar los datos antes de dárselos
a la red. Y el reconocimiento del habla o imágenes complejas
requería más potencia informática de la que entonces estaba
disponible.
Finalmente, sin embargo, en la última década Hinton y otros
investigadores hicieron algunos avances conceptuales fundamentales.
En 2006, Hinton desarrolló una forma más eficiente de entrenar a
las capas individuales de neuronas. La primera capa aprende
características primitivas, como un borde en una imagen o la unidad
más pequeña de sonido del habla. Lo hace buscando combinaciones de
píxeles digitales u ondas de sonido que se produzcan con más
frecuencia de lo que deberían por casualidad. Una vez que esa capa
reconoce con precisión esas características, son enviadas a la capa
siguiente, que se entrena a sí misma para reconocer características
más complejas, como una esquina o una combinación de sonidos del
habla. El proceso se repite en capas sucesivas hasta que el sistema
puede reconocer con seguridad fonemas u objetos.
Un ejemplo son los gatos. En junio pasado, Google hizo una
demostración de una de las mayores redes neuronales creadas hasta
ahora, con más de mil millones de conexiones. Un equipo dirigido
por el profesor de informática de Stanford Andrew Ng y el Miembro
de Google Jeff Dean mostró al sistema imágenes de 10 millones de
videos de YouTube elegidos al azar. Una neurona simulada en el
modelo de software se centró en las imágenes de gatos. Otras se
centraron en rostros humanos, flores amarillas y otros objetos. Y
gracias a la potencia del aprendizaje profundo, el sistema
identificó estos objetos discretos a pesar de que ningún humano
jamás los había definido o etiquetado.
Lo que sorprendió a algunos expertos de IA, sin embargo, fue la
magnitud de la mejora en el reconocimiento de imágenes. El sistema
clasificó correctamente los objetos y temas de las imágenes de
YouTube el 16 por ciento de las veces. Esto quizá no suene
demasiado impresionante, pero resultó ser un 70 por ciento mejor
que los métodos anteriores. Además, Dean señala que se podía elegir
entre 22.000 categorías. Asignar de forma correcta los objetos en
algunas de ellas requería, por ejemplo, distinguir entre dos
variedades similares de pez raya. Eso habría sido difícil incluso
para la mayoría de los seres humanos. Cuando se le pidió al sistema
clasificar las imágenes en 1000 categorías más generales, la tasa
de precisión subió por encima del 50 por ciento.
Una gran cantidad de datos
El entrenamiento de las numerosas capas de neuronas virtuales en
el experimento requirió 16.000 procesadores, el tipo de
infraestructura de computación que Google ha desarrollado para su
motor de búsqueda y otros servicios. Al menos el 80 por ciento de
los recientes avances en IA se pueden atribuir a la disponibilidad
de más potencia informática, estima Dileep George, cofundador de la
start-up de aprendizaje de máquinas Vicarious.
Sin embargo, se requiere algo más aparte del enorme tamaño de
los centros de datos de Google. El aprendizaje profundo también se
ha beneficiado del método de división de las tareas de computación
entre muchas máquinas, para así poder efectuarlas con mayor
rapidez. Esa es una tecnología que Dean ayudó a desarrollar con
anterioridad, a lo largo de su carrera de 14 años en Google.
Acelera enormemente el entrenamiento de las redes neuronales de
aprendizaje profundo, permitiendo a Google trabajar con redes más
grandes y usar muchos más datos con ellas.
El aprendizaje profundo ya ha logrado mejorar la búsqueda por
voz en los teléfonos inteligentes. Hasta el año pasado, el software
Android de Google utilizaba un método que entendía mal muchas
palabras. Sin embargo, durante la preparación de una nueva versión
de Android en julio pasado, Dean y su equipo ayudaron a reemplazar
parte del sistema de voz por uno basado en el aprendizaje profundo.
Puesto que las múltiples capas de neuronas permiten un
entrenamiento más preciso basado en las múltiples variantes de un
sonido, el sistema puede reconocer fragmentos de sonido de forma
más fiable, especialmente en entornos ruidosos como una plataforma
de metro. Y puesto que es más probable que entienda lo que
realmente se ha pronunciado, es más probable que el resultado que
devuelva sea también preciso. En muy poco tiempo, el número de
errores se redujo hasta en un 25 por ciento, y los resultados son
tan buenos que muchos críticos consideran actualmente que la
búsqueda de voz de Android es más inteligente que la del famoso
asistente de voz Siri de Apple.
A pesar de todos los avances, no todo el mundo cree que el
aprendizaje profundo pueda llevar la inteligencia artificial hasta
un punto en que rivalice con la inteligencia humana. Algunos
críticos señalan que el aprendizaje profundo y la IA en general
ignora gran parte de la biología del cerebro en favor de la fuerza
bruta de computación.
Uno de estos críticos es Jeff Hawkins, fundador de Palm
Computing, cuya última empresa, Numenta, está desarrollando un
sistema de aprendizaje automático que se inspira en la biología,
pero no utiliza el aprendizaje profundo. El sistema de Numenta
puede ayudar a predecir los patrones de consumo de energía y la
probabilidad de que una máquina, como por ejemplo una turbina
eólica, esté a punto de fallar. Hawkins, autor del libro On
Intelligence en 2004, que trata sobre el funcionamiento del
cerebro y la forma en que podría proporcionar una guía para la
construcción de máquinas inteligentes, señala que el aprendizaje
profundo no tiene en cuenta el concepto de tiempo. Los cerebros
procesan flujos de datos sensoriales, asegura, y el aprendizaje
humano depende de nuestra capacidad para recordar secuencias de
patrones: cuando ves un vídeo de un gato haciendo algo divertido,
lo que importa es el movimiento, y no una serie de imágenes fijas
como las que Google utilizó en su experimento. "Para Google,
usar una gran cantidad de datos lo compensa todo", afirma
Hawkins.
Pero incluso si no lo compensa todo, los recursos informáticos
que una empresa como Google ha dedicado a estos problemas no pueden
ser ignorados. Son cruciales, afirman los defensores del
aprendizaje profundo, ya que el cerebro es aún mucho más complejo
que cualquiera de las redes neuronales actuales. "Se necesitan
muchísimos recursos computacionales para que las ideas
funcionen", afirma Hinton.
¿Qué es lo próximo?
Aunque Google da muy pocos detalles sobre aplicaciones futuras,
las perspectivas son muy interesantes. Está claro que por ejemplo
una mejor búsqueda de imágenes ayudaría a YouTube. Y Dean señala
que los modelos de aprendizaje profundo pueden utilizar datos de
fonemas en inglés para entrenar rápidamente a los sistemas y que
reconozcan sonidos hablados en otros idiomas. También es probable
que el uso de un reconocimiento de imagen más sofisticado pueda
hacer que los coches autoconducidos de Google mejoren notablemente.
Además están las búsquedas y los anuncios relacionados con todo
ello. Ambas cosas podrían mejorar enormemente gracias a cualquier
tecnología que sea mejor y más rápida a la hora de reconocer lo que
la gente realmente esté buscando, tal vez incluso antes de que se
den cuenta.
Sergey Brin ha dicho que quiere construir una versión benigna de
HAL en 2001: Una odisea del espacio.
Esto es lo que intriga a Kurzweil, de 65 años, que desde hace
mucho tiempo tiene su propia visión sobre las máquinas
inteligentes. En la escuela secundaria, escribió un programa que
permitió a un ordenador crear música original en varios estilos
clásicos, y del que hizo una demostración en 1965 en el programa
estadounidense de televisión I've Got a Secret. Desde
entonces, entre sus inventos se encuentran varias primicias: una
máquina de lectura de impresión a voz, un software capaz de
escanear y digitalizar textos impresos en cualquier tipo de letra,
sintetizadores de música para recrear el sonido de los instrumentos
de una orquesta, y un sistema de reconocimiento de voz con un
amplio vocabulario.
Actualmente tiene en mente un 'amigo cibernético' que
escuche nuestras conversaciones telefónicas, lea el correo
electrónico y realice un seguimiento de todos nuestros movimientos,
si se lo permitimos, por supuesto, para que nos pueda decir cosas
que queramos saber, incluso antes de preguntarlas. Este no es su
objetivo inmediato en Google, pero coincide con el del cofundador
de la empresa, Sergey Brin, quien afirmó durante los primeros días
de la compañía que quería construir el equivalente al ordenador HAL
en 2001: Una odisea del espacio, con la salvedad de que este no
mataría a nadie.
Por ahora, Kurzweil tiene como objetivo ayudar a los ordenadores
a entender e incluso hablar en lenguaje natural. "Mi misión es
dar a los ordenadores suficiente comprensión del lenguaje natural
para hacer cosas útiles: mejorar búsquedas, mejorar la respuesta a
preguntas", señala. Esencialmente, espera crear una versión
más flexible del ordenador Watson de IBM, que admira por su
capacidad de entender frases de Jeopardy! tan singulares
como "un largo y tedioso discurso pronunciado por un pastel de
espuma batida". (La respuesta correcta de Watson: "¿Qué
es una arenga merengue?")
Kurzweil no se centra exclusivamente en el aprendizaje profundo,
aunque señala que su enfoque para el reconocimiento de voz se basa
en teorías similares acerca del funcionamiento del cerebro. Quiere
modelar el significado real de las palabras, frases y oraciones,
incluyendo ambigüedades con las que suelan tropezar los
ordenadores. "Tengo una idea sobre un modo gráfico de
representar el significado semántico de la lengua",
asegura.
A su vez, esto requerirá crear gráficos de la sintaxis de las
oraciones de una forma más integral. Google ya está utilizando este
tipo de análisis para mejorar la gramática en las traducciones. La
comprensión de lenguaje natural también requerirá que los
ordenadores entiendan lo que los humanos piensan como significado
de sentido común. Para ello, Kurzweil hará uso del Gráfico del
Conocimiento, el catálogo de Google sobre unos 700 millones de
temas, lugares, personas y más datos, además de miles de millones
de relaciones entre ellos. Se presentó el año pasado como forma de
proporcionar a los buscadores respuestas a sus consultas, y no solo
enlaces.
Por último, Kurzweil tiene previsto aplicar algoritmos de
aprendizaje profundo para ayudar a los ordenadores a hacer frente a
los "límites y ambigüedades del lenguaje". Si todo esto
suena desalentador, es porque lo es. "La comprensión del
lenguaje natural no es un objetivo que se alcance en algún momento
dado, y lo mismo ocurre con las búsquedas", afirma. "No
es un proyecto que creo que vaya a acabar jamás".
Aunque la visión de Kurzweil está todavía a años de convertirse
en una realidad, es probable que el aprendizaje profundo impulse
otras aplicaciones más allá del reconocimiento del habla y las
imágenes a más corto plazo. Por un lado, está el descubrimiento de
fármacos. La victoria por sorpresa del grupo de Hinton en el
concurso de Merck demostró claramente la utilidad del aprendizaje
profundo en un campo en el que muy poca gente esperaba que lograse
crear algún tipo de impacto.
Eso no es todo. Peter Lee desde Microsoft afirma que las
primeras investigaciones sobre los usos potenciales del aprendizaje
profundo en la visión de máquinas son prometedoras. Estas
tecnologías usan imágenes para aplicaciones tales como la
inspección industrial y la guía de robots. También prevé la
creación de sensores personales que las redes neuronales profundas
podrían utilizar para predecir problemas médicos. Y sensores en
toda la ciudad que enviarían datos a sistemas de aprendizaje
profundos que podrían, por ejemplo, predecir dónde van a producirse
atascos.
En un campo que trata de algo tan profundo como el modelado del
cerebro humano, es inevitable que una técnica no vaya a resolver
todos los problemas. Pero por ahora, esta está liderando el camino
dentro de la inteligencia artificial. "El aprendizaje
profundo", señala Dean, "es una metáfora muy potente para
aprender sobre el mundo".
fuente/La Flecha
Vía/ TECHNOLOGYREVIEW.COM
No hay comentarios:
Publicar un comentario
Los comentarios irrelevantes e irrespetuosos serán omitidos.