En los últimos cuatro años, todos los usuarios de dispositivos sin duda han notado saltos cuánticos en la calidad de una amplia gama de tecnologías cotidianas.

Lo más obvio es que las funciones de reconocimiento de voz en nuestros teléfonos inteligentes funcionan mucho mejor de lo que solían hacerlo.

De hecho, cada vez interactuamos más con nuestras computadoras simplemente hablando con ellas, ya sea la Alexa de Amazon, la Siri de Apple, la Cortana de Microsoft o las muchas funciones de Google que responden a comandos de voz. El gigante de búsquedas chino Baidu, dice que sus clientes han triplicado el uso de sus interfaces de voz en los últimos 18 meses.

La traducción automática y otras formas de procesamiento del lenguaje también se han vuelto mucho más convincentes, con Google, Microsoft, Facebook  y Baidu, descubriendo nuevos trucos cada mes. Google Translate ahora convierte oraciones habladas en un idioma en oraciones habladas en otros 32  idiomas, mientras ofrece traducciones de texto para 103 lenguas, incluyendo Cebuano, Igbo y Zulu. La aplicación Inbox de Google ofrece tres respuestas ya preparadas para muchos correos electrónicos entrantes.

Luego están los avances en el reconocimiento de imágenes. Las mismas cuatro compañías tienen características que le permiten buscar u organizar automáticamente colecciones de fotos sin etiquetas de identificación. Puede pedir que le muestren, por ejemplo, todos los que tienen perros en ellos, o nieve, o incluso algo bastante abstracto como abrazos.

No es Para juntar imágenes de perros, la aplicación debe identificar cualquier cosa, desde un Chihuahua a un pastor alemán y no tropezar si el cachorro está boca abajo o parcialmente oscurecido, a la derecha del marco o la izquierda, en la niebla o la nieve, el sol o sombra. Al mismo tiempo, necesita excluir lobos y gatos. Usando píxeles solo ¿Cómo es eso posible?

Los avances en el reconocimiento de imágenes se extienden mucho más allá de las aplicaciones sociales geniales. Las empresas emergentes afirman que pronto podrán usar computadoras para leer radiografías, imágenes de resonancia magnética y tomografías computarizadas con mayor rapidez y precisión que los radiólogos, para diagnosticar el cáncer de manera más temprana y menos invasiva y para acelerar la búsqueda de productos farmacéuticos que salvan vidas. Un mejor reconocimiento de imágenes es crucial para desatar mejoras en la robótica, los drones autónomos y, por supuesto, los autos sin conductor, un desarrollo tan trascendental que lo convertimos en una historia de portada en junio. Ford f , Tesla tsla , Uber, Baidu y Google Parent Alphabet son todos prototipos de prueba de vehículos autoguiados en las vías públicas de hoy.

Pero lo que la mayoría de las personas no se dan cuenta es que todos estos avances son, en esencia, el mismo avance. Todos han sido posibles gracias a una familia de técnicas de inteligencia artificial (AI) conocidas popularmente como aprendizaje profundo, aunque la mayoría de los científicos todavía prefieren llamarlos por su designación académica original: redes neuronales profundas.

Lo más destacable de las redes neuronales es que ningún ser humano ha programado una computadora para realizar ninguna de las acrobacias descritas anteriormente. De hecho, ningún humano podría. Los programadores, más bien, alimentaron a la computadora con un algoritmo de aprendizaje, lo expusieron a terabytes de datos (cientos de miles de imágenes o muestras de discurso de años) para entrenarlo, y luego permitieron que la computadora descubriera cómo reconocerlo. los objetos, palabras u oraciones deseadas.

En resumen, tales computadoras ahora pueden enseñarse a sí mismas. “Básicamente tiene software de escritura de software”, dice Jen-Hsun Huang, CEO del líder de procesamiento gráfico Nvidia nvda. , que comenzó a apostar masivamente por el aprendizaje profundo hace unos cinco años. (Para obtener más información, lea la entrevista de Fortune con el CEO de Nvidia, Jen-Hsun Huang ).

Las redes neuronales no son nuevas. El concepto se remonta a la década de 1950, y muchos de los avances algorítmicos clave se produjeron en los años ochenta y noventa. Lo que ha cambiado es que hoy los científicos en computación finalmente han aprovechado tanto la enorme potencia computacional como los enormes depósitos de imágenes de datos, video, audio y archivos de texto esparcidos por Internet, que resultan ser esenciales para que las redes neuronales funcionen bien. . “Esta es la explosión cámbrica del aprendizaje profundo”, dice Frank Chen, un socio de la firma de capital de riesgo Andreessen Horowitz, aludiendo a la era geológica cuando la mayoría de las especies animales superiores aparecen de repente en la escena.

Ese progreso dramático ha provocado un estallido de actividad. El financiamiento de capital de startups enfocadas en AI llegó a un máximo histórico de más de mil millones en el último trimestre, de acuerdo con la firma de investigación CB Insights . Hubo 121 rondas de financiación para tales nuevas empresas en el segundo trimestre de 2016, en comparación con 21 en el trimestre equivalente de 2011, dice el grupo. Se han realizado más de $ 7.5 mil millones en inversiones totales durante ese período, con más de $ 6 mil millones de ese monto desde 2014. (A fines de septiembre, cinco líderes corporativos de inteligencia artificial, Amazon, Facebook, Google, IBM y Microsoft, formaron la asociación sin fines de lucro en AI para avanzar en la comprensión pública del tema y realizar investigaciones sobre ética y mejores prácticas).

Google tenía dos proyectos de aprendizaje profundo en curso en 2012. Actualmente persigue más de 1.000, según un vocero, en todos sus principales sectores de productos, incluidos la búsqueda, Android, Gmail, traducción, mapas, YouTube y autos sin conductor. Ibm de IBM El sistema Watson usó inteligencia artificial, pero no aprendizaje profundo, cuando derrotó a dos campeones de Jeopardy en 2011. Ahora, sin embargo, casi todos los 30 componentes de servicios de Watson se han aumentado con el aprendizaje profundo, según el CTO Rob Watson.

Los capitalistas de riesgo, que ni siquiera sabían qué era el aprendizaje profundo hace cinco años, hoy desconfían de las nuevas empresas que no lo tienen. “Ahora vivimos en una edad”, observa Chen, “donde va a ser obligatorio para las personas que crean sofisticadas aplicaciones de software”. La gente pronto exigirá, dice, “¿Dónde está tu versión de procesamiento del lenguaje natural?” ‘¿Cómo hablo con tu aplicación? Porque no quiero tener que hacer clic en los menús “. ”

Algunas empresas ya están integrando el aprendizaje profundo en sus propios procesos cotidianos. Dice Peter Lee, cabeza de lista de Microsoft Research: “Nuestros equipos de ventas están usando redes neuronales para recomendar a los prospectos con los que contactar o qué tipos de ofertas de productos recomendar”.

El mundo del hardware está sintiendo los temblores. El aumento del poder computacional que está haciendo todo esto posible deriva no solo de la ley de Moore sino también de la realización a fines de la década de 2000 de unidades de procesamiento gráfico (GPU) hechas por Nvidia, los poderosos chips que fueron diseñados para darles a los jugadores una visión visual 3D experiencias-eran de 20 a 50 veces más eficientes que las unidades de procesamiento central (CPU) tradicionales para cálculos de aprendizaje profundo. El pasado agosto, Nvidia anunció que los ingresos trimestrales para su segmento de centro de datos se habían más que duplicado año tras año, a $ 151 millones. Su director financiero les dijo a los inversionistas que “la gran mayoría del crecimiento proviene, en gran medida, del aprendizaje profundo”. El término “aprendizaje profundo” surgió 81 veces durante la llamada de ganancias de 83 minutos.

Chip gigante Intel intc no está quieto En los últimos dos meses compró Nervana Systems (por más de $ 400 millones) y Movidius (precio no revelado) , dos nuevas empresas que fabrican tecnología a medida para diferentes fases de cómputos de aprendizaje profundo.

Por su parte, Google reveló en mayo que durante más de un año había estado usando secretamente sus propios chips hechos a medida, llamados unidades de procesamiento de tensores, o TPU, para implementar aplicaciones capacitadas por aprendizaje profundo. (Los tensores son matrices de números, como matrices, que a menudo se multiplican entre sí en cómputos de aprendizaje profundo).

De hecho, las empresas pueden haber llegado a otro punto de inflexión. “En el pasado”, dice Andrew Ng, científico jefe de Baidu Research, “muchos directores ejecutivos de S & P 500 deseaban haber empezado a pensar antes que ellos sobre su estrategia de Internet”. Creo que dentro de cinco años habrá un número de CEOs de S & P 500 que desearán haber comenzado a pensar antes sobre su estrategia de IA “.

Incluso la metáfora de Internet no hace justicia a lo que significará la IA con aprendizaje profundo, en opinión de Ng. “AI es la nueva electricidad”, dice. “Así como hace 100 años la electricidad transformó industria tras industria, AI ahora hará lo mismo”.

Piense en el aprendizaje profundo como un subconjunto de un subconjunto. La “inteligencia artificial” abarca una amplia gama de tecnologías, como la lógica tradicional y los sistemas basados ​​en reglas, que permiten que las computadoras y los robots solucionen los problemas de una forma que al menos se parece superficialmente al pensamiento. Dentro de ese ámbito hay una categoría más pequeña llamada aprendizaje automático, que es el nombre de toda una caja de herramientas de técnicas matemáticas arcanas pero importantes que permiten que las computadoras mejoren al realizar tareas con experiencia. Finalmente, dentro del aprendizaje automático es la subcategoría más pequeña llamada aprendizaje profundo.

Una forma de pensar qué es el aprendizaje profundo es como “asignaciones A a B”, dice Baidu’s Ng. “Puedes ingresar un clip de audio y sacar la transcripción. Eso es reconocimiento de voz. “Mientras tenga datos para entrenar el software, las posibilidades son infinitas”, sostiene. “Puede ingresar el correo electrónico, y el resultado podría ser: ¿Es esto correo no deseado o no?” Las aplicaciones de préstamos de entrada, dice, y el resultado podría ser la probabilidad de que un cliente lo reembolse. Ingrese patrones de uso en una flota de automóviles, y la salida podría aconsejar a dónde enviar un automóvil.

El aprendizaje profundo, en esa visión, podría transformar casi cualquier industria. “Hay cambios fundamentales que sucederán ahora que la visión por computadora realmente funciona”, dice Jeff Dean, quien lidera el proyecto Google Brain. O, como él reafirma inquietantemente su propia oración, “ahora que las computadoras han abierto sus ojos”.

¿Significa eso que es hora de prepararse para “la singularidad”, el momento hipotético en que las máquinas superinteligentes comienzan a mejorarse sin la participación humana, desencadenando un ciclo fugitivo que deja a los humildes humanos en el polvo, con terribles consecuencias?

No todavía. Las redes neuronales son buenas para reconocer patrones, a veces tan buenos o mejores que nosotros. Pero no pueden razonar.

Las primeras chispas de la revolución inminente comenzaron a parpadear en 2009. Ese verano, el principal investigador de Microsoft, Li Deng, invitó al pionero de redes neuronales Geoffrey Hinton, de la Universidad de Toronto, a visitar. Impresionado con su investigación, el grupo de Deng experimentó con redes neuronales para reconocimiento de voz. “Nos quedamos impactados por los resultados”, dice Lee. “Obtuvimos más del 30% de mejoras en la precisión con los primeros prototipos.

En 2011, Microsoft introdujo la tecnología de aprendizaje profundo en sus productos comerciales de reconocimiento de voz, según Lee. Google hizo lo mismo en agosto de 2012.

Pero el punto de inflexión real llegó en octubre de 2012. En un taller en Florencia, Italia, Fei-Fei Li, el jefe del Laboratorio de IA de Stanford y el fundador del destacado concurso anual de visión por computadora ImageNet, anunció que dos de los estudiantes de Hinton tenían software inventado que identificó objetos con casi el doble de precisión que el competidor más cercano. “Fue un resultado espectacular”, recuerda Hinton, “y convenció a muchísimas personas que habían sido muy escépticas antes”. (En el concurso del año pasado, un participante de aprendizaje profundo superó el rendimiento humano).

A principios de la década de 1980, Hinton estaba trabajando en este problema. También lo fue un investigador francés llamado Yann LeCun, que recién estaba comenzando su trabajo de posgrado en París. LeCun tropezó con un documento de 1983 de Hinton, que hablaba de redes neuronales multicapa. “No fue formulado en esos términos”, recuerda LeCun, “porque en ese momento era muy difícil publicar un artículo si mencionabas la palabra” neuronas “o” redes neuronales “. Así que escribió este documento de manera ofuscada para que pasara a los revisores. Pero pensé que el periódico era súper interesante. “Los dos se conocieron dos años después y se llevaron bien.

En 1986, Hinton y dos colegas escribieron un artículo seminal que ofrece una solución algorítmica para el problema de corrección de errores. “Su trabajo fue básicamente la base de la segunda ola de redes neuronales”, dice LeCun. Reavivó el interés en el campo.

Después de una temporada post-doc con Hinton, LeCun se mudó a los Bell Labs de AT & T en 1988, donde durante la siguiente década realizó un trabajo fundamental que todavía se utiliza hoy en día para la mayoría de las tareas de reconocimiento de imágenes. En la década de 1990, NCR ncr , que era entonces una filial de Bell Labs, comercializó un dispositivo con redes neuronales, ampliamente utilizado por los bancos, que podía leer dígitos escritos a mano en los cheques, según LeCun. Al mismo tiempo, dos investigadores alemanes -Sepp Hochreiter, ahora en la Universidad de Linz, y Jürgen Schmidhuber, codirector de un laboratorio de IA suizo en Lugano- fueron pioneros independientes en un tipo diferente de algoritmo que hoy, 20 años después, se ha vuelto crucial para aplicaciones de procesamiento de lenguaje natural.

A pesar de todos los avances, a mediados de la década de 1990 las redes neuronales cayeron en desgracia una vez más, eclipsadas por lo que era, dado el poder computacional de los tiempos, herramientas más efectivas de aprendizaje automático. Esa situación persistió durante casi una década, hasta que la potencia informática aumentó otros tres o cuatro órdenes de magnitud y los investigadores descubrieron la aceleración de la GPU.

Pero faltaba una pieza: datos. Aunque Internet estaba inundada, la mayoría de los datos, especialmente cuando se trataba de imágenes, no estaban etiquetados, y eso era lo que se necesitaba para entrenar redes neuronales. Ahí fue donde intervino Fei-Fei Li, un profesor de IA de Stanford. “Nuestra visión era que los grandes datos cambiarían la forma en que funciona el aprendizaje automático”, explica en una entrevista. “La información impulsa el aprendizaje”.

En 2007 lanzó ImageNet, reuniendo una base de datos gratuita de más de 14 millones de imágenes etiquetadas. Se lanzó en 2009, y al año siguiente organizó un concurso anual para incentivar y publicar los avances en la visión por computadora.

En octubre de 2012, cuando dos de los estudiantes de Hinton ganaron esa competencia, se hizo evidente para todos que el aprendizaje profundo había llegado.

Para entonces, el público en general también había escuchado sobre el aprendizaje profundo, aunque debido a un evento diferente. En junio de 2012, Google Brain publicó los resultados de un proyecto peculiar ahora conocido coloquialmente como el ” experimento del gato “. Tocó una cuerda de cómic y se volvió viral en las redes sociales.

El proyecto realmente exploró un importante problema no resuelto en el aprendizaje profundo llamado “aprendizaje no supervisado”. Casi todos los productos de aprendizaje profundo en uso comercial hoy usan “aprendizaje supervisado”, lo que significa que la red neuronal está entrenada con datos etiquetados (como las imágenes ensambladas por ImageNet ) Con el “aprendizaje no supervisado”, por el contrario, una red neuronal muestra datos no etiquetados y solo se le pide que busque patrones recurrentes. A los investigadores les encantaría dominar el aprendizaje no supervisado algún día porque las máquinas podrían aprender sobre el mundo a partir de vastos almacenes de datos que hoy son inutilizables, dando sentido al mundo casi por completo, como los bebés.

En el experimento cat, los investigadores expusieron una amplia red neural en más de 1000 computadoras, hasta 10 millones de imágenes sin etiqueta tomadas al azar de videos de YouTube, y luego dejaron que el software hiciera lo suyo. Cuando el polvo se despejó, revisaron las neuronas de la capa más alta y encontraron, sin duda, que uno de ellos respondió poderosamente a las imágenes de los gatos. “También encontramos una neurona que respondía con mucha fuerza a los rostros humanos”, dice Ng, quien dirigió el proyecto mientras estaba en Google Brain.

Sin embargo, los resultados también fueron desconcertantes. “No encontramos una neurona que respondiera con fuerza a los automóviles”, por ejemplo, y “había muchas otras neuronas a las que no podíamos asignar una palabra en inglés”. Entonces es difícil “.

El experimento creó una sensación. Pero el aprendizaje no supervisado permanece sin fisuras, un desafío para el futuro.

No es de extrañar que la mayoría de las aplicaciones de aprendizaje profundo que se han implementado comercialmente hasta el momento involucren a compañías como Google, Microsoft, Facebook, Baidu y Amazon, las empresas con grandes cantidades de datos necesarios para cálculos de aprendizaje profundo. Muchas compañías están tratando de desarrollar representantes chatbots más realistas y útiles: representantes de servicio al cliente automáticos.

Empresas como IBM y Microsoft también ayudan a los clientes empresariales a adaptar aplicaciones de aprendizaje profundo, como interfaces de reconocimiento de voz y servicios de traducción, para sus propios negocios, mientras que los servicios en la nube como Amazon Web Services proporcionan servicios de computación de aprendizaje profundo económicos impulsados ​​por GPU para aquellos que quieren desarrollar su propio software. Abundante software de código abierto -como Caffe, Google’s TensorFlow, y Amazon DSSTNE- engrasan el proceso de innovación, al igual que una ética de publicación abierta, mediante el cual muchos investigadores publican sus resultados de inmediato en una base de datos sin esperar la aprobación de la revisión por pares.

Muchos de los nuevos intentos más interesantes para aplicar el aprendizaje profundo se encuentran en el ámbito médico (ver recuadro). Ya sabemos que las redes neuronales funcionan bien para el reconocimiento de imágenes, observa Vijay Pande, profesor de Stanford que dirige la unidad de inversiones biológicas de Andreessen Horowitz, y “gran parte de lo que hacen los médicos es el reconocimiento de imágenes, ya sea radiología, dermatología o oftalmología”. , o tantas otras ‘-ologías’. ”

Mientras que un radiólogo puede ver miles de imágenes en su vida, una computadora puede mostrar millones. “No es una locura imaginar que las computadoras puedan resolver mejor este problema de imagen”, dice Pande, “solo porque pueden procesar tantos más datos que los humanos”.

Las ventajas potenciales no son solo una mayor precisión y un análisis más rápido, sino la democratización de los servicios. A medida que la tecnología se convierte en estándar, eventualmente cada paciente se beneficiará.

Los mayores impactos del aprendizaje profundo pueden sentirse cuando se integra en toda la caja de herramientas de otras técnicas de inteligencia artificial en formas que aún no se han pensado. DeepMind de Google , por ejemplo, ya ha logrado cosas sorprendentes al combinar el aprendizaje profundo con una técnica relacionada llamada aprendizaje por refuerzo. Usando los dos, creó AlphaGo, el sistema que, en marzo pasado, derrotó al jugador campeón del antiguo juego chino de go-ampliamente considerado un hito en la IA. A diferencia de Deep Blue de IBM, que derrotó al campeón de ajedrez Garry Kasparov en 1997, AlphaGo no fue programado con árboles de decisión, o ecuaciones sobre cómo evaluar las posiciones de la junta, o con las reglas si-entonces. “AlphaGo aprendió a jugar básicamente desde el autoaprendizaje y la observación de grandes juegos profesionales”, dice Demis Hassabis, CEO de DeepMind. (Durante el entrenamiento, AlphaGo jugó un millón de juegos contra sí mismo).

Un juego puede parecer una configuración artificial. Pero Hassabis cree que las mismas técnicas se pueden aplicar a problemas del mundo real. En julio, de hecho, Google informó que, mediante el uso de enfoques similares a los utilizados por AlphaGo, DeepMind fue capaz de aumentar la eficiencia energética de los centros de datos de Google en un 15%. “En los centros de datos hay quizás 120 variables diferentes”, dice Hassabis. “Puedes cambiar los ventiladores, abrir las ventanas, alterar los sistemas informáticos, a dónde va la energía. Tienes datos de los sensores, los indicadores de temperatura y todo eso. Es como ir a bordo. A través de prueba y error, aprendes cuáles son los movimientos correctos.

“Así que es genial”, continúa. “Podría ahorrar, digamos, decenas de millones de dólares al año, y también es bueno para el medio ambiente. Los centros de datos usan mucha potencia en todo el mundo. Nos gustaría implementarlo en una escala mayor ahora. Incluso el nivel de la red nacional “.

Los chatbots están bien y bien. Pero esa sería una aplicación genial.

Ads Blocker Image Powered by Code Help Pro

Ads Blocker Detected!!!

We have detected that you are using extensions to block ads. Please support us by disabling these ads blocker.

Powered By
Best Wordpress Adblock Detecting Plugin | CHP Adblock