Qué hay detrás de DeepSeek, el modelo de IA chino que hace temblar los mercados

El 20 de enero, DeepSeek, un laboratorio chino de investigación en IA relativamente desconocido, publicó un modelo de código abierto que ha dado mucho que hablar en Silicon Valley. De hecho, es tanto el ruido que ha generado que hasta Nvidia experimentó una caída en la bolsa de más del 10%, producto de la irrupción del nuevo modelo.

Según un documento elaborado por la empresa, DeepSeek-R1 supera a los principales modelos del sector, como OpenAI o1, en varias pruebas matemáticas y de razonamiento. De hecho, en muchos de los parámetros importantes (capacidad, costo, apertura), DeepSeek se está imponiendo a las gigantes occidentales de la IA.

El éxito de DeepSeek apunta a un resultado imprevisto de la guerra fría tecnológica entre Estados Unidos y China. Los controles de exportación estadounidenses han restringido drásticamente la capacidad de las empresas tecnológicas chinas para competir en IA al estilo occidental, es decir, aumentando infinitamente su capacidad mediante la compra de más chips y la formación durante más tiempo. Como resultado, la mayoría de las empresas chinas se han centrado en aplicaciones derivadas en lugar de construir sus propios modelos. Pero con su último lanzamiento, DeepSeek demuestra que hay otra forma de ganar: renovando la estructura fundacional de los modelos de IA y utilizando los limitados recursos de forma más eficiente.

«A diferencia de muchas empresas chinas de IA que dependen en gran medida del acceso a hardware avanzado, DeepSeek se ha centrado en maximizar la optimización de recursos basada en software«, explica Marina Zhang, profesora asociada de la Universidad Tecnológica de Sídney, que estudia las innovaciones chinas. «DeepSeek ha adoptado métodos de código abierto, poniendo en común la experiencia colectiva y fomentando la innovación colaborativa. Este enfoque no solamente mitiga las limitaciones de recursos, sino que también acelera el desarrollo de tecnologías de vanguardia, diferenciando a DeepSeek de competidores más aislados.»

¿Quién está detrás de esta empresa de IA? ¿Y por qué de repente lanzan un modelo líder en la industria y lo regalan? WIRED ha hablado con expertos de la industria china de la inteligencia artificial y ha leído entrevistas detalladas con el fundador de DeepSeek, Liang Wenfeng, para reconstruir la historia del meteórico ascenso de la empresa. DeepSeek no respondió a varias preguntas enviadas por WIRED.

Un fondo de cobertura estrella en China

Incluso dentro del sector chino de la inteligencia artificial, DeepSeek es una empresa poco convencional. Comenzó como Fire-Flyer, una rama de investigación de aprendizaje profundo de High-Flyer, uno de los fondos de cobertura cuantitativos con mejores resultados de China. Fundado en 2015, el fondo de cobertura saltó rápidamente a la fama en China, convirtiéndose en el primer fondo de cobertura cuantitativo en recaudar más de 100 mil millones de RMB (alrededor de 15 mil millones de dólares). (Desde 2021, la cifra se ha reducido a alrededor de 8,000 millones de dólares, aunque High-Flyer sigue siendo uno de los fondos de cobertura quant más importantes del país).

Durante años, High-Flyer había estado almacenando GPU y construyendo supercomputadoras Fire-Flyer para analizar datos financieros. Entonces, en 2023, Liang, que tiene un máster en informática, decidió invertir los recursos del fondo en una nueva empresa llamada DeepSeek que construiría sus propios modelos de vanguardia y, con suerte, desarrollaría inteligencia general artificial. Era como si Jane Street hubiera decidido convertirse en una empresa de inteligencia artificial y gastar su dinero en investigación científica.

Una visión audaz. Pero, de algún modo, funcionó. «DeepSeek representa una nueva generación de empresas tecnológicas chinas que dan prioridad a los avances tecnológicos a largo plazo frente a la comercialización rápida», afirma Zhang.Lo más visto

Publicidadhttps://063133cffa224b82d2ca34ea73c86008.safeframe.googlesyndication.com/safeframe/1-0-40/html/container.html

Liang declaró a la publicación tecnológica china 36Kr que la decisión se debió más a la curiosidad científica que al deseo de obtener beneficios. «No podría encontrar una razón comercial [para fundar DeepSeek] aunque me lo pidieran», explicó. «Porque comercialmente no merece la pena. La investigación en ciencia básica tiene un ratio de retorno de la inversión muy bajo». Cuando los primeros inversores de OpenAI le dieron dinero, seguro que no pensaban en el rendimiento que obtendrían. Más bien, era que realmente querían hacer esta cosa».

En la actualidad, DeepSeek es una de las únicas empresas líderes en IA de China que no depende del financiamiento de gigantes tecnológicas como Baidu, Alibaba o ByteDance.

Un joven grupo de genios ansiosos por demostrar su valía

Según Liang, cuando formó el equipo de investigación de DeepSeek, no buscaba ingenieros con experiencia para crear un producto orientado al consumidor. En su lugar, se centró en estudiantes de doctorado de las mejores universidades chinas, como las de Pekín y Tsinghua, deseosos de demostrar su valía. Muchos habían publicado en las mejores revistas y habían ganado premios en congresos académicos internacionales, pero carecían de experiencia en la industria, según la publicación tecnológica china QBitAI.

«Nuestros principales puestos técnicos están ocupados en su mayoría por personas que se han licenciado este año o en los últimos uno o dos», declaró Liang a 36Kr en 2023. La estrategia de contratación ayudó a crear una cultura de empresa colaborativa en la que la gente era libre de utilizar amplios recursos informáticos para llevar a cabo proyectos de investigación poco ortodoxos. Es una forma de trabajar muy distinta a la de las empresas de internet establecidas en China, donde los equipos suelen competir por los recursos. Un ejemplo reciente: ByteDance acusó a un antiguo becario, nada menos que ganador de un prestigioso premio académico, de sabotear el trabajo de sus compañeros para acaparar más recursos informáticos para su equipo.

Liang afirma que los estudiantes pueden ser más adecuados para la investigación de alta inversión y baja rentabilidad. «La mayoría de la gente, cuando es joven, puede dedicarse por completo a una misión sin consideraciones utilitarias», explicó. Su discurso a los posibles contratados es que DeepSeek se creó para «resolver las preguntas más difíciles del mundo».

El hecho de que estos jóvenes investigadores se hayan formado casi en su totalidad en China contribuye a su empuje, según los expertos. «Esta generación más joven también encarna un sentido del patriotismo, sobre todo cuando sortean las restricciones y los puntos de estrangulamiento estadounidenses en tecnologías críticas de hardware y software«, explica Zhang. «Su determinación para superar estas barreras refleja no solo la ambición personal, sino también un compromiso más amplio para impulsar la posición de China como líder mundial en innovación».

Innovación nacida de una crisis

En octubre de 2022, el gobierno estadounidense comenzó a establecer controles de exportación que restringían severamente a las empresas chinas de IA el acceso a chips de vanguardia como el H100 de Nvidia. La medida supuso un problema para DeepSeek. La empresa había empezado con una reserva de 10,000 H100, pero necesitaba más para competir con firmas como OpenAI y Meta. «El problema al que nos enfrentamos nunca ha sido el financiamiento, sino el control de las exportaciones de chips avanzados», explicó Liang a 36Kr en una segunda entrevista en 2024.

DeepSeek tuvo que idear métodos más eficientes para entrenar sus modelos. «Optimizaron la arquitectura de sus modelos utilizando una batería de trucos de ingeniería: esquemas de comunicación personalizados entre chips, reducción del tamaño de los campos para ahorrar memoria y un uso innovador del enfoque de mezcla de modelos», explica Wendy Chang, ingeniera de software reconvertida en analista política del Mercator Institute for China Studies. «Muchos de estos enfoques no son ideas nuevas, pero combinarlos con éxito para producir un modelo de vanguardia es una hazaña notable».Lo más visto

Publicidadhttps://063133cffa224b82d2ca34ea73c86008.safeframe.googlesyndication.com/safeframe/1-0-40/html/container.html

DeepSeek también ha logrado avances significativos en Atención Latente Multicabezal (MLA) y Mezcla de Expertos, dos diseños técnicos que hacen que los modelos de DeepSeek sean más rentables al requerir menos recursos informáticos para entrenarse. De hecho, el último modelo de DeepSeek es tan eficiente que, según la institución de investigación Epoch AInecesitó para entrenarse una décima parte de la potencia informática del modelo comparable Llama 3.1 de Meta.

La voluntad de DeepSeek de compartir estas innovaciones con el público le ha granjeado una buena reputación en la comunidad mundial de investigación en IA. Para muchas empresas chinas de IA, desarrollar modelos de código abierto es la única forma de ponerse a la altura de sus homólogas occidentales, porque atrae a más usuarios y colaboradores, que a su vez ayudan a que los modelos crezcan. «Ahora han demostrado que se pueden crear modelos punteros con menos dinero, aunque mucho, y que las normas actuales de creación de modelos dejan mucho margen para la optimización», afirma Chang. «Seguro que veremos muchos más intentos en esta dirección en el futuro».

La noticia podría suponer un problema para los actuales controles de exportación de EE UU, que se centran en crear cuellos de botella en los recursos informáticos. «Las estimaciones existentes sobre la potencia de cálculo de IA que tiene China y lo que puede conseguir con ella podrían verse alteradas», afirma Chang.

Artículo originalmente publicado en WIRED. Adaptado por Mauricio Serfatty Godoy.

Fuente: Wired

Sea el primero en comentar en "Qué hay detrás de DeepSeek, el modelo de IA chino que hace temblar los mercados"

Deje un comentario

Su email no será publicado


*