Como ocurre con la mayoría de las noticias que llegan al ámbito de la Inteligencia Artificial, hay muchas valoraciones diferentes sobre el impacto de DeepSeek en el panorama de la IA. Cuando el 20 de enero saltó al mundo la noticia de la existencia de un Modelo de Grandes Lenguajes (LLM) chino altamente capaz y rentable, todo el sector reaccionó de inmediato. La mayoría de los titulares informaban de la conexión directa entre la publicación de los modelos y la mayor pérdida de valor de capitalización bursátil jamás registrada por Wall Street en un solo día, con la evaporación de 593.000 millones de dólares del valor de mercado de Nvidia.
Hasta ahora, el desarrollo de la IA se ha visto desde una perspectiva centrada en los recursos. Son innumerables los debates que se originan en las esferas públicas y en las comunidades de investigación sobre la cantidad de agua y los requisitos de infraestructura necesarios para desarrollar estas tecnologías. Hasta ahora, el recurso más destacado necesario para construir modelos de vanguardia eran los últimos y más sofisticados chips computacionales producidos exclusivamente por Nvidia. La presión geopolítica de Estados Unidos para mantenerse a la cabeza de la industria se materializó en un embargo de los codiciados chips hacia China. Esto significaba que los investigadores chinos tenían que conformarse con los segundos mejores chips disponibles. Por supuesto, esto frenó su crecimiento al menos hasta que los investigadores de DeepSeek respondieron lanzando un aluvión de LLM gratuitos, de código abierto y eficientes.
Aunque el rendimiento de DeepSeek R1 es similar al del gigante del sector Chat-GPT, los investigadores chinos lo lograron utilizando una fracción de los recursos. Esto es el resultado directo de la utilización de métodos que ya existían, pero que nunca se habían empleado hasta este punto. En concreto, la combinación de Destilación y Razonamiento en Cadena de Pensamiento proporcionó estos asombrosos resultados. La destilación es una técnica en la que un modelo padre entrena a un modelo más pequeño y compacto. Utilizando datos de estructuras sintéticas, es decir, datos creados algorítmicamente, el LLM más pequeño puede aprender cómo piensa el más grande sin tener que calcular los datos por sí mismo. En pocas palabras, el alumno puede actuar como el profesor, pero con una potencia de cálculo menor. El razonamiento en cadena es la otra vertiente de este innovador modelo. Esta técnica insta al modelo a responder a las preguntas de una consulta dando varios pasos a lo largo del camino. Esto permite realizar pequeñas correcciones para aumentar la precisión y la transparencia del razonamiento del modelo. Esto significa que, mientras productos como Chat-GPT tratan de encontrar información fiable mediante una única extracción de datos costosa y turbia, Deepseek se detiene en el camino para probar distintas vías y luego encuentra la más eficiente. Sopesa su propia política frente a otra nueva dentro de la misma consulta, manteniendo guardarraíles estadísticos para garantizar la estabilidad del modelo. Estas son las dos novedades que los investigadores chinos utilizaron para desarrollar el LLM más eficiente conocido hasta la fecha.
En el documento de investigación publicado junto con DeepSeek, los creadores compartieron que modelos como Llama y Qwen habían participado en la creación y destilación de DeepSeek R1, y OpenAI incluso sugirió que su modelo había sido utilizado ilegalmente para entrenar a DeepSeek, lo cual es problemático ya que Chat-GPT no es un modelo de código abierto. Curiosamente, la implementación de técnicas novedosas no es lo que ha causado el cisma en la industria; es el hecho de que DeepSeek tiene ahora un modelo matriz competitivo que destila a otros actores destacados de la industria al tiempo que conserva el ethos del código abierto. Esto significa que el panorama de la industria está patas arriba, lo que podría dar lugar a la innovación al nivelar el terreno de juego para obligar tanto a los titanes como a los recién llegados a reinventar técnicas específicas para seguir siendo relevantes.
Como ha quedado patente, la IA se ha consolidado como una industria estratégica, cuyo alcance supera las implicaciones tecnológicas de su despliegue. La Inteligencia Artificial se ha convertido en otra frontera en la que los países compiten entre sí. Sin embargo, también se ha hecho evidente que tirar el dinero y los embargos de chips ya no garantizarán mejores resultados. El reciente esfuerzo de Donald Trump por asegurar el dominio de Estados Unidos sobre esta industria invirtiendo 500.000 millones de dólares en 4 años sigue la premisa de que el dinero y los recursos son los elementos más críticos de la IA. Pero aunque nadie habría cuestionado esa decisión hace dos meses, DeepSeek ha puesto de manifiesto que la innovación revolucionaria puede crecer en entornos con más recursos limitados.
* Guillermo Alfaro estudió Relaciones Internacionales y Ciencia Política en el ITAM, donde se especializó en investigación sobre IA y gobernanza tecnológica global. Fue miembro de la primera cohorte del Diálogo de Política Cibernética para las Américas, organizado en conjunto con la Universidad de Stanford (2024), y ha fomentado el debate en torno a estos temas mediante la organización de eventos académicos en México. Guillermo está profundamente comprometido con posicionar al Sur Global a la vanguardia de las discusiones sobre IA y tecnología.
Fuente: Somos Innovación