DEEPSEEK UNA NUEVA ERA EN LA ARQUITECTURA DE MODELOS DE IA

En un mundo donde la supremacía tecnológica parece estar en manos de unos pocos gigantes, DeepSeek ha irrumpido con una propuesta que desafía las normas establecidas. La empresa ha conseguido entrenar modelos de inteligencia artificial avanzados sin depender de los chips más potentes de NVIDIA, una hazaña que cobra aún más relevancia en el contexto de las restricciones impuestas por Estados Unidos a la exportación de hardware avanzado hacia China. Pero lejos de ser un obstáculo insalvable, estas limitaciones han sido el detonante de una nueva ola de innovación.

DeepSeek es una empresa china de inteligencia artificial fundada en 2023, con sede en Hangzhou, Zhejiang. Se especializa en el desarrollo de modelos de lenguaje de código abierto, similares a los de OpenAI, pero con un enfoque en la eficiencia y la reducción de costos. El fundador y CEO de DeepSeek es Liang Wenfeng, nacido en 1985 en Guangdong, China. Estudió en la Universidad de Zhejiang y cofundó en 2015 High-Flyer, un fondo de cobertura cuantitativo que utiliza aprendizaje automático para estrategias de inversión. En 2023, fundó DeepSeek, enfocándose en la investigación y desarrollo de inteligencia artificial.

A finales de 2024, DeepSeek lanzó su modelo de inteligencia artificial DeepSeek-R1, que destacó por su eficiencia y menor dependencia de chips avanzados. Este modelo de código abierto democratiza el acceso a la tecnología avanzada, fomentando la creación de nuevas aplicaciones de IA en todo el mundo.

El lanzamiento de DeepSeek-R1 tuvo un impacto significativo en el mercado financiero. Empresas tecnológicas estadounidenses, especialmente aquellas relacionadas con la inteligencia artificial, experimentaron caídas en sus acciones. En conjunto, se estima que las principales acciones tecnológicas estadounidenses perdieron cerca de un billón de dólares en valor de mercado tras la presentación de DeepSeek-R1.

Restricciones de Nvidia en China

Desde 2022, Estados Unidos ha implementado restricciones que prohíben la exportación de chips avanzados de Nvidia, como el H100, a China, con el objetivo de limitar el acceso del país a tecnologías que podrían potenciar sus capacidades en inteligencia artificial y, potencialmente, en aplicaciones militares. En respuesta, Nvidia desarrolló versiones modificadas de sus chips, como el H800 y el H20, diseñadas para cumplir con las regulaciones estadounidenses y permitir su venta en el mercado chino.

Sin embargo, tras el lanzamiento del modelo DeepSeek-R1, que demostró capacidades avanzadas utilizando hardware menos sofisticado, la administración estadounidense está considerando endurecer aún más las restricciones a la venta de chips de Nvidia a China. Estas discusiones se encuentran en etapas iniciales y podrían ampliar las limitaciones actuales para incluir chips como el H20.

A pesar de las restricciones, empresas chinas como DeepSeek han logrado avances significativos en inteligencia artificial. El modelo DeepSeek-R1 es un ejemplo de cómo la innovación y la eficiencia pueden compensar las limitaciones impuestas por la falta de acceso a hardware de última generación. Este desarrollo ha generado preocupación en Estados Unidos, ya que evidencia que China está cerrando la brecha en la carrera por la supremacía en inteligencia artificial.

En resumen, las restricciones de Estados Unidos a la exportación de chips avanzados de Nvidia a China han llevado a empresas chinas a buscar soluciones alternativas y a innovar en el desarrollo de modelos de inteligencia artificial eficientes y menos dependientes de hardware sofisticado. Este enfoque ha permitido a China avanzar en el campo de la IA, a pesar de las limitaciones impuestas por las restricciones comerciales.

DeepSeek ha encontrado en la optimización su mejor aliado. Ante la imposibilidad de acceder a los codiciados chips H100 y H200 de NVIDIA, optaron por los H800, una versión menos avanzada pero adaptada al mercado chino. Lo que hicieron a continuación es digno de un estudio de caso en ingeniería: en lugar de depender del ecosistema CUDA de NVIDIA, accedieron directamente a los niveles más bajos del hardware utilizando instrucciones PTX, un código de máquina de bajo nivel. Esta estrategia les permitió exprimir al máximo el rendimiento de los chips, reduciendo la brecha tecnológica con sus competidores occidentales y demostrando que la creatividad puede imponerse a la falta de recursos.

¿Qué es CUDA y por qué DeepSeek lo evitó?

CUDA (Compute Unified Device Architecture) es una plataforma de computación paralela y un modelo de programación desarrollado por NVIDIA que permite a los desarrolladores utilizar el poder de procesamiento de las GPU para tareas más allá de los gráficos. CUDA está altamente optimizado para el hardware de NVIDIA y proporciona un ecosistema cerrado que facilita la integración con sus chips más avanzados. Sin embargo, esta dependencia limita la flexibilidad de los desarrolladores, ya que obliga a utilizar herramientas y software controlados por NVIDIA.

DeepSeek evitó CUDA y, en su lugar, trabajó directamente con instrucciones PTX (Parallel Thread Execution), un lenguaje de bajo nivel que permite acceder directamente al hardware de la GPU sin depender del ecosistema de NVIDIA. PTX es un lenguaje intermedio que permite una mayor personalización y optimización del uso de los chips, lo que permitió a DeepSeek obtener un rendimiento superior de los chips H800 a pesar de sus limitaciones de hardware. Este enfoque les brindó mayor independencia tecnológica y redujo su dependencia de proveedores estadounidenses.

DeepSeek MoE: Inteligencia Artificial Más Inteligente

Pero DeepSeek no solo ha revolucionado el hardware; también ha innovado en la arquitectura de los modelos de IA. Su apuesta por el enfoque Mixture of Experts (MoE) ha llevado esta tecnología un paso más allá. Mientras que OpenAI ya emplea este sistema en su modelo GPT-4, DeepSeek ha introducido una arquitectura híbrida: algunas partes del modelo están diseñadas para tareas específicas, mientras que otras gestionan preguntas generales.

Para entender el concepto de MoE, imaginemos una universidad donde cada profesor tiene que enseñar todas las materias, desde matemáticas hasta literatura. En cambio, en una universidad con especialistas, cada profesor se enfoca en su área de mayor conocimiento. Así, los estudiantes obtienen información de expertos específicos en cada materia, optimizando su aprendizaje y obteniendo respuestas más precisas y eficientes.

Lo mismo ocurre con la IA de DeepSeek. En lugar de utilizar un solo modelo generalista, MoE divide la carga de trabajo en distintos módulos especializados, denominados "expertos". Cuando un usuario hace una pregunta, el sistema elige automáticamente a los expertos más capacitados para responder, en lugar de movilizar toda la capacidad del modelo. Esto reduce el consumo de energía y memoria, permitiendo respuestas más rápidas y eficientes.

Por ejemplo, si se le pregunta al modelo sobre física cuántica, en lugar de procesar la información con toda la red neuronal, el sistema activa solo los módulos que han sido entrenados específicamente en ese campo. Esta metodología no solo mejora el rendimiento, sino que también reduce los costos computacionales, haciendo viable la implementación de IA avanzada en dispositivos menos potentes.

Aprendizaje por Refuerzo Sin Supervisión Humana

Otro de los avances más disruptivos de DeepSeek es su sistema de aprendizaje por refuerzo sin supervisión humana. Normalmente, este tipo de aprendizaje requiere de la intervención de humanos para calificar y ajustar las respuestas de la IA, guiándola hacia un mejor desempeño. Sin embargo, DeepSeek ha eliminado este paso al desarrollar un sistema en el que la IA aprende por sí sola a través de un mecanismo de recompensas internas.

Para entenderlo mejor, imaginemos que se entrena a un perro para que realice trucos. En un sistema tradicional, un entrenador le daría recompensas cuando el perro hace algo bien. En el caso de DeepSeek, el "perro" (la IA) ha sido demostrado que ha sido evaluado por ChatGPT, su competencia, para descubrir por sí mismo qué acciones conducen a mejores resultados, sin intervención humana directa. Es decir, una IA ha entrenado a otra IA. Esto significa que la IA puede mejorar continuamente sin la necesidad de costosos equipos de supervisores humanos, acelerando su evolución y haciéndola más autónoma y eficiente.

¿Qué significa esto para el futuro de la IA?

El modelo de negocio de OpenAI, Google y NVIDIA podría perder relevancia si cada vez más empresas pueden desarrollar IA sin depender de hardware y datos costosos.
La democratización de la IA podría permitir que más países y empresas emergentes entren en la competencia tecnológica global.
La carrera entre EE.UU. y China en IA se vuelve aún más intensa, con DeepSeek poniendo a China en una posición competitiva inesperada.

DeepSeek no es solo una empresa más en el panorama de la inteligencia artificial; es la prueba de que la innovación puede prosperar incluso en condiciones adversas. En un mundo donde la tecnología avanza a pasos agigantados, DeepSeek nos recuerda que, en última instancia, el verdadero motor del progreso sigue siendo, de momento, el ingenio humano.

Para saber más

China inaugura una nueva era de la inteligencia artificial: Este artículo analiza cómo DeepSeek ha revolucionado el campo de la inteligencia artificial con su modelo R1, comparable o superior a ChatGPT, desarrollado con menos recursos y disponible de forma gratuita y de código abierto.

¿Quién es Liang Wenfeng?: fundador de DeepSeek, 'nuevo rostro' de la IA en China y terror de EEUU: Este artículo ofrece una biografía de Liang Wenfeng, fundador de DeepSeek, destacando su trayectoria desde sus estudios en electrónica hasta la creación de la empresa que ha sacudido el sector tecnológico global.

DeepSeek has ripped away AI's veil of mystique. That's the real reason the tech bros fear it: Este artículo analiza el impacto de DeepSeek en la industria tecnológica, destacando cómo su enfoque de código abierto y bajo costo podría democratizar la inteligencia artificial y desafiar la percepción de Silicon Valley sobre la exclusividad de la tecnología.

Buscar este blog

TIC DESDE UNA VISIÓN PRÁCTICA