DeepSeek: AI som en tidsålder av möjliggörande och störningar - Utmana antaganden om hårdvarumarknaden och skalningslagar
AI Software Disrupting AI Hardware: How DeepSeek Redefined Hardware Needs and Challenged Industry Giants

DeepSeek: AI som en tidsålder av möjliggörande och störningar - Utmana antaganden om hårdvarumarknaden och skalningslagar

Den här artikeln har maskinöversatts automatiskt från engelska och kan innehålla felaktigheter. Läs mer
Se originalet

En ny era inom AI

Alla inom teknik och till och med sociala medier pratar om DeepSeek. Marknaderna reagerade omedelbart, och Nvidia tog ett dopp tillsammans med andra, vilket resulterade i den högsta förlusten på en dag för något amerikanskt företag i historien, vilket raderade nästan 600 miljarder dollar i börsvärde. Vilka är de bakomliggande orsakerna? Vad betyder detta för framtiden för AI-hårdvara och mjukvara och stora amerikanska investeringar i hårdvara genom CHIPS Act? Vad betyder det för PhysicalAI - även om det är ett nytt modeord för nordstjärnan inom AI-framsteg?

Av en tillfällighet lade jag för bara några dagar sedan, vid ett lunchmöte med president Mung Chiang, fram ett scenario: USA:s hårdvaruinvesteringar skulle kunna utmanas av omvälvande idéer och innovationer. Och som av en föraning hände det. Många forskningsprojekt inom hårdvara störs av att CHIPS kan designa CHIPS, vilket minskar beroendet av ett stort antal hårdvaruingenjörer. På samma sätt kan stora språkmodeller (LLM:er) ökar programvarans produktivitet, men det är fortfarande viktigt med avancerade utvecklare. Medan mycket programvara nu skrivs av LLM:er under programmerares överinseende, skapar elitutvecklare fortfarande betydande delar av sin kod. Nu går vi in i ett nytt kapitel av disruptiv teknik som utmanar marknadens antaganden om den fortsatta efterfrågan på högpresterande hårdvara för AI:s omättliga behov. Det verkar som om AI håller på att störa sig själv. Professor Anand Raghunathan vid Purdue University Elmore Family School of Electrical and Computer Engineering säger: "Industrin, Wall Street och forskare är också i ett chocktillstånd över den senaste utvecklingen. Det här är ett bra exempel på sparsam och begränsningsdriven innovation – nöden är uppfinningarnas moder." Han tillade vidare att DeepSeek-innovationen var en smart integration av välkända paradigm, en kombination av god ingenjörskonst med välkända paradigm som amerikanska forskare har publicerat, såsom förstärkningsinlärning, modelldestillation och kvantisering.

Samspelet mellan mjukvara och hårdvara

Den allt snabbare tekniska utvecklingen har skapat ett dynamiskt samspel mellan programvaru- och hårdvaruinnovationer. Ingenstans är detta mer uppenbart än inom området artificiell intelligens (Artificiell intelligens), där genombrott i modeller med öppen källkod och programvarufunktioner utmanar antaganden om maskinvarubehov. Dessa störningar belyser potentialen för AI med öppen källkod att inte bara möjliggöra innovation utan också underskrida traditionella hårdvarumarknader, vilket skapar ringar på vattnet i olika branscher. Omvänt fortsätter framstegen inom hårdvara att omdefiniera vad programvara kan åstadkomma, vilket driver på en konkurrenscykel som gynnar konsumenterna och omformar teknikens framtid.

Maskinvarudriven utveckling möter nya utmaningar

Historiskt sett har hårdvaruframsteg gjort det möjligt för programvara att nå nya höjder. Moores lag, som förutspådde den exponentiella ökningen av transistordensiteten, lade grunden för årtionden av mjukvaruutveckling. Kraftfullare processorer, ökat minne och specialiserad hårdvara som GPU:er och TPU:er har gjort det möjligt för AI-modeller att skala i komplexitet, vilket driver genombrott inom områden som naturlig språkbehandling, datorseende och autonoma system. Företag som Nvidia, AMD och Intel har byggt upp blomstrande företag genom att leverera den hårdvara som krävs för att möta AI:s beräkningskrav. Dessa företag har investerat miljarder i att utveckla banbrytande chip som kan stödja massiva träningsarbetsbelastningar för storskaliga modeller som GPT-4 och DeepMinds AlphaFold.

Programvarueffektivitet stör hårdvarudominansen

De senaste framstegen inom AI-programvara utmanar denna etablerade dynamik. Modeller som DeepSeek's R1, en AI baserad på öppen källkod, har visat att högpresterande AI kan uppnås till en bråkdel av de kostnader och beräkningsresurser som tidigare antogs nödvändiga. DeepSeek är utvecklat med en rapporterad budget på 6 miljoner dollar och utmanar direkt branschnormen för miljardinvesteringar i hårdvara och mjukvara. Tekniker som sparsam träning, kvantisering och destillation göra det möjligt för AI-utvecklare att bygga och köra modeller mer effektivt, vilket minskar beroendet av avancerade GPU:er och annan specialiserad maskinvara. Dessa mjukvaruinnovationer förändrar hårdvarumarknaden genom att visa hur avancerad AI kan blomstra med färre resurser, vilket hotar efterfrågan på premiumhårdvara.

"Även om DeepSeeks påstående avslöjar en betydande fellinje – vilket tyder på att de 2 kg hårdvara som Nvidia ofta marknadsför för AI kanske inte är nödvändiga, och till och med en Raspberry Pi kan hantera vissa uppgifter – minskar det inte det kritiska behovet av innovation inom hårdvara och skickliga ingenjörer", säger Muhammad Mustafa Hussain , professor Purdue University Elmore Family School of Electrical and Computer Engineering . En destillerad version av DeepSeek R1 har rapporterats köras på en Raspberry Pi och uppnår 200 tokens per sekund på en icke-internetansluten enhet med en mindre, destillerad modell. "Här är den dolda sanningen: hårdvaruinnovation kommer inte bara att fortsätta utan måste bli ännu mer uttalad i takt med att AI utvecklas för att bli mer kraftfull och genomgripande."

Omdefiniera skalningslagar i AI-utveckling

AI-skalningslagar är empiriska relationer som beskriver hur AI-modellers prestanda förbättras när nyckelfaktorer skalas upp. Dessa faktorer inkluderar vanligtvis modellstorlek (Antal parametrar), datauppsättningens storlek och beräkningsresurser som används för träning. OpenAI spelade en viktig roll i att formalisera och popularisera dessa lagar. DeepSeek exemplifierar hur mjukvaruinnovation kan omdefiniera AI-landskapet och utmana traditionella skalningslagar. Professor Raghunathan sa att amerikanska företag och forskare kanske är alltför fokuserade på att följa de skalningslagar för AI som marknadsförs av företag som OpenAI. I själva verket var detta bara observationer baserade på de första trenderna inom forskningen. Istället för att hålla fast vid tron att större datamängder, fler beräkningsresurser och massiva parameterantal är förutsättningar för överlägsen prestanda, prioriterar DeepSeek optimering och effektivitet:

  1. Kuraterade data över ren volym: Betona högkvalitativa, kuraterade datamängder framför större men mindre riktade datamängder, vilket ökar dataeffektiviteten.
  2. Strömlinjeformade utbildningsprocesser: Avancerade tekniker som Reinforcement Learning från mänsklig feedback (RLHF) och självspelande kringgå brute-force-metoder för att uppnå topprestanda.
  3. Effektiv distribution: Med gles aktivering och en blandning av experter (Moe) arkitektur aktiverar DeepSeek endast de nödvändiga parametrarna för varje uppgift. Detta minskar energiförbrukningen med 40 % och beroendet av GPU:er med 50 %, vilket erbjuder ett skalbart och hållbart alternativ till traditionella täta modeller.

DeepSeeks AI-innovationer uppvisar oöverträffad beräkningseffektivitet, vilket potentiellt minskar resurskraven för att utveckla och distribuera AI-modeller inom olika domäner. Enligt Jevons paradox, som också citeras av Microsofts VD Satya Nedella, kommer denna ökade effektivitet sannolikt att dramatiskt sänka inträdesbarriärerna, vilket gör det möjligt för fler organisationer och individer att anta och använda AI-teknik. Även om enskilda AI-uppgifter kan förbruka mindre resurser förväntas den totala konsumtionen och användningen av AI öka exponentiellt, vilket driver på bredare teknisk innovation och tillgänglighet.

Det föränderliga landskapet för hårdvaruinnovation

Professor Hussain noterade också: "Om man tittar närmare på fördelningen av medel från CHIPS Act så är den starkt påverkad av de stora företagens prioriteringar. Det finns en märkbar brist på innovation på komponentnivå, med det mesta av fokus på forskning på systemnivå – och inte på att skapa nya system, utan snarare på att utveckla det som dessa företag redan prioriterar."

Samtidigt svarar företag som Nvidia redan med:

  • Skräddarsydda AI-chips Optimerad för specifika arbetsbelastningar.
  • AI-accelererad hårdvaruutveckling för att effektivisera chipdesignprocesser.
  • AI-enheter för gränsenheter som ger högpresterande funktioner i miljöer med låg energiförbrukning.

Dessa framsteg kan omforma balansen ännu en gång, öppna nya marknader samtidigt som efterfrågan på specialiserade komponenter upprätthålls.

DeepSeeks innovationer utmanar traditionella skalningslagar inom AI-utveckling genom att visa att kostnadseffektiva modeller i mindre skala kan uppnå konkurrenskraftig prestanda. Detta skulle kunna störa befintliga affärsmodeller som är beroende av storskaliga infrastrukturinvesteringar.

Sammanfattningsvis, även om investeringen syftar till att säkra USA:s ledarskap inom AI och driva innovation, står den inför betydande risker relaterade till ekonomisk genomförbarhet, energikrav, marknadsvolatilitet, sociala effekter och regulatoriska hinder. Dessa risker förvärras ytterligare av disruptiva innovationer som DeepSeeks kostnadseffektiva tillvägagångssätt för AI-utveckling.

OpenAI, Microsoft och kärnkraftsparadigmet

Project Stargate, som tillkännagavs den 21 januari 2025, är ett privat investeringsinitiativ på 500 miljarder dollar som leds av OpenAI, SoftBank, Oracle och andra teknikjättar för att bygga massiv AI-infrastruktur över hela USA. Projektet syftar till att säkra amerikanskt ledarskap inom AI-teknik, skapa hundratusentals jobb och tillhandahålla strategisk kapacitet för nationell säkerhet genom att bygga storskaliga datacenter optimerade för AI-arbetsbelastningar. Trots sina ambitiösa mål och högprofilerade stödjare, inklusive president Trumps godkännande, kommer projektet att granskas med avseende på dess ekonomiska genomförbarhet, särskilt i ljuset av de senaste innovationerna som DeepSeek som utmanar traditionella antaganden om AI-skalning.

En anonym Microsoft-anställd lyfte fram operativa utmaningar som härrör från OpenAI:s enorma beräkningskrav: "Vid ett tillfälle kunde de anställda inte få en avancerad GPU på Azure eftersom de alla användes för OpenAI. Det är helt vansinnigt bara att skriva din terminsuppsats eller hjälpa till med att slutföra koden." Den anställde påpekade vidare att även om DeepSeek har stört OpenAI:s ledning, kan den senare replikera dessa framsteg snabbt på grund av sin enorma beräkningsfördel (Anonym, personlig kommunikation, 25 januari 2025).  Om DeepSeeks kostnadseffektiva AI-modeller får en utbredd användning kan efterfrågan på avancerad AI-infrastruktur minska, vilket leder till överkapacitet i datacenter och halvledarproduktion. Goldman Sachs har uttryckt oro över om sådana massiva investeringar kan motiveras utan att tydliga, transformativa AI-applikationer dyker upp på kort sikt.

Balansera samarbete och konkurrens inom AI med öppen källkod

DeepSeeks framväxt har påskyndat innovationen, där utveckling av öppen källkod i allt högre grad tar täten. "Jag förväntar mig att OpenAI:s försprång är borta, men de kommer att kopiera forskningen, och kanske kommer deras teams intuition att leda till större framsteg", noterade en högteknologisk anställd (Anonym, personlig kommunikation, 25 januari 2025).

Framväxten av AI-modeller med öppen källkod som DeepSeek illustrerar paradoxen med utveckling av öppen källkod. Öppna ramverk påskyndar innovationen, men de utrustar också konkurrenterna med verktyg för att utmana marknadsledarna. Denna dynamik ökar komplexiteten i det snabbt föränderliga AI-ekosystemet, där samarbete och konkurrens är djupt sammanflätade.

Slutsats: Navigera i framtiden för AI-innovation

Spänningen mellan mjukvaru- och hårdvaruinnovation kommer att fortsätta att forma AI-landskapet. I takt med att mjukvaruutvecklingen utmanar hårdvarans dominans kommer företag att tvingas förnya sig snabbare och smartare. Samtidigt kommer hårdvarugenombrott att omdefiniera programvarans möjligheter och ge bränsle åt en ny utvecklingscykel. För konsumenter och branscher låser denna konkurrens upp oöverträffade möjligheter inom olika domäner. Rollen för modeller med öppen källkod som DeepSeek belyser dock hur modeller med öppen källkod kan underblåsa störningar. I denna tid av omvälvande förändringar kommer anpassningsförmåga och samarbete över domängränserna att avgöra morgondagens ledare.

Friskrivning:

De åsikter, åsikter och tolkningar som uttrycks i denna artikel är endast författarens och eventuella citerade personers. De återspeglar inte de officiella policyerna, ståndpunkterna eller rekommendationerna från Purdue University eller några anslutna institutioner. Varje omnämnande av forskning, projekt eller anknytningar är endast i informationssyfte och innebär inte institutionellt stöd.

Suresh Jambunathan

Resilient Affordable Decarbonized Energy & Water (RADEW) project development

9 mån

Karthik- good insights into how AI is disrupting AI

Suresh Sankaranarayanan

Reimagining AI for humanity | Program Management | Data Engineering | Machine Learning | 3X AWS Certified | 3X Azure Cloud Certified | Product Management

9 mån

Insightful

Gilla
Svara
Tolga Kurtoglu

Chief Technology Officer at Lenovo

9 mån

Great article Karthik Ramani. I will repost.

Siva Narayanaswamy

Founder, Director @ expEDIum | EHR, PMS & RCM, Medical Billing, X12N, HIPAA, Interoperability, Meaningful Use

9 mån

Amazing article Prof Karthik Ramani with a punch line of "AI, it seems disrupting itself"!! Thanks for posting, it has made it simple for me understand the intricacies of DeepSeek as an AI Paradigm shift! Just one idea wiping out $600B in market cap of a company!!

Nanu Swamy

Borderless Engineering: Building GenAI × Systems | Making Machine Intelligence Real

9 mån

Learning from the history of cars - When engines became more fuel-efficient, it exploded the usage of engines, from cars to bikes to lawn mowers. Same with AI compute - more efficient operations won't mean less GPU demand, but will drive exponential growth across devices. Just like efficient engines led to more vehicles on the road, efficient AI will put compute everywhere, from sensors to robots, each optimized for its task. 👍

Logga in om du vill visa eller skriva en kommentar

Fler artiklar av Karthik Ramani

Andra har även tittat på