Tekoälyn todellinen pullonkaula ei ole laskentateho, vaan tiedonsiirto – muistin sisäisestä tietojenkäsittelystä tulee ratkaisu

Viimeisen kahden vuoden aikana lähes kaikki tekoälystä käydyt keskustelut ovat keskittyneet laskentatehoon: riittämättömään grafiikkasuorittimeen, riittämättömään laskentakapasiteettiin ja alikokoisiin klusteriin.Tuntuu, että laskentatehon lisääminen ratkaisee kaikki ongelmat.

Mutta tässä mietinnössä korostetaan yhtä ratkaisevaa seikkaa kerta toisensa jälkeen: Se, mikä todella hidastaa tekoälyä, ei ole koskaan kyvyttömyys laskea, vaan kyvyttömyys siirtää tietoja tehokkaasti.

Yksi tilasto tekee ongelman selväksi: Datan lukeminen DRAM-muistista kuluttaa satoja kertoja enemmän energiaa kuin SRAM-muistista.Samaan aikaan suorituskyvyn ero prosessorien ja muistin välillä kasvaa lähes 50 % joka vuosi.

Suuri osa laskentatehosta, jota kiihkeästi rakennamme, odottaa vain dataa. Sillä hetkellä tajusin jotain hämmästyttävää: Olemme ehkä etsineet tekoälyn väärää pullonkaulaa koko ajan.

Jos ongelma ei ole itse laskenta, vaan laskennan ja muistin erottaminen, niin oikea vastaus ei välttämättä ole vahvemmat GPU:t. Se on antaa muisti itse osallistuu laskemiseen. Tämä on todellinen tarina, jonka tämä raportti pyrkii kertomaan.

Raportin ydinviesti

Tekoälyn laskentatehon todellinen pullonkaula on siirtyminen laskennasta muistiin, ja ratkaisuna on siirtää laskenta muistiin.

Todellinen ongelma: Tietojen liikkuminen rajoittaa tekoälyn tehokkuutta

Tekoälylaskenta on vahvasti riippuvainen massiivisista MAC-operaatioista (multiply-accumulate) ja vaatii erittäin paljon dataa. Klassisessa von Neumannin arkkitehtuurissa on kuitenkin kohtalokas puute:

Suorituskykyero prosessorien ja DRAM-muistin välillä kasvaa jatkuvasti (noin 50 % vuodessa)
Muistin käyttöenergiakustannukset ovat paljon korkeammat kuin itse laskenta (DRAM-lukuenergia ≈ 100 kertaa SRAM:n lukuenergia)

Johtopäätös: AI ei epäonnistu laskemisessa – se ei pysty siirtämään tietoja edullisesti ja tarpeeksi nopeasti.

Ydinristiriita: von Neumannin pullonkaula

Tietojenkäsittelyn ja muistin erottaminen pakottaa jatkuvaan tiedonsiirtoon, mikä aiheuttaa kaksi kriittistä ongelmaa:

Korkea latenssi
Räjähdysmäinen energiankulutus

Juuri tätä mietinnössä kutsutaan von Neumann pullonkaula.

Tärkeimmät trendit: Muistista tulee uusi tietokonekeskus

Selkeä alan trendi on nousemassa: Sirut kehittyvät kahdella tavalla:

On-chip-muisti (SRAM) laajenee jatkuvasti
Muistin kaistanleveys kasvaa jatkuvasti

Samaan aikaan on syntynyt vallankumouksellinen suunta: In-Memory Computing (IMC).

Sen ydinidea: Suorita loogisia operaatioita, aritmeettisia laskutoimituksia ja matriisin kertolaskuja (AI-ydin) suoraan muistissa.

Perusmuutos: Muisti = Tallennus → Muisti = Laske moottori

Tekniset polut: SRAM:sta nouseviin muistoihin

Raportissa hahmotellaan useita toteutusreittejä:

1. SRAM / eDRAM (perinteinen polku)
Compute-in-Cache, hermovälimuisti
Plussat: kypsä, nopea
Rajat: suuri alue, rajoitettu skaalautuvuus

2. Emerging Memory (päävirran suunta)
Sisältää: MRAM, PCM, ReRAM, FeRAM

Yhteinen tavoite: muuttaa muistitaulukot matriisin moninkertais-akkumulointimoottoreiksi paikan päällä tapahtuvalla laskennalla ja analogisella laskennalla (esim. virran summaus vektorin kertolaskua varten).

Essence: memory array = AI-kiihdytin

Mutta todellisia haasteita on jäljellä: tarkkuus ja melu, laitevaihtelut, painon siirtyminen (etenkin ReRAM-muistissa) ja säilytysongelmat. Polku on elinkelpoinen, mutta tekniikan kannalta erittäin haastava.

Järjestelmäratkaisu: Laitteiston ja algoritmin yhteisoptimointi

Raportissa korostetaan, että pelkkä laitteisto ei riitä, vaan myös algoritmien on kehitettävä.

Mallin pakkaus: karsiminen, harvalukuisuus, matalaluokkainen hajoaminen
Matalatarkkuuslaskenta: kiinteän pisteen, binaariset neuroverkot
Laitteistotietoinen koulutus: STE, bittiviipaleiden harvalukuisuus

Keskeinen johtopäätös: Tekoälyn tehokkuuden optimointi edellyttää arkkitehtuurin, laitteiden ja algoritmien yhteistä suunnittelua.

Lopullinen johtopäätös

Chip-muistista on tullut tekoälyjärjestelmien ydinresurssi
Nousevat muistit tekevät muistin ja laskennan integroinnista valtavirran suunnan
Seuraavan sukupolven AI-sirut vaativat tasojen välistä yhteissuunnittelua laitteista algoritmeihin

Yhteenveto

Tekoälyn pullonkaula on siirtymässä "ei tarpeeksi laskentatehoa" "ei pysty siirtämään dataa tarpeeksi nopeasti". Vastaus seuraavan sukupolven siruihin ei ole vahvemmat GPU:t, vaan muisti, joka pystyy laskemaan itse.

Valitse kieli näytölle