A mesterséges intelligencia (MI) olyan számítógépes módszerek és rendszerek összessége, amely emberi intelligenciát igénylő feladatokat automatizál vagy támogat (észlelés, nyelv, következtetés, döntés, tanulás).
Vagy másképpen Foundation model. Ma a legtöbb gyakorlati megoldás ide tartozik.
Kutatási cél, nincs egységes definíciója vagy elfogadott megvalósítása.
Az emberi szintet jelentősen meghaladó intelligencia. Elméleti, spekulatív.
Gábor Dénes 1947-ben felfedezte a holográfiát, amivel forradalmasította a képalkotást. Ezzel az eljárással háromdimenziós képeket rögzíthetünk és hozhatunk létre interferencia segítségével. Az általa létrehozott első hologramot elektronmikroszkópos eljárással készítette, a felfedezésért pedig 1971-ben fizikai Nobel-díjat kapott.
Claude Shannon – információelmélet (Bell Labs).
„a nyelvünkre lehetne úgy tekinteni, mint valószínűségi események sorozatára, ahol minden szó a tőle eggyel előtti szótól függ"
Nyelvmodellezés Markov- és n-gram modellekkel (pl. Jelinek, Katz).
Első neurális nyelvi modell (Bengio et al.).
Word2vec és modern embeddingek.
„A vektorizálás alapjait Tomas Mikolov fektette le."
Seq2seq és attention (Bahdanau, Luong).
Transformer („Attention Is All You Need") – a mai LLM-ek alapja.
Az „autocomplete" rendszerek (pl. T9) jóval 2017 előtt léteztek; a Transformer a mai skálázhatóságot hozta meg.
Többféle bemenet/kimenet (pl. szöveg, kép, hang, videó) közösen kezelő modellek vagy rendszerek hivatkozunk Multimodális AI-nak. Lehetővé teszik, hogy egy modell képet írjon le szöveggel, szövegből képet/hangot generáljon, vagy több forrást egyszerre jobb megértéshez.
A modellnek adott utasítás és kontextus, amely meghatározza a feladatot, a stílust és az elvárí kimeneti formátumot. Tartalmazhat: példákat, szabályokat és kimenetí séma.
Az LLM-ek egyik jelentős problémája, amikor téves vagy nem létező információkat generálnak magabiztosan hangzó válaszokban.
Asszisztens jellegű AI, amely a felhasználó munkafolyamatába ágyzva javaslatokat, automatikus kiegészítéseket és részeladát-automatizálást kínál (pl. kód-, e-mail-, dokumentum-írás). Ember irányítja és hagyja jóvá, nem teljesen autonóm ügyök.
Kereséseen alapuló tudásvisszaadási kiegészített generálás. Fő lépések: dokumentumok darabolása és beágyazása, indexelés, releváns részek visszakeresése és átértéket társítottak újraolvasása; a visszakeresett kontextus beillesztése a promptba; generálás. Előny: frissebb, forrásolt válaszok és kevesebb hallucináció. Kihívások: minőség az indexelés/lekerekektészen múlik; prompt és adatelőkeszít kockázatok kezelése szükséges.
Olyan modellek, amelyek új tartalmat hoznak létre a tanult minták alapján.
Tipikusan LLM-ek (transformer-alapú nyelvi modellek)
Főként diffúziós modellek, de GAN-ok és más architektúrák is.
A GenAI tágabb kategória, mint az LLM; az LLM a szöveges ág domináns megoldása.
Nagy méretű, többnyire transformer-alapú modellek, amelyek tokenről tokenre becsülik a következő token valószínűségét; így képesek koherens szöveg generálására.
Előtanítás nagy korpuszokon (nyelvi minták), majd gyakran finomhangolás (utasítás-követés, SFT, RLHF/DPO).
Jellemzően „decoder-only" transformer.
Architektúra korlát arra, hány tokent kezelhet egyszerre a modell.
Temperature: a kimenet véletlenszerűsége. Azaz mennyire legyen random a szöveg generálásánál.
Top-k: a k legvalószínűbb tokent korlátozz. Azaz mennyire hosszan és kreatívan fejlez ki
Top-p: kumulatív token valószínűség megszabása p. Azaz mennyire legyen változatos.
Presence penalty: ösztönzi új tokenek megjelenését (kevesebb ismétlés). Egyszerűbben egy utasítás: Ezt a szót már használtad többet ne használd
Frequency penalty: visszafogja a gyakran ismételt tokeneket arányosan a gyakorisággal. Egyszerűbben egy utasítás: Ezt a szót sokszor használtad változtasd amon amit mondani akarsz
Ezek a kimenet diverzitását és ismétlését befolyásolják, nem „pontosítják" a modellt és nem növelik a „mélyrehatóságot".
A szöveg szavakra majd szotagokra bontásának folyamata (alapvető egységek), amelyeket a gépek értelmezni tudnak (token). Gyakori módszerek: BPE (Byte Pair Encoding), WordPiece, SentencePiece.
Tanult vektorok, amelyek a tokenek jelentését hordozzák egy nagy dimenzíós térben. A közinus-hasonlóság gyakran használt mérőszám hasonlóság-alapú kereséshez, de a tér a tanítás során alakul ki, nem „kézzel" van beállítva.
A transformernek explicit sorrend-információ kell. Megoldások: szinuszos vagy tanulható abszolút kódolás, illetve relatív megközelítések (pl. RoPE, ALiBi).
Szekvenciákat feldolgozó architektúra, amely rétegenkémt multi-head self-attention és pozícionkénti FFN-t kombinál, residual kapcsolatokkal és normalizálással. Változatok: encoder-only (megértés), decoder-only (generálás), encoder-decoder (bemenet-kimenet transzformáció).
A bemenet vektorait leképezés (Q), kulcs (K) és érték (V) terekbe képezük. Minden pozíció a saját lekérdezését az összes kulccsal hasonlítja össze; a normalizált súlyokat átlagolt értékek adják a kimenetet. Mask gondoskodik arról, hogy a dekóderben csak a korábbi pozíciók „figyeljenek". A multi-head változat több, párhuzamos különféle mintázatokat fog meg.
Az utolsó lineáris réteg, amely a rejtett állapotokat token-szintű pontszámokká (logitokká) vetíti. Ezekből softmax ad valószínűségi eloszlást, amelyből kiválasztjuk vagy mintavételezzük a következő tokent. Súlymegsztás (weight tying): gyakori, hogy az unembedding súlyai a bemenet embedding mátrix transzponáltjával egyeznek, ami csökkenti a paraméterszámot és javíthatja a teljesítményt.
A softmax a logitokból valószínűségi eloszlást készít (pozitív értékek, összegük 1). Dekódolási stratégiák: temperature, top-k, top-p, presence/frequency penalty. Ezek az eloszlásból történő választást befolyásolják (diverzitás, ismétlés), nem a modell „tudását".
Olyan rendszerek, amelyek egy vagy több LLM-et cselekvőképessé tesznek: célokat bontanak fel, tervet készítenek, eszközöket hívnak (function/tool calling: API, böngészés, kód-futtatás), memóriát használnak, és visszacsatoltan iterálnak.
Sok, egymásra rétegzett, nemlineáris egységből álló, gradiensalapú tanulással betanított modellek, amelyek komplex mintázatokat képesek megtanulni adatokból.
Gyakori típusok: MLP, Transformer, autoencoderк, diffúziós modellek, CNN.