Mi az MI?

A mesterséges intelligencia (MI) olyan számítógépes módszerek és rendszerek összessége, amely emberi intelligenciát igénylő feladatokat automatizál vagy támogat (észlelés, nyelv, következtetés, döntés, tanulás).

Az MI szintjei

ANI (ARTIFICIAL NARROW INTELLIGENCE)

Vagy másképpen Foundation model. Ma a legtöbb gyakorlati megoldás ide tartozik.

AGI (ARTIFICIAL GENERAL INTELLIGENCE)

Kutatási cél, nincs egységes definíciója vagy elfogadott megvalósítása.

ASI (ARTIFICIAL SUPERINTELLIGENCE)

Az emberi szintet jelentősen meghaladó intelligencia. Elméleti, spekulatív.

Rövid MI történeti áttekintés

1947

Gábor Dénes 1947-ben felfedezte a holográfiát, amivel forradalmasította a képalkotást. Ezzel az eljárással háromdimenziós képeket rögzíthetünk és hozhatunk létre interferencia segítségével. Az általa létrehozott első hologramot elektronmikroszkópos eljárással készítette, a felfedezésért pedig 1971-ben fizikai Nobel-díjat kapott.

1948

Claude Shannon – információelmélet (Bell Labs).

„a nyelvünkre lehetne úgy tekinteni, mint valószínűségi események sorozatára, ahol minden szó a tőle eggyel előtti szótól függ"

1950-1990-ES ÉVEK

Nyelvmodellezés Markov- és n-gram modellekkel (pl. Jelinek, Katz).

2003

Első neurális nyelvi modell (Bengio et al.).

2013

Word2vec és modern embeddingek.

„A vektorizálás alapjait Tomas Mikolov fektette le."

2014-2016

Seq2seq és attention (Bahdanau, Luong).

2017

Transformer („Attention Is All You Need") – a mai LLM-ek alapja.

Az „autocomplete" rendszerek (pl. T9) jóval 2017 előtt léteztek; a Transformer a mai skálázhatóságot hozta meg.

Sokat hallott definíciók

MULTIMODÁLIS (MULTIMODAL) AI

Többféle bemenet/kimenet (pl. szöveg, kép, hang, videó) közösen kezelő modellek vagy rendszerek hivatkozunk Multimodális AI-nak. Lehetővé teszik, hogy egy modell képet írjon le szöveggel, szövegből képet/hangot generáljon, vagy több forrást egyszerre jobb megértéshez.

PROMPT

A modellnek adott utasítás és kontextus, amely meghatározza a feladatot, a stílust és az elvárí kimeneti formátumot. Tartalmazhat: példákat, szabályokat és kimenetí séma.

HALLUCINÁCIÓ (HALLUCINATION)

Az LLM-ek egyik jelentős problémája, amikor téves vagy nem létező információkat generálnak magabiztosan hangzó válaszokban.

COPILOT

Asszisztens jellegű AI, amely a felhasználó munkafolyamatába ágyzva javaslatokat, automatikus kiegészítéseket és részeladát-automatizálást kínál (pl. kód-, e-mail-, dokumentum-írás). Ember irányítja és hagyja jóvá, nem teljesen autonóm ügyök.

RAG (RETRIEVAL-AUGMENTED GENERATION)

Kereséseen alapuló tudásvisszaadási kiegészített generálás. Fő lépések: dokumentumok darabolása és beágyazása, indexelés, releváns részek visszakeresése és átértéket társítottak újraolvasása; a visszakeresett kontextus beillesztése a promptba; generálás. Előny: frissebb, forrásolt válaszok és kevesebb hallucináció. Kihívások: minőség az indexelés/lekerekektészen múlik; prompt és adatelőkeszít kockázatok kezelése szükséges.

Generatív AI (GenAI)

Olyan modellek, amelyek új tartalmat hoznak létre a tanult minták alapján.

SZÖVEG

Tipikusan LLM-ek (transformer-alapú nyelvi modellek)

KÉP/HANG/VIDEÓ

Főként diffúziós modellek, de GAN-ok és más architektúrák is.

A GenAI tágabb kategória, mint az LLM; az LLM a szöveges ág domináns megoldása.

Nagy nyelvi modellek (LLM-ek)

Nagy méretű, többnyire transformer-alapú modellek, amelyek tokenről tokenre becsülik a következő token valószínűségét; így képesek koherens szöveg generálására.

TANÍTÁS

Előtanítás nagy korpuszokon (nyelvi minták), majd gyakran finomhangolás (utasítás-követés, SFT, RLHF/DPO).

ARCHITEKTÚRA

Jellemzően „decoder-only" transformer.

KONTEXTUSABLAK

Architektúra korlát arra, hány tokent kezelhet egyszerre a modell.

DEKÓDOLÁSI BEÁLLÍTÁSOK (INFERENCE, NEM TRÉNING)

Temperature: a kimenet véletlenszerűsége. Azaz mennyire legyen random a szöveg generálásánál.

Top-k: a k legvalószínűbb tokent korlátozz. Azaz mennyire hosszan és kreatívan fejlez ki

Top-p: kumulatív token valószínűség megszabása p. Azaz mennyire legyen változatos.

Presence penalty: ösztönzi új tokenek megjelenését (kevesebb ismétlés). Egyszerűbben egy utasítás: Ezt a szót már használtad többet ne használd

Frequency penalty: visszafogja a gyakran ismételt tokeneket arányosan a gyakorisággal. Egyszerűbben egy utasítás: Ezt a szót sokszor használtad változtasd amon amit mondani akarsz

Ezek a kimenet diverzitását és ismétlését befolyásolják, nem „pontosítják" a modellt és nem növelik a „mélyrehatóságot".

Nagy nyelvi modellek működése

TOKENIZÁCIÓ

A szöveg szavakra majd szotagokra bontásának folyamata (alapvető egységek), amelyeket a gépek értelmezni tudnak (token). Gyakori módszerek: BPE (Byte Pair Encoding), WordPiece, SentencePiece.

EMBEDDING (VEKTORREPREZENTÁCIÓ)

Tanult vektorok, amelyek a tokenek jelentését hordozzák egy nagy dimenzíós térben. A közinus-hasonlóság gyakran használt mérőszám hasonlóság-alapú kereséshez, de a tér a tanítás során alakul ki, nem „kézzel" van beállítva.

POZÍCIÓS KÓDOLÁS (POSITIONAL ENCODING)

A transformernek explicit sorrend-információ kell. Megoldások: szinuszos vagy tanulható abszolút kódolás, illetve relatív megközelítések (pl. RoPE, ALiBi).

TRANSFORMER

Szekvenciákat feldolgozó architektúra, amely rétegenkémt multi-head self-attention és pozícionkénti FFN-t kombinál, residual kapcsolatokkal és normalizálással. Változatok: encoder-only (megértés), decoder-only (generálás), encoder-decoder (bemenet-kimenet transzformáció).

ATTENTION BLOKK

A bemenet vektorait leképezés (Q), kulcs (K) és érték (V) terekbe képezük. Minden pozíció a saját lekérdezését az összes kulccsal hasonlítja össze; a normalizált súlyokat átlagolt értékek adják a kimenetet. Mask gondoskodik arról, hogy a dekóderben csak a korábbi pozíciók „figyeljenek". A multi-head változat több, párhuzamos különféle mintázatokat fog meg.

UNEMBEDDING (LM HEAD)

Az utolsó lineáris réteg, amely a rejtett állapotokat token-szintű pontszámokká (logitokká) vetíti. Ezekből softmax ad valószínűségi eloszlást, amelyből kiválasztjuk vagy mintavételezzük a következő tokent. Súlymegsztás (weight tying): gyakori, hogy az unembedding súlyai a bemenet embedding mátrix transzponáltjával egyeznek, ami csökkenti a paraméterszámot és javíthatja a teljesítményt.

SOFTMAX ÉS DEKÓDOLÁS

A softmax a logitokból valószínűségi eloszlást készít (pozitív értékek, összegük 1). Dekódolási stratégiák: temperature, top-k, top-p, presence/frequency penalty. Ezek az eloszlásból történő választást befolyásolják (diverzitás, ismétlés), nem a modell „tudását".

Adatfolyam

BEMENET (SZÖVEG)

TOKENIZÁLÁS

EMBEDDING (TANULT VEKTOROK) + POZÍCIÓS KÓDOLÁS

TÖBB EGYMÁSRA ÉPÜLŐ TRANSFORMER-BLOKK

• SELF-ATTENTION
• POZÍCIONKÉNTI FEED-FORWARD HÁLÓ
• RESIDUAL KAPCSOLATOK + RÉTEGNORMALIZÁLÁS

KIMENETI VETÍTÉS (UNEMBEDDING)

LOGITOK

SOFTMAX (VALÓSZÍNŰSÉGI ELOSZLÁS)

MINTAVÉTELEZÉS (TEMPERATURE/TOP-K/TOP-P)

KÖVETKEZŐ TOKEN

AUTOREGRESSZÍV ISMÉTLÉS

Ügynöki AI (Agentic AI)

Olyan rendszerek, amelyek egy vagy több LLM-et cselekvőképessé tesznek: célokat bontanak fel, tervet készítenek, eszközöket hívnak (function/tool calling: API, böngészés, kód-futtatás), memóriát használnak, és visszacsatoltan iterálnak.

Mesterséges neurális hálók

Sok, egymásra rétegzett, nemlineáris egységből álló, gradiensalapú tanulással betanított modellek, amelyek komplex mintázatokat képesek megtanulni adatokból.

Gyakori típusok: MLP, Transformer, autoencoderк, diffúziós modellek, CNN.