top of page

Az MI fogalma

A mesterséges intelligencia (MI) olyan számítógépes módszerek és rendszerek összessége, amely emberi intelligenciát igénylő feladatokat automatizál vagy támogat (észlelés, nyelv, következtetés, döntés, tanulás).

A mesterséges intelligencia típusai

ANI
(ARTIFICIAL NARROW INTELLIGENCE)

Vagy másképpen Foundation model. Ma a legtöbb gyakorlati megoldás ide tartozik.

ASI
(ARTIFICIAL SUPERINTELLIGENCE)

Az emberi szintet jelentősen meghaladó intelligencia. Elméleti, spekulatív.

Történeti áttekintés

1947

Holográfia felfedezése

Gábor Dénes a képalkotást forradalmasította, amikor felfedezte a holográfiát.

Ezzel az eljárással háromdimenziós képeket rögzíthetünk és hozhatunk létre.

A felfedezésért 1971-ben fizikai Nobel-díjat kapott.

1948

Információelmélet

Claude Shannon – Bell Labs. „A nyelvünkre lehetne úgy tekinteni, mint valószínűségi események sorozatára, ahol minden szó a tőle eggyel előtti szótól függ."

1950-90

Nyelvmodellezés kezdetei

Nyelvmodellezés Markov- és n-gram modellekkel (pl. Jelinek, Katz).

2003

Neurális nyelvi modell

Első neurális nyelvi modell (Bengio et al.).

2013

Word2vec

Word2vec és modern embeddingek. A vektorizálás alapjait Tomas Mikolov fektette le.

2014-16

Seq2seq és Attention

Seq2seq és attention mechanizmusok (Bahdanau, Luong).

2017

Transformer 

„Attention Is All You Need" – a mai LLM-ek alapja. Az „autocomplete" rendszerek (pl. T9) jóval 2017 előtt léteztek; a Transformer a mai skálázhatóságot hozta meg.

2022

A nagy MI boom

A generatív MI nyilvánosan elérhetővé vált.

Definíciók

MULTIMODÁLIS (MULTIMODAL) AI

Többféle bemenetet/kimenetet (pl. szöveg, kép, hang, videó) közösen kezelő modelleket vagy rendszereket nevezünk Multimodális AI-nak. Lehetővé teszik, hogy egy modell képet írjon le szöveggel, szövegből képet/hangot generáljon, vagy több forrást egyesítsen jobb megértéshez.

PROMPT

A modellnek adott utasítás és kontextus, amely meghatározza a feladatot, a stílust és az elvárt kimeneti formátumot. Tartalmazhat példákat, szabályokat és kimeneti sémát.

HALLUCINÁCIÓ (HALLUCINATION)

Az LLM-ek egyik jelentős problémája, amikor téves vagy nem létező információkat generálnak magabiztosan hangzó válaszokban.

COPILOT

Asszisztens jellegű mesterséges intelligencia, amely a felhasználó munkafolyamatába beépülve támogatja a feladatvégzést javaslatokkal, automatikus kiegészítésekkel és részfeladatok átvállalásával (pl. kód-, e-mail- vagy dokumentumírás).
Működése a felhasználó irányításán és jóváhagyásán alapul, így nem tekinthető teljesen autonóm rendszernek.

RAG (RETRIEVAL-AUGMENTED GENERATION)

Keresésen alapuló tudásvisszaadással kiegészített generálás. Fő lépések: dokumentumok darabolása és beágyazása, indexelés; releváns részek visszakeresése a kérdéshez; találatok újrarangsorolása; a visszakeresett kontextus beillesztése a promptba; generálás. Előny: frissebb, forrásolt válaszok és kevesebb hallucináció. Kihívások: minőség az indexelésen/lekérdezésen múlik; prompt és adatvédelmi kockázatok kezelése szükséges.

Generatív AI (GenAI)

Olyan modellek, amelyek új tartalmat hoznak létre a tanult minták alapján.

SZÖVEG

Tipikusan LLM-ek

(transformer-alapú nyelvi modellek)

KÉP/HANG/VIDEÓ

Főként diffúziós modellek,

de GAN-ok és más architektúrák is.

A GenAI tágabb kategória, mint az LLM; az LLM a szöveges ág domináns megoldása.

Nagy nyelvi modellek (LLM-ek)

Nagy méretű, többnyire transformer-alapú modellek, amelyek tokenről tokenre becsülik a következő token valószínűségét; így képesek koherens szöveg generálására.

TANÍTÁS

  • Előtanítás nagy korpuszokon (nyelvi minták), majd gyakran finomhangolás (utasítás-követés, SFT, RLHF/DPO).

ARCHITEKTÚRA

  • Jellemzően „decoder-only" transformer.

KONTEXTUSABLAK

  • Architekturális korlát arra, hány tokent tekintsen egyszerre a modell.

DEKÓDOLÁSI BEÁLLÍTÁSOK (INFERENCE, NEM TRÉNING)

  • Temperature: a kimenet véletlenszerűsége. Azaz mennyire legyen random a szöveg generálásánál.

  • Top-k: a legvalószínűbb tokenre korlátoz. Azaz mennyire hosszan és kreatívan fejtse ki.

  • Top-p: a legkisebb tokenhalmazra korlátoz, amelynek összvalószínűsége p. Azaz mennyire legyen változatos.

  • Presence penalty: ösztönzi új tokenek megjelenését (kevesebb ismétlés).
    Egyszerűbben egy utasítás: Ezt a szót már használtad többet ne használd.

  • Frequency penalty: visszafogja a gyakran ismételt tokeneket arányosan a gyakorisággal.
    Egyszerűbben egy utasítás: Ezt a szót sokszor használtad változtass azon amit mondani akarsz.

Ezek a kimenet diverzitását és ismétléseit befolyásolják;

nem „pontosítják" a modellt és nem növelik a „mélyrehatóságot".

Nagy nyelvi modellek működése

01

TOKENIZÁCIÓ

A szöveg szavakra majd szótagokra bontásának folyamata (alapvető egységek), amelyeket a gépek értelmezni tudnak (token). Gyakori módszerek: BPE (Byte Pair Encoding), WordPiece, SentencePiece.

02

EMBEDDING (VEKTORREPREZENTÁCIÓ)

Tanult vektorok, amelyek a tokenek jelentését hordozzák egy nagy dimenziós térben. A kozinusz-hasonlóság gyakran használt mérőszám hasonlóság-alapú kereséshez, de a tér a tanítás során alakul ki, nem „kézzel" van beállítva.

03

POZÍCIÓS KÓDOLÁS (POSITIONAL ENCODING)

A transzformereknek explicit sorrend-információ kell. Megoldások: szinuszos vagy tanulható abszolút kódolás, illetve relatív megközelítések (pl. RoPE, ALiBi).

04

TRANSZFORMER

Szekvenciákat feldolgozó architektúra, amely rétegenként multi-head self-attentiont és pozíciónkénti FFN-t kombinál, residual kapcsolatokkal és normalizálással. Változatok: encoder-only (megértés), decoder-only (generálás), encoder–decoder (bemenet–kimenet transzformáció).

05

ATTENTION BLOKK

A bemenet vektorait lekérdezés (Q), kulcs (K) és érték (V) terekké képezzük. Minden pozíció a saját lekérdezését az összes kulccsal hasonlítja össze; a normalizált súlyokkal átlagolt értékek adják a kimenetet. Maszk gondoskodik arról, hogy a dekóderben csak a korábbi pozíciókra „figyelhessen". A multi-head változat több, párhuzamos fejjel különféle mintázatokat fog meg.

06

UNEMBEDDING (LM HEAD)

Az utolsó lineáris réteg, amely a rejtett állapotokat token-szintű pontszámokká (logitokká) vetíti. Ezekből softmax ad valószínűségi eloszlást, amelyből kiválasztjuk vagy mintavételezzük a következő tokent. Súlymegosztás (weight tying): gyakori, hogy az unembedding súlyai a bemeneti embedding mátrix transzponáltjával egyeznek, ami csökkenti a paraméterszámot és javíthatja a teljesítményt.

07

SOFTMAX ÉS DEKÓDOLÁS

A softmax a logitokból valószínűségi eloszlást készít (pozitív értékek, összegük 1). Dekódolási stratégiák: temperature, top-k, top-p, presence/frequency penalty. Ezek az eloszlásból történő választást befolyásolják (diverzitás, ismétlés), nem a modell „tudását".

Adatfolyam

Generated Image April 23, 2026 - 12_34PM.jpg

Ügynöki AI (Agentic AI)

Olyan rendszerek, amelyek egy vagy több LLM-et cselekvőképessé tesznek: célokat bontanak fel, tervet készítenek, eszközöket hívnak (function/tool calling: API, böngészés, kód-futtatás), memóriát használnak, és visszacsatoltan iterálnak.

Mesterséges neurális hálók

Sok, egymásra rétegzett, nemlineáris egységből álló, gradiensalapú tanulással betanított modellek, amelyek komplex mintázatokat képesek megtanulni adatokból.

Gyakori típusok: MLP, Transformer, autoencoderek, diffúziós modellek, GNN.

Iratkozz fel hírlevelünkre!

Értesülj elsőként az MI újdonságokról és eseményekről.

bottom of page