Co je to matice záměn a jak je strukturována?

Matice záměn je křížová tabulace skutečných tříd (ground truth) oproti predikovaným třídám přiřazeným klasifikačním modelem. Řádky obvykle představují skutečné třídy a sloupce predikované třídy. Každá buňka (i, j) obsahuje počet instancí, které patří do skutečné třídy i, ale byly predikovány jako třída j. Diagonální buňky (i, i) představují správné predikce a mimodiagonální buňky chyby. U binární klasifikace má matice rozměr 2×2 s buňkami pro skutečně pozitivní, falešně pozitivní, falešně negativní a skutečně negativní výsledky. U úloh s více třídami (K tříd) má matice rozměr K×K, kde každá třída má svůj vlastní řádek a sloupec.

Jak se matice záměn používá pro hodnocení modelů inspekce infrastruktury?

V inspekci infrastruktury provádějí modely AI tři primární klasifikační úkoly: klasifikaci typu povrchu (asfalt, beton, kompozit, štěrk), klasifikaci stupňů kvality (dobrý, uspokojivý, špatný, havarijní dle norem ICAO nebo ASTM) a klasifikaci vad (typy trhlin, odlupování, zvětrávání, degradace spár). U každého úkolu matice záměn odhaluje, kde přesně model dělá chyby. U klasifikace vad může matice záměn ukázat, že model často zaměňuje výkvěty za ranou fázi koroze na betonových mostních prvcích nebo zaměňuje síťové trhliny za blokové trhliny na asfaltových vozovkách. Analýzou mimodiagonálních vzorců mohou vývojáři modelů identifikovat vizuálně podobné třídy, které potřebují další trénovací data, odlišnou extrakci příznaků nebo augmentaci specifickou pro danou třídu, aby se snížila záměna.

Jaký je rozdíl mezi maticí záměn pro binární a pro klasifikaci s více třídami?

U binární klasifikace (dvě třídy, obvykle pozitivní a negativní) má matice záměn 2×2 čtyři buňky: skutečně pozitivní (správné pozitivní predikce), falešně pozitivní (negativní instance predikované jako pozitivní, chyby I. druhu), falešně negativní (pozitivní instance predikované jako negativní, chyby II. druhu) a skutečně negativní (správné negativní predikce). U klasifikace s více třídami (K ≥ 3) má matice rozměr K×K. Každá třída je vyhodnocována přístupem jedna-proti-všem — pro konkrétní třídu i je počet skutečně pozitivních diagonální buňka (i, i), falešně pozitivní jsou součet sloupce i kromě diagonály a falešně negativní jsou součet řádku i kromě diagonály. Matice s více třídami jsou větší a nabízejí bohatší analýzu chyb, ukazující, které konkrétní dvojice tříd jsou nejčastěji zaměňovány.

Jak se z matice záměn vypočítá přesnost (precision) a úplnost (recall) pro každou třídu?

Pro danou třídu i v matici záměn K×K: Přesnost (precision) pro třídu i = TP_i / (TP_i + FP_i), kde TP_i je diagonální buňka (i, i) a FP_i je součet sloupce i minus TP_i. Úplnost (recall) pro třídu i = TP_i / (TP_i + FN_i), kde FN_i je součet řádku i minus TP_i. Například u klasifikace 4 typů povrchu (asfalt, beton, kompozit, štěrk) se přesnost pro ‚asfalt‘ rovná počtu správně predikovaných asfaltových snímků děleno všemi snímky predikovanými jako asfalt. Úplnost se rovná správně predikovanému asfaltu děleno všemi skutečnými asfaltovými snímky. F1-skóre je harmonický průměr přesnosti a úplnosti: F1 = 2 × (Přesnost × Úplnost) / (Přesnost + Úplnost).

Co znamená, když je matice záměn normalizovaná?

Normalizace převádí hodnoty počtů v matici záměn na proporce nebo procenta pro snazší porovnání napříč třídami s různými velikostmi vzorků. Normalizace po řádcích (normalizace='true' v scikit-learn) dělí každou buňku součtem jejího řádku a ukazuje pro každou skutečnou třídu, jaký podíl instancí byl predikován jako jednotlivé třídy. Tím se odhalí úplnost (recall) pro každou třídu. Normalizace po sloupcích (normalizace='pred') dělí součty sloupců a ukazuje přesnost (precision) na třídu. Normalizace je nezbytná, když jsou distribuce tříd nevyvážené — třída s 10 000 instancemi a 90% přesností přispívá 9 000 správnými predikcemi, zatímco třída se 100 instancemi při 90% přesnosti přispívá 90 správnými predikcemi. Bez normalizace větší třída vizuálně dominuje matici a zastiňuje špatný výkon u vzácných, ale kritických tříd vad.

Jak matice záměn pomáhají s klasifikací typu povrchu pro letištní zpevněné plochy?

Pro klasifikaci typu povrchu letištních zpevněných ploch dle norem ICAO matice záměn odhaluje, zda model správně rozlišuje mezi asfaltem (pružná vozovka), betonem (tuhá vozovka), kompozitem (asfalt na betonu) a štěrkem/nezpevněnými povrchy. Mezi běžné záměny patří: kompozitní povrchy klasifikované jako čistý asfalt, když je asfaltový překryv tlustý; stárnoucí beton klasifikovaný jako kompozit, když textura povrchu připomíná překryv; a porézní protismykové vrstvy (PFC) klasifikované nesprávně kvůli svému výraznému vizuálnímu vzhledu. Matice záměn pomáhá identifikovat, které dvojice typů povrchu jsou nejproblematičtější, a řídí cílený sběr dat nebo úpravy modelu. Pro soulad s ICAO je přesná klasifikace typu povrchu kritická pro výpočty výkonnosti letadel včetně délky vzletu a přistání, brzdných účinků a koeficientů tření pneumatik.

Jak lze matice záměn efektivně vizualizovat pro reportování?

Efektivní vizualizace matice záměn kombinuje barevné kódování, anotace a normalizaci. Standardní přístup používá teplotní mapu s divergentní barevnou škálou — zelenou nebo modrou pro vysoké hodnoty na správné diagonále, červenou nebo teplé barvy pro mimodiagonální chyby. Hodnoty buněk jsou překryty jako textové anotace, buď jako hrubé počty nebo procenta v závislosti na publiku. Pro technické zprávy poskytují tříhodnotové buňky zobrazující počet, procento v řádku a procento ve sloupci úplné informace. Pro výkonná shrnutí je lépe stravitelná matice normalizovaná po řádcích s procenty a jednoduchou barevnou škálou. Mezi osvědčené postupy patří: zajistit, aby barevná škála pokrývala celý rozsah hodnot, jasně označit všechny řádky a sloupce, přidat legendu barevné škály a uvést celkovou přesnost jako popisek. Knihovny Pythonu jako scikit-learn, matplotlib a seaborn poskytují vestavěné funkce pro generování vizualizací matic záměn v kvalitě připravené k publikaci.

Jak vypadá matice záměn pro model klasifikace vad na betonové infrastruktuře?

Pro klasifikaci vad betonové infrastruktury může typická matice záměn zahrnovat třídy jako: trhliny (s podtypy: vlásečnicové, střední, závažné), odlupování (spalling), delaminace, výkvěty (efflorescence), koroze (barevné skvrny), odšupování (scaling), degradace spár a zdravý beton. Rozměry matice závisí na počtu tříd vad, které je model trénován rozpoznávat. Každá diagonální buňka ukazuje správné detekce podle typu vady, zatímco mimodiagonální buňky odhalují konkrétní záměny — například výkvěty (bílé krystalické usazeniny) často zaměňované s ranou fází koroze (bílé/reznivé usazeniny) nebo delaminace zaměňovaná s odlupováním, když obě vypadají jako povrchové nepravidelnosti. Analýza těchto vzorců záměn umožňuje cílenou augmentaci: přidání dalších trénovacích příkladů zaměňovaných dvojic, aplikaci barevných transformací zdůrazňujících rozdíly v chemickém zbarvení nebo úpravu vah tříd v účelové funkci.

Jak souvisí Cohenovo Kappa s maticí záměn?

Cohenovo Kappa (κ) je metrika odvozená z matice záměn, která měří shodu mezi predikovanými a skutečnými třídami při zohlednění shody, která by nastala náhodně. Vzorec je κ = (Přesnost - p_e) / (1 - p_e), kde p_e je pravděpodobnost náhodné shody vypočítaná z řádkových a sloupcových součtů matice záměn. Hodnoty Kappa se pohybují od -1 (úplná neshoda) do +1 (dokonalá shoda), přičemž 0 označuje shodu nelepší než náhodnou. Pro inspekci infrastruktury je Kappa zvláště cenná při hodnocení modelů na nevyvážených datových sadách — model, který dosahuje 95% přesnosti pouhým predikováním ‚zdravý beton‘ pro každý snímek, by měl nízké Kappa, protože náhodná shoda je vysoká. Kappa pod 0,40 indikuje slabou shodu, 0,40–0,75 indikuje střední až dobrou shodu a nad 0,75 indikuje výbornou shodu nad rámec náhody.

Matice záměn

Matice záměn porovnává predikce modelu se skutečnými hodnotami: řádky představují skutečné třídy, sloupce předpokládané třídy. Diagonála ukazuje správné predikce; mimodiagonální prvky zobrazují typy chyb. U modelů pro inspekci infrastruktury matice záměn odhalují, které typy vad nebo stupně kvality jsou zaměňovány — např. výkvěty záměněné za korozi. Zahrnuje interpretaci matice záměn, více tříd a odvození přesnosti a úplnosti (precision/recall) pro jednotlivé třídy.

{

Pracoviště datového analytika zobrazující vizualizaci matice záměn formou teplotní mapy na monitoru počítače se zelenou diagonálou a červenými mimodiagonálními buňkami

Definice a struktura

Matice záměn, známá také jako chybová matice, je specifické tabulkové uspořádání, které umožňuje detailní vizualizaci výkonu klasifikačního algoritmu. Je jedním z nejzákladnějších a nejinformativnějších nástrojů pro hodnocení modelů strojového učení a poskytuje úplný obraz o tom, kde model uspěl a, což je důležitější, kde selhal. Matice provádí křížovou tabulaci skutečných tříd (ground truth) oproti predikovaným třídám vytvořeným modelem, přičemž každá buňka obsahuje počet instancí spadajících do této kombinace.

Standardní konvence umísťuje skutečné třídy jako řádky a predikované třídy jako sloupce. Pro klasifikační problém s K různými třídami má matice záměn rozměry K×K. Prvek na pozici C[i][j] představuje počet instancí patřících do skutečné třídy i, které model predikoval jako třídu j. Diagonální prvky C[i][i] tedy představují správné klasifikace — instance, u nichž se predikovaná třída shoduje se skutečnou třídou. Všechny mimodiagonální prvky představují chybné klasifikace různého typu a závažnosti.

Matice záměn odvozuje svůj název od vhledu, který poskytuje do toho, které třídy model vzájemně „zaměňuje“. Model, který spolehlivě rozlišuje mezi asfaltovými a betonovými povrchy, ale často zaměňuje kompozitní vozovku s asfaltem, bude vykazovat vysoké hodnoty podél diagonály asfalt-asfalt a beton-beton, ale významnou mimodiagonální koncentraci na průsečíku kompozit-asfalt. Tento vzorec říká vývojáři modelu přesně, kde zaměřit úsilí o zlepšení.

Matematický základ matice záměn je zakořeněn v analýze kontingenčních tabulek, statistické metodě sahající k práci Karla Pearsona z počátku 20. století o chí-kvadrát testech pro kategoriální data. V kontextu strojového učení byla matice formalizována jako standardní nástroj hodnocení v 60. letech 20. století s rozvojem automatizovaných systémů rozpoznávání vzorů. Dnes každý významný framework pro strojové učení zahrnuje výpočet matice záměn — scikit-learn poskytuje sklearn.metrics.confusion_matrix, TensorFlow nabízí tf.math.confusion_matrix a PyTorch umí vypočítat matice pomocí torchmetrics.ConfusionMatrix. Implementace ze scikit-learn je nejpoužívanější v Pythonových pipeline pro inspekci infrastruktury, přijímá pole skutečných a predikovaných tříd a vrací matici K×K s konfigurovatelnými možnostmi normalizace.

Binární matice záměn

Binární matice záměn je nejjednodušší a nejčastěji vyučovaná forma, použitelná když klasifikační problém má právě dvě třídy — konvenčně označované jako pozitivní a negativní. Pro inspekci infrastruktury by binárním problémem mohlo být: „obsahuje tento snímek vozovky trhlinu?“ (pozitivní = trhlina přítomna) nebo „je tento mostní prvek zdravý?“ (pozitivní = vada detekována).

Binární matice záměn 2×2 obsahuje přesně čtyři buňky:

	Predikováno pozitivně	Predikováno negativně
Skutečně pozitivní	True Positive (TP)	False Negative (FN)
Skutečně negativní	False Positive (FP)	True Negative (TN)

True Positives (TP) — Instance správně identifikované jako patřící do pozitivní třídy. U modelu pro detekci trhlin je TP počet snímků obsahujících trhliny, které model správně označil jako popraskané. Každá skutečně pozitivní detekce představuje správně identifikovanou vadu, umožňující včasné údržbové opatření. Vysoký počet TP indikuje vysokou senzitivitu neboli úplnost (recall) — model zachytí vady, které má najít.

False Positives (FP) — Negativní instance nesprávně klasifikované jako pozitivní. Ty se také nazývají chyby I. druhu v statistickém testování hypotéz. Falešně pozitivní výsledek při detekci trhlin znamená, že model označil neporušenou vozovku jako popraskanou. I když falešně pozitivní výsledky nezpůsobují problémy s konstrukční bezpečností (žádná vada nezůstane nezjištěna), generují falešné poplachy, které plýtvají inspekčními zdroji — týmy vyslané k prošetření neexistujících vad, rozpočty na údržbu alokované na zbytečné opravy a celkové narušení důvěry v AI systém. V letištním provozu, kde soulad s ICAO Annex 14 vyžaduje dokumentovaná zjištění z inspekcí, nadměrný počet falešně pozitivních výsledků zatěžuje pracovní postup reportování.

False Negatives (FN) — Pozitivní instance nesprávně klasifikované jako negativní. Jedná se o chyby II. druhu a jsou obecně považovány za nebezpečnější typ chyby v inspekci infrastruktury. Falešně negativní výsledek znamená, že skutečná vada — trhlina, odlupování, místo koroze — zůstala nezjištěna. U letištních zpevněných ploch vystavených zatížení letadly se může nezjištěná trhlina šířit vlivem opakovaného zatížení pneumatikami, což vede k urychlenému zhoršení vozovky a potenciálnímu vzniku cizích předmětů (FOD). Falešně negativní výsledky představují zmeškané bezpečnostně kritické vady a musí být minimalizovány i za cenu přijetí více falešně pozitivních výsledků.

True Negatives (TN) — Instance správně identifikované jako nepatřící do pozitivní třídy. Ty představují správně identifikované neporušené plochy vozovky. I když skutečně negativní výsledky přímo nepřispívají k objevování vad, jsou nezbytné pro validaci celkové přesnosti modelu a pro výpočet metrik jako je specificita (míra skutečně negativních výsledků).

Vztah mezi těmito čtyřmi hodnotami určuje všechny odvozené metriky:

Přesnost (Accuracy) = (TP + TN) / (TP + TN + FP + FN) — Podíl všech predikcí, které jsou správné.

Precision (pozitivní prediktivní hodnota) = TP / (TP + FP) — Ze všech instancí predikovaných jako pozitivní, jaký podíl je skutečně pozitivní. Vysoká precision znamená málo falešných poplachů.

Recall (Senzitivita, míra skutečně pozitivních) = TP / (TP + FN) — Ze všech skutečně pozitivních instancí, jaký podíl model zachytil. Vysoký recall znamená málo zmeškaných vad.

Specificita (míra skutečně negativních) = TN / (TN + FP) — Ze všech skutečně negativních instancí, jaký podíl byl správně identifikován jako negativní.

F1-skóre = 2 × (Precision × Recall) / (Precision + Recall) — Harmonický průměr precision a recall, poskytující jedinou vyváženou metriku.

Pro inspekci infrastruktury je kompromis mezi precision a recall řízen pomocí rozhodovacího prahu modelu. Model detekce trhlin může pro každý snímek vydávat skóre pravděpodobnosti mezi 0 a 1. Nastavení prahu na 0,5 dává standardní vyvážení precision a recall. Snížení prahu na 0,3 zvyšuje recall (méně zmeškaných trhlin), ale snižuje precision (více falešných poplachů). Zvýšení prahu na 0,8 zlepšuje precision, ale riskuje přehlédnutí jemných trhlin. Optimální práh závisí na provozním kontextu: pro kritické letištní zpevněné plochy, kde by přehlédnutí trhliny mohlo vést ke vzniku FOD, je vhodnější nižší práh upřednostňující recall. Pro rutinní vizuální inspekce, kde falešné poplachy plýtvají omezenými rozpočty na údržbu, může být výhodnější vyšší práh upřednostňující precision.

Více tříd: matice záměn

Když klasifikační úloha zahrnuje tři nebo více tříd, matice záměn se rozšiřuje na rozměry K×K, kde K je počet tříd. Klasifikace s více třídami je dominantním paradigmatem v AI pro inspekci infrastruktury, kde modely musí současně rozlišovat mezi několika typy povrchu, několika kategoriemi vad nebo několika stupni kvality.

Příklad se 3 třídami pro klasifikaci typu povrchu letištních zpevněných ploch by mohl mít třídy: Asfalt (A), Beton (C) a Kompozit (O). Hypotetická matice záměn pro 1 000 validačních snímků:

Skutečná \ Predikovaná	Asfalt	Beton	Kompozit	Celkem
Asfalt	420	15	15	450
Beton	10	280	10	300
Kompozit	30	20	200	250
Celkem	460	315	225	1000

Diagonála ukazuje správné predikce: 420 asfalt, 280 beton, 200 kompozit — celkem 900 správných z 1 000, což dává 90% celkovou přesnost. Mimodiagonální buňky odhalují strukturu chyb: Asfalt byl zaměňován s Betonem (15 instancí) a Kompozitem (15 instancí) zhruba stejně. Beton byl zaměňován s Asfaltem (10) a Kompozitem (10) stejně. Kompozit byl nejčastěji zaměňován s Asfaltem (30 instancí) — téměř dvojnásobek ve srovnání s Betonem (20). Tento vzorec říká vývojáři modelu, že kompozitní povrchy jsou nejobtížnější třídou, zejména když vizuálně připomínají čistý asfalt.

U matic záměn s více třídami se pro výpočet metrik používá přístup jedna-proti-všem, který převádí problém K tříd na K binárních podproblémů. Pro danou třídu i:

TP(i) = C[i][i] (diagonální prvek)
FP(i) = sum(C[:][i]) - C[i][i] (součet sloupce i minus diagonála)
FN(i) = sum(C[i][:]) - C[i][i] (součet řádku i minus diagonál)
TN(i) = celkový_počet_vzorků - TP(i) - FP(i) - FN(i)

Pro třídu Kompozit v příkladu výše:

TP = 200
FP = (15 + 10) = 25 (Kompozitní predikce z řádků Asfalt a Beton)
FN = (30 + 20) = 50 (Skutečné kompozity predikované jako Asfalt nebo Beton)
TN = 1000 - 200 - 25 - 50 = 725
Precision = 200 / (200 + 25) = 0,889
Recall = 200 / (200 + 50) = 0,800
F1 = 2 × (0,889 × 0,800) / (0,889 + 0,800) = 0,842

Matice záměn s více třídami se škáluje na libovolný počet tříd. U modelů pro inspekci infrastruktury s 10–15 typy vad se matice stává bohatým zdrojem informací, který odhaluje nejen které třídy mají špatný výkon, ale přesně které dvojice tříd jsou problematické. To je zásadně informativnější než jediné číslo přesnosti.

Odvození precision, recall a F1 na třídu

Matice záměn je zdrojem, z něhož jsou odvozeny všechny metriky klasifikace na úroveň tříd. Porozumění odvození umožňuje odborníkům správně interpretovat výkon modelu a identifikovat, které třídy potřebují zlepšení.

Vzorce metrik na třídu

Pro každou třídu i v klasifikačním problému s K třídami:

Precision_i = C[i][i] / sum(C[:][i]) = TP / (TP + FP)

Precision odpovídá na otázku: „Když model predikuje třídu i, jak často je to správně?“ Toto se také nazývá pozitivní prediktivní hodnota. U klasifikace vad znamená vysoká precision u třídy „kritická konstrukční trhlina“, že když model označí závažnou trhlinu, inspektoři mohou tomuto zjištění důvěřovat.

Recall_i = C[i][i] / sum(C[i][:]) = TP / (TP + FN)

Recall odpovídá na otázku: „Ze všech skutečných instancí třídy i, kolik jich model našel?“ Toto se také nazývá senzitivita nebo míra skutečně pozitivních. U klasifikace vad znamená vysoký recall u „odlupování“, že většina skutečných odlupování je detekována, čímž se minimalizuje zmeškané zhoršení.

F1_i = 2 × (Precision_i × Recall_i) / (Precision_i + Recall_i)

F1 je harmonický průměr, vždy ležící mezi precision a recall. F1 je preferován před aritmetickým průměrem, protože penalizuje extrémní nevyváženost — model s precision=1,0 a recall=0,0 má F1=0,0, což správně indikuje, že model je k ničemu navzdory aritmetickému průměru 0,5.

Makro, mikro a vážené průměrování

Pro porovnávání modelů napříč všemi třídami existují tři metody průměrování:

Makro-průměr počítá metriku nezávisle pro každou třídu a průměruje je se stejnou vahou: Makro-Precision = (1/K) × sum(Precision_i). To zachází se všemi třídami stejně bez ohledu na jejich četnost. Pro příklad se 3 třídami povrchu: Makro-Precision = (420/460 + 280/315 + 200/225) / 3 = (0,913 + 0,889 + 0,889) / 3 = 0,897. Makro-průměr je vhodný, když jsou všechny třídy stejně důležité — například při klasifikaci typů poškození vozovek, kde i vzácné vady jsou důležité pro bezpečnost.

Mikro-průměr agreguje počty napříč všemi třídami před výpočtem metriky: Mikro-Precision = sum(TP_i) / sum(TP_i + FP_i). Pro příklad: Mikro-Precision = (420+280+200) / (420+280+200+15+15+10+10+30+20) = 900 / 1000 = 0,900. Je pozoruhodné, že mikro-průměr precision se rovná přesnosti (accuracy) pro klasifikaci s jedním štítkem. Mikro-průměr je řízen nejčastějšími třídami a je vhodný, když je prioritou celková správnost.

Vážený průměr počítá metriku na třídu a průměruje s váhami podle počtu skutečných instancí na třídu: Vážená-Precision = sum(Precision_i × n_i) / sum(n_i), kde n_i je skutečný počet pro třídu i. Pro příklad: Vážená-Precision = (0,913 × 450 + 0,889 × 300 + 0,889 × 250) / 1000 = (410,85 + 266,70 + 222,25) / 1000 = 0,900. Vážený průměr je doporučeným výchozím nastavením pro nevyvážené datové sady, protože zohledňuje četnost tříd, aniž by skrýval špatný výkon u méně častých tříd.

Metoda průměrování	Vzorec	Nejlepší pro
Makro	(1/K) × Σ Metrika_i	Stejná důležitost tříd, vzácné vady jsou důležité
Mikro	Σ TP / (Σ TP + Σ FP)	Celkovou správnost datové sady
Vážený	Σ (Metrika_i × n_i) / Σ n_i	Nevyvážené třídy, praktické výchozí nastavení

Matthewsův korelační koeficient (MCC)

MCC je odvozen z matice záměn a poskytuje jedinou metriku, která shrnuje celou matici způsobem odolným vůči nevyváženosti tříd. Pro klasifikaci s více třídami se MCC pohybuje od -1 do +1, kde +1 znamená dokonalou predikci, 0 znamená náhodnou predikci a -1 znamená úplný nesouhlas. MCC je definován jako:

MCC = [sum(sum(C[k][l] × C[m][n] - C[k][n] × C[m][l]))] / sqrt( [sum(sum(C[p][q] * C[p][r]))] × [sum(sum(C[s][t] * C[u][t]))] )

kde se sumy provádějí přes příslušné rozsahy indexů podle definice Gorodkina (2004). MCC je široce považován za nejinformativnější jednotlivou metriku pro hodnocení klasifikátorů, protože využívá všechny čtyři kvadranty matice záměn (u binární) nebo všech K² buněk (u více tříd), na rozdíl od přesnosti, která používá pouze diagonálu.

Celková přesnost z matice záměn

Celková přesnost (overall accuracy) je nejintuitivněji chápaná metrika odvozená z matice záměn: součet diagonály (správné predikce) dělený celkovým počtem vzorků. Pro libovolnou matici záměn se celková přesnost vypočítá jako:

Přesnost (Accuracy) = Σ C[i][i] / Σ C[i][j] pro všechna i, j

Přesnost představuje podíl všech predikcí, které model udělal správně. I když je intuitivní, přesnost má zásadní omezení, která sama matice záměn pomáhá diagnostikovat.

Paradox přesnosti

Paradox přesnosti popisuje situace, kdy vysoká přesnost neindikuje dobrý výkon modelu kvůli nevyváženosti tříd. Uvažujme model pro detekci vad vozovek hodnocený na datové sadě, kde 95 % snímků ukazuje neporušenou vozovku (negativní) a 5 % trhliny (pozitivní). Triviální model, který predikuje „neporušeno“ pro každý snímek, dosahuje 95% přesnosti — přesto nezachytí žádnou trhlinu. Matice záměn toto selhání okamžitě odhalí: model má TP=0, FP=0, FN=500 (všechny trhliny zmeškané), TN=9 500 (všechny neporušené správně identifikovány). Navzdory 95% celkové přesnosti je recall pro třídu trhlin 0 %.

Matice záměn činí paradox přesnosti viditelným. Přesnost samotná nedokáže rozlišit mezi:

Vyváženým modelem, který zachytí 95 % trhlin a označí 5 % neporušených povrchů jako popraskané
Degenerovaným modelem, který predikuje neporušeno pro všechno

Pro inspekci infrastruktury je toto rozlišení bezpečnostně kritické. ICAO Annex 14 vyžaduje, aby inspekce povrchu vzletových a přistávacích drah identifikovaly všechny vady, které by mohly ohrozit provoz letadel. Model s 99% přesností, který zmešká 100 % vzácného, ale nebezpečného typu vady (například hluboké konstrukční trhliny v dotykové zóně dráhy), představuje bezpečnostní riziko, které by samotná přesnost maskovala.

Přesnost na třídu

Z matice záměn mohou odborníci vypočítat přesnost na třídu (nazývanou také recall nebo senzitivita pro pozitivní třídu v binárním nastavení):

Přesnost_třídy_i = C[i][i] / sum(C[i][:])

To udává podíl skutečných instancí třídy i, které model správně klasifikoval. U nevyvážených datových sad je přesnost na třídu mnohem informativnější než celková přesnost. Užitečný přístup k reportování je prezentovat celkovou přesnost spolu s minimální přesností na třídu — třída s nejnižší individuální přesností se stává slabým místem modelu, které vyžaduje pozornost.

Vyvážená přesnost

Vyvážená přesnost řeší nevyváženost tříd průměrováním recall napříč všemi třídami:

Vyvážená přesnost = (1/K) × Σ (C[i][i] / sum(C[i][:]))

Pro příklad s 95% neporušených / 5% trhlin u triviálního modelu vždy predikujícího neporušeno: Vyvážená přesnost = (Recall_neporušeno + Recall_trhliny) / 2 = (9 500/9 500 + 0/500) / 2 = (1,0 + 0,0) / 2 = 0,50. Vyvážená přesnost správně identifikuje tento model jako nelepší než náhodný (0,50), zatímco celková přesnost (0,95) je zavádějící vysoká.

Identifikace zaměňovaných tříd

Nejmocnější diagnostická schopnost matice záměn je její schopnost odhalit které konkrétní třídy jsou s kterými zaměňovány — vzorec mimodiagonálních chyb. Tato informace přímo řídí strategie zlepšování modelu.

Vzorce záměn

Mezi běžné vzorce záměn v modelech pro inspekci infrastruktury patří:

Záměna v rámci kategorie — Dva vizuálně podobné typy vad jsou často vzájemně zaměňovány. Výkvěty (bílé krystalické usazeniny solí na betonu) a raná fáze koroze (rezavé skvrny) jsou často zaměňovány, protože obojí se projevuje jako změna barvy povrchu. U asfaltových vozovek jsou síťové trhliny (vzájemně propojené polygony z únavy) někdy zaměňovány s blokovými trhlinami (obdélníkové bloky ze smršťování), když je hustota sítě trhlin střední.

Hierarchická záměna — Model správně identifikuje obecnou kategorii, ale zaměňuje konkrétní podtyp. Model může správně detekovat, že povrch je „popraskaný“, ale zaměnit „příčnou trhlinu“ s „podélnou trhlinou“ — obě jsou lineární trhliny lišící se pouze orientací vzhledem k ose vozovky nebo směru dopravy.

Mezikategoriální záměna — Stav povrchu je zaměněn za zásadně odlišný stav. Okraje stínů na vozovce mohou být zaměněny s okraji trhlin kvůli podobným gradientům kontrastu. Materiál těsnění spár může být zaměněn s výplňovým materiálem trhlin. Stopy po smyku pneumatik v dotykových zónách drah mohou být zaměněny s povrchovou degradací.

Kvantifikace zaměňovaných dvojic

Podíl záměny pro dvojici tříd (i, j) je:

Záměna(i → j) = C[i][j] / sum(C[i][:])

To udává, jaký podíl skutečných instancí třídy i byl chybně klasifikován jako třída j. Podíl záměny 0,15 mezi kompozitem (skutečný) a asfaltem (predikovaný) znamená, že 15 % kompozitních povrchů je zaměněno za asfalt — primární způsob selhání pro tuto třídu.

Podobně normalizovaná matice záměn s normalizací po řádcích nastaví každý řádek na součet 1,0, čímž přímo ukazuje podíl každé skutečné třídy rozdělený napříč predikovanými třídami. Toto je nejběžnější formát vizualizace pro matice záměn s více třídami, protože činí vzorce záměn okamžitě viditelnými bez ohledu na velikosti vzorků tříd.

Vizualizace teplotní mapou

Normalizovaná matice záměn se obvykle zobrazuje jako teplotní mapa s divergentním barevným schématem. Diagonála (správné predikce) je zobrazena zeleně nebo modře, čímž vytváří viditelný „hřeben správnosti“, který by měl být dominantním vizuálním prvkem. Mimodiagonální buňky jsou zobrazeny červeně nebo teplými barvami, s intenzitou úměrnou podílu záměny. Toto vizuální kódování umožňuje okamžitou identifikaci:

Tmavé diagonální buňky: Třídy s vysokým recall (většina skutečných instancí správně klasifikována)
Světlé diagonální buňky: Třídy s nízkým recall vyžadující zlepšení
Červené mimodiagonální hotspoty: Konkrétní zaměňované dvojice potřebující cílenou nápravu
Červenost celého řádku: Třída, která je široce zaměňována s mnoha jinými, což indikuje, že třída sama může potřebovat lepší definici nebo více trénovacích dat

Zlepšení řízené záměnami

Jakmile jsou identifikovány zaměňované dvojice tříd, lze použít následující cílené strategie:

Sběr dat: Získat více trénovacích příkladů specificky zaměňované dvojice, zejména okrajových případů, které zvýrazňují jejich rozlišovací znaky
Extrakce příznaků: U modelů, které nejsou založeny na hlubokém učení, navrhnout příznaky, které specificky diskriminují mezi zaměňovanými třídami — pro výkvěty vs. korozi příznaky zachycující barevnou teplotu a zrnitost textury
Důraz na augmentaci: Aplikovat transformace, které zdůrazňují rozlišovací charakteristiky — pro síťové vs. blokové trhliny augmentovat vzorce propojení trhlin
Váhy tříd: Zvýšit váhu ztrátové funkce pro zaměňované třídy během tréninku, aby byly chybné klasifikace více penalizovány
Modifikace architektury: Přidat mechanismy pozornosti, které se zaměřují na specifické oblasti obrazu, jež jsou nejvíce diskriminativní mezi zaměňovanými třídami
Hierarchická klasifikace: Pokud je záměna hierarchická (správná kategorie, špatný podtyp), zvážit dvoustupňový klasifikátor, který nejprve identifikuje obecnou kategorii a poté rozlišuje podtypy

Matice záměn pro klasifikaci typu povrchu

Klasifikace typu povrchu je základním úkolem v inspekci infrastruktury. U letištních zpevněných ploch vyžadují Mezinárodní organizace pro civilní letectví (ICAO) a Federální letecká správa (FAA) přesnou identifikaci typu povrchu pro výpočty výkonnosti letadel.

Klasifikační úloha

Typický model klasifikace typu povrchu pro letištní zpevněné plochy musí rozlišovat mezi:

Asfalt (pružná vozovka): Živičné povrchy, charakterizované tmavě černou/hnědou barvou, viditelnou texturou kameniva a bezespárým souvislým povrchem
Beton (tuhá vozovka): Povrchy z portlandského cementového betonu, charakterizované světle šedým zbarvením, viditelnými smršťovacími spárami v pravidelných intervalech a hladší texturou povrchu
Kompozit: Asfaltový překryv na betonovém podkladu, charakterizovaný vzhledem asfaltu s podkladovými vzory reflexního praskání spár
Štěrk/nezpevněný povrch: Zhutněné kamenivo pro všeobecné letectví, charakterizované sypkým povrchovým materiálem, hnědo/tan zbarvením a bez značení vozovky
Porézní protismyková vrstva (PFC): Specializovaný otevřený asfaltový povrch pro odvod vody, charakterizovaný hrubou, porézní texturou a tmavším vzhledem

Matice záměn pro typy povrchu

Matice záměn pro 4-třídový model typu povrchu testovaný na 2 000 validačních snímcích by mohla vypadat jako:

Skutečná \ Predikovaná	Asfalt	Beton	Kompozit	Štěrk
Asfalt (n=600)	564	6	24	6
Beton (n=500)	10	465	20	5
Kompozit (n=400)	48	28	312	12
Štěrk (n=500)	5	10	5	480

Tato matice odhaluje:

Asfalt (94,0% recall): 24 z 600 asfaltových snímků bylo chybně klasifikováno jako kompozit — nejvýznamnější záměna pro tuto třídu. K tomu dochází, když asfaltové povrchy mají vzory reflexního praskání, které vizuálně připomínají kompozitní vozovku (asfalt na betonu s odrazem trhlin). 6 chybných klasifikací na beton může nastat u světle zbarveného oxidovaného asfaltu, který připomíná stárnoucí beton.

Beton (93,0% recall): Primární záměnou je 20 snímků chybně klasifikovaných jako kompozit — typicky betonové povrchy s tenkými asfaltovými záplatami nebo překryvnými pásy, které vytvářejí vzhled podobný kompozitu.

Kompozit (78,0% recall): Toto je problémová třída. 48 ze 400 kompozitních snímků (12 %) bylo klasifikováno jako čistý asfalt. K tomu dochází, když je asfaltový překryv dostatečně silný, že podkladová betonová textura a spáry nejsou na zachycených snímcích viditelné. Dalších 28 (7 %) bylo klasifikováno jako čistý beton — typicky když se asfaltový překryv v dopravních oblastech opotřeboval do tenké vrstvy a odhalil betonový podklad. Model má potíže, protože vzhled kompozitní vozovky se pohybuje v rozmezí mezi čistým asfaltem a čistým betonem.

Štěrk (96,0% recall): Štěrk je vizuálně nejodlišnější třídou a dosahuje nejvyššího recall.

Provozní důsledky

Pro soulad s ICAO je záměna mezi kompozitem a čistým asfaltem provozně nejvýznamnější. Výpočty výkonnosti letadel — zejména délky vzletu a přistání — závisí na typu povrchu. Záměna kompozitní vozovky za čistý asfalt by mohla vést k nesprávným odhadům brzdného koeficientu, což by ovlivnilo bezpečnostní rezervy.

Cílená zlepšení pro třídu kompozit zahrnují: pořizování trénovacích snímků při různém stáří překryvu (nový tlustý překryv vs. opotřebovaný tenký překryv), přidání snímků ukazujících vzory reflexního praskání specifické pro kompozitní konstrukci a trénování vyhrazeného binárního diskriminátoru mezi čistým asfaltem a kompozitním překryvem.

Matice záměn pro klasifikaci stupňů kvality

Klasifikace stupňů kvality přiřazuje kategoriální hodnocení stavu infrastrukturním povrchům. U letištních zpevněných ploch zahrnují běžné systémy hodnocení Index stavu vozovky (PCI) dle ASTM D5340 a Klasifikaci stavu letištní vozovky používanou v systémech hospodaření s letištními vozovkami odkazovaných ICAO.

Klasifikační úloha

Stupně kvality obvykle sledují 4- nebo 5-úrovňovou škálu:

Stupeň	Rozsah PCI	Popis	Vizuální indikátory
Dobrý	86–100	Minimální nebo žádné poškození	Málo trhlin, žádné odlupování, neporušené spáry
Uspokojivý	71–85	Střední zhoršení	Některé trhliny, mírné odlupování, mírné zvětrávání
Špatný	56–70	Významné zhoršení	Rozsáhlé trhliny, střední odlupování, viditelné rozpadání
Havarijní	0–55	Závažné zhoršení	Rozsáhlé propojené trhliny, závažné odlupování, konstrukční vady

Matice záměn pro stupně kvality

Matice záměn pro klasifikaci stupňů kvality na 1 000 úsecích runwayí:

Skutečná \ Predikovaná	Dobrý	Uspokojivý	Špatný	Havarijní
Dobrý (n=350)	315	28	7	0
Uspokojivý (n=300)	36	237	24	3
Špatný (n=200)	0	30	152	18
Havarijní (n=150)	0	0	16	134

Tato matice odhaluje charakteristický vzorec ordinální klasifikační záměny: chyby jsou soustředěny na sousední stupně. Model zřídka zaměňuje Dobrý za Havarijní (0 instancí) nebo Havarijní za Dobrý (0 instancí), protože tyto třídy jsou vizuálně velmi odlišné. Záměna sousedních stupňů je však běžná:

Dobrý ↔ Uspokojivý (28 + 36 = 64 záměn): Tyto dva stupně jsou nejčastěji zaměňovanou dvojicí, představující hraniční případy, kde je mírné praskání přítomno, ale celkový stav je blízko hranice Dobrý-Uspokojivý (PCI ≈ 85). 28 sekcí Dobrý klasifikovaných jako Uspokojivý může mít rané vlásečnicové trhliny, které model interpretuje jako významné; 36 sekcí Uspokojivý klasifikovaných jako Dobrý může mít velmi jemné praskání pod prahem detekce modelu.

Uspokojivý ↔ Špatný (24 + 30 = 54 záměn): Hodnocení středního zhoršení je subjektivní i mezi lidskými inspektory. 24 sekcí Uspokojivý klasifikovaných jako Špatný má pravděpodobně hustoty trhlin blízko hranice Uspokojivý-Špatný; 30 sekcí Špatný klasifikovaných jako Uspokojivý může představovat případy, kde je závažnost trhlin hraniční.

Špatný ↔ Havarijní (18 + 16 = 34 záměn): Na závažném konci je záměna mezi Špatným (rozsáhlé praskání) a Havarijním (konstrukční zhoršení) relativně nízká, protože havarijní vozovka vykazuje kvalitativně odlišné poškození — odlupování, poklesy a dezintegraci povrchu přesahující prosté praskání.

Směrovost mimodiagonálních hodnot

Matice je asymetrická: záměna Dobrý→Uspokojivý (28) je nižší než záměna Uspokojivý→Dobrý (36). To znamená, že model je konzervativnější u sekcí Uspokojivý (má tendenci degradovat Dobré sekce na Uspokojivý) než u sekcí Dobrý (má tendenci povyšovat Uspokojivý na Dobrý). Tato asymetrie je relevantní pro plánování údržby — konzervativní chybné klasifikace (hodnocení lepší vozovky jako horší) jsou provozně bezpečnější, protože vedou k dřívějšímu zásahu údržby namísto odložené akce.

Kappa pro ordinální klasifikaci

Cohenovo vážené Kappa je zvláště vhodné pro matice záměn stupňů kvality, protože zohledňuje pořadí tříd. Chyby na sousedních stupních (Uspokojivý klasifikovaný jako Špatný) jsou penalizovány méně přísně než vzdálené chyby (Dobrý klasifikovaný jako Havarijní). Lineární váhování penalizuje úměrně vzdálenosti stupňů, zatímco kvadratické váhování penalizuje druhou mocninu vzdálenosti stupňů — vhodnější, když mají rozdíly stupňů nelineární bezpečnostní důsledky.

Pro výše uvedenou matici by vážené Kappa (lineární) bylo přibližně 0,78, což indikuje podstatnou shodu nad rámec náhody, zatímco nevážené Kappa by bylo nižší, přibližně 0,72, protože zachází se všemi mimodiagonálními chybami stejně bez ohledu na závažnost.

Matice záměn pro klasifikaci vad

Klasifikace vad je nejsložitějším a bezpečnostně nejkritičtějším úkolem pro modely AI v inspekci infrastruktury. U betonových mostních prvků nebo letištních zpevněných ploch může model potřebovat současně rozpoznávat 10–15 různých typů vad.

Klasifikační úloha

Mezi typické třídy vad pro inspekci betonové infrastruktury patří:

Vlásečnicové trhliny: Velmi jemné trhliny (< 0,3 mm šířka), často kosmetické, ale mohou indikovat rané zhoršení
Konstrukční trhliny: Širší trhliny (≥ 0,3 mm), které mohou ohrozit konstrukční integritu nebo usnadnit vnikání vody
Síťové trhliny (asfalt): Vzájemně propojená síť trhlin z únavového zatížení
Podélné/příčné trhliny: Lineární trhliny ve vozovce rovnoběžné/kolmé ke směru dopravy
Odlupování (spalling): Odlamování povrchového betonu na úlomky nebo větší fragmenty
Delaminace: Oddělování vrstev betonu, zjistitelné poklepem, ale ne vždy vizuálně zřejmé
Výkvěty (efflorescence): Bílé krystalické usazeniny solí z vody migrující betonem
Koroze (zbarvení): Rezavé zabarvení indikující korozi ocelové výztuže
Odšupování (scaling): Olupování nebo odlupování povrchové malty odhalující kamenivo
Selhání těsnění spár: Degradace nebo oddělení materiálu těsnění spár
Zvětrávání/rozpadání: Povrchová eroze odhalující kamenivo na asfaltových površích
Poklesy (faulting): Vertikální posun na spárách vozovky
Neporušený povrch: Žádné vady, zdravý stav

Inspektor letištní dráhy zkoumající betonový povrch vozovky s vadami a trhlinami, držící tablet s výsledky AI analýzy

Matice záměn pro betonové vady

Částečná matice záměn zaměřená na nejčastěji zaměňované dvojice vad pro model inspekce betonové mostovky:

Skutečná \ Predikovaná	Vlásečnicová trhlina	Konstrukční trhlina	Odlupování	Výkvěty	Koroze	Neporušeno
Vlásečnicová trhlina	820	30	5	40	10	95
Konstrukční trhlina	15	440	20	5	15	5
Odlupování	0	10	285	5	20	0
Výkvěty	25	0	5	145	60	15
Koroze	5	5	15	35	180	10
Neporušeno	65	0	0	10	15	1910

Analýza vzorců záměn

Výkvěty ↔ Koroze (60 + 35 = 95 záměn): Nejvýznamnější záměnná dvojice v klasifikaci betonových vad. Obě se projevují jako zabarvení povrchu — výkvěty jako bílé krystalické usazeniny, koroze jako rezavé skvrny. Když výkvěty obsahují nečistoty nebo když je koroze v rané fázi (rezavá, ale ještě bez vzoru), jsou obě vizuálně nerozlišitelné. Tato záměna má materiální důsledky: výkvěty indikují migraci vody (problém údržby), zatímco koroze indikuje aktivní korozi výztuže (konstrukční bezpečnostní problém). Záměna jednoho za druhé by mohla vést k dramaticky nesprávnému stanovení priorit údržby.

Vlásečnicová trhlina ↔ Neporušeno (95 + 65 = 160 záměn): Vlásečnicové trhliny blízko limitu rozlišení modelu (přibližně 0,2 mm při rozlišení snímku 0,5 mm/pixel) jsou často přehlíženy. 95 vlásečnicových trhlin bylo klasifikováno jako neporušeno (falešně negativní), což představuje zmeškané rané zhoršení. 65 neporušených povrchů bylo klasifikováno jako vlásečnicově popraskané (falešně pozitivní), což představuje falešné poplachy. Toto je klasický kompromis detekční senzitivity na hranici vnímání.

Odlupování ↔ Koroze (20 + 15 = 35 záměn): Odlupované oblasti odhalující zkorodovanou výztuž mají často rezavé zabarvení kolem okrajů odlupování, což vede k záměně mezi těmito dvěma třídami. V mnoha případech se obě vady vyskytují současně — odlupování způsobené podkladovou korozí — což činí úlohu klasifikace s jedním štítkem inherently nejednoznačnou.

Konstrukční trhlina ↔ Vlásečnicová trhlina (30 + 15 = 45 záměn): Trhliny blízko hranice vlásečnicová/konstrukční (přibližně 0,3 mm šířka) jsou zaměňovány na základě vnímané šířky. Bez přesné měřicí schopnosti v submilimetrovém rozsahu ve standardních inspekčních snímcích je tato záměna očekávatelná a může být přijatelná, pokud jsou oba typy trhlin označeny k inspekci.

Nápravná opatření řízená záměnami pro modely vad

Na základě vzorců záměn zahrnují specifické strategie nápravy:

Výkvěty vs. Koroze: Přidat trénovací data zobrazující výkvěty s usazenými nečistotami (nažloutlý odstín) a ranou korozi bez viditelné rzi (nazelenalý odstín). Aplikovat barevnou augmentaci zdůrazňující tyto jemné spektrální rozdíly. Zvážit přidání blízkých infračervených nebo multispektrálních kanálů, které detekují rozdíly v chemickém složení.
Vlásečnicová trhlina vs. Neporušeno: Zlepšit rozlišení snímání nebo nasadit super-rozlišení předzpracování. Aplikovat cílenou augmentaci simulující vlásečnicové trhliny na různých texturách povrchu. Zvážit odmítnutí hraničních predikcí a jejich označení k lidskému přezkoumání.
Odlupování vs. Koroze: Trénink modelu by měl používat víceštítkovou anotaci, kde odlupování a koroze mohou koexistovat. Alternativně vytvořit hierarchický klasifikátor, který nejprve detekuje „oblast zhoršení“ a poté na druhé úrovni rozlišuje odlupování od koroze.
Konstrukční vs. Vlásečnicová trhlina: Integrovat odhad šířky trhliny jako regresní hlavu namísto klasifikace. Použít spojitý odhad šířky k nastavení prahů závažnosti, které lze přizpůsobit podle inspekční normy.

Vizualizace a reportování

Efektivní vizualizace a reportování matice záměn je zásadní pro komunikaci výkonu modelu zainteresovaným stranám — od datových vědců přes manažery údržby letišť až po regulační orgány.

Standardní rozložení teplotní mapy

Standardní formát vizualizace matice záměn je teplotní mapa s následujícími konvencemi:

Řádky: Skutečné třídy (skutečné štítky), označené vlevo
Sloupce: Predikované třídy, označené nahoře
Diagonální buňky: Zvýrazněné odlišnou barvou (typicky zelenou nebo modrou)
Mimodiagonální buňky: Barevné na škále od bílé (nula) po červenou (vysoké hodnoty)
Hodnoty buněk: Anotované jako počty, procenta nebo obojí
Barevná škála: Legenda mapující barvy na hodnoty
Nadpis: Zahrnuje název datové sady a celkovou přesnost

Pro obrázky v publikační kvalitě se standardní přístup používá matplotlib s seaborn.heatmap v Pythonu:

import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_true, y_pred, labels=class_names)
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(cm_normalized, annot=True, fmt='.2f',
            xticklabels=class_names, yticklabels=class_names,
            cmap='RdYlGn', vmin=0, vmax=1, ax=ax)
ax.set_xlabel('Predikovaná třída')
ax.set_ylabel('Skutečná třída')
ax.set_title(f'Matice záměn (celková přesnost: {accuracy:.2%})')
plt.tight_layout()

Možnosti normalizace

Volba normalizace významně ovlivňuje interpretaci:

Normalizace po řádcích (normalizace=‘true’): Každý řádek má součet 1,0 (100 %). Diagonální hodnoty ukazují recall na třídu. Hodnoty napříč řádky ukazují „když je skutečná třída X, jaký podíl byl predikován jako každá třída?“ Toto je nejběžnější normalizace pro diagnostickou analýzu.

Normalizace po sloupcích (normalizace=‘pred’): Každý sloupec má součet 1,0 (100 %). Diagonální hodnoty ukazují precision na třídu. Hodnoty po sloupcích ukazují „když model predikoval X, jaký podíl skutečně patřil do každé skutečné třídy?“ To je užitečné pro pochopení distribucí falešně pozitivních výsledků.

Bez normalizace: Zobrazují se hrubé počty. Nezbytné pro ověření velikostí vzorků, ale ztěžuje porovnání, když mají třídy různé četnosti.

Formát tří hodnot: Každá buňka zobrazuje tři hodnoty: hrubý počet, % v řádku a % ve sloupci. To poskytuje úplné informace v jediné vizualizaci, ale může být vizuálně přeplněné u velkých matic.

Šablony reportů

Pro reportování modelů inspekce infrastruktury doporučená šablona zahrnuje:

Tabulka souhrnných statistik nahoře: celková přesnost, makro F1, vážené F1, Cohenovo Kappa, Matthewsův korelační koeficient
Teplotní mapa úplné matice záměn (normalizovaná po řádcích s překryvem hrubých počtů): zobrazující všechny třídy
Tabulka metrik na třídu níže: název třídy, podpora (počet), precision, recall, F1-skóre
Souhrn záměn: Textový odstavec identifikující 3 nejčastěji zaměňované dvojice tříd a doporučená nápravná opatření
Citlivost na práh: Pokud je relevantní, malá matice ukazující, jak se záměna mění při různých rozhodovacích prazích

Matice záměn napříč kontrolními body

Pro sledování vývoje modelu by matice záměn měly být generovány a logovány v pravidelných tréninkových kontrolních bodech (každých 10–20 epoch). Porovnávání matic napříč kontrolními body odhaluje:

Zvyšuje se diagonální hustota konzistentně (model se zlepšuje)?
Zlepšují se některé záměnné dvojice, zatímco jiné stagnují (potřeba cílené práce)?
Dochází k plató přesnosti na validační sadě, zatímco tréninková matice se dále zlepšuje (přeučení)?
Mění se vzorce záměn mezi třídami (model se učí různé příznaky)?

Platforma Arena a MLflow poskytují sledování matice záměn jako součást správy experimentů, automaticky generují a verzují matice pro každý tréninkový běh.

Vyhnutelná vs. nevyhnutelná záměna

Ne všechny záměny v matici jsou stejné. Doménoví experti by měli přezkoumat vzorce záměn a klasifikovat každou mimodiagonální dvojici jako:

Vyhnutelná záměna: Dvě třídy jsou pro lidského experta vizuálně odlišné a záměna modelu indikuje nedostatek v trénovacích datech, architektuře modelu nebo učení příznaků. Výkvěty vs. koroze na snímcích s jasnými barevnými rozdíly spadá do této kategorie.

Nevyhnutelná záměna: Dvě třídy jsou skutečně obtížně rozlišitelné i pro lidské experty, nebo rozlišení vyžaduje informace nedostupné ve vstupu (např. data o časovém vývoji, podpovrchové snímání). Vlásečnicová trhlina vs. povrchový škrábanec, kde obojí vypadá jako jemné lineární rysy, může být nevyhnutelně zaměňováno pouze z vizuálních snímků.

Nejednoznačná ground truth: Skutečná třída je sama o sobě nejistá kvůli neshodě mezi anotátory. Pokud dva lidští inspektoři nesouhlasí v 15 % případů, zda je povrch ve stupni „uspokojivý“ nebo „špatný“, nelze očekávat, že model tuto hranici shody překoná. Matice záměn by měla být interpretována relativně k základní linii lidské shody — model dosahující 90% shody s referenčním standardem může být vynikající, pokud je mezihodnotitelská spolehlivost lidí pouze 85 %.

Reportování regulačním orgánům

Pro modely inspekce infrastruktury používané v kontextu regulačního souladu — jako je certifikace letišť dle ICAO Annex 14 nebo správa vozovek dle FAA AC 150/5320-5D — slouží matice záměn jako klíčový validační artefakt. Regulační reportování by mělo zahrnovat:

Úplnou matici záměn na reprezentativní testovací datové sadě
Precision a recall na třídu pro všechny třídy vad nebo stavů
Matici záměn stratifikovanou podle podmínek prostředí (osvětlení, vlhkost povrchu, úhel snímání)
Srovnávací matici ukazující predikce modelu vs. hodnocení lidského inspektora
Matici záměn při více provozních prazích s odůvodněním výběru prahu
Vážený koeficient Kappa pro ordinální hodnocení stavu

Matice záměn, je-li správně vytvořena a interpretována, transformuje hodnocení modelu z jediného čísla přesnosti na bohatý diagnostický nástroj, který odhaluje úplnou chybovou strukturu klasifikačního systému. Pro aplikace inspekce infrastruktury, kde se náklady různých typů chyb dramaticky liší — zmeškaná konstrukční vada stojí mnohem více než falešný poplach u neporušené vozovky — toto granulární porozumění umožňuje odborníkům ladit, validovat a nasazovat modely, které splňují specifické požadavky na spolehlivost v oblasti bezpečnosti letectví.

Často kladené otázky

: Matice záměn je křížová tabulace skutečných tříd (ground truth) oproti predikovaným třídám přiřazeným klasifikačním modelem. Řádky obvykle představují skutečné třídy a sloupce predikované třídy. Každá buňka (i, j) obsahuje počet instancí, které patří do skutečné třídy i, ale byly predikovány jako třída j. Diagonální buňky (i, i) představují správné predikce a mimodiagonální buňky chyby. U binární klasifikace má matice rozměr 2×2 s buňkami pro skutečně pozitivní, falešně pozitivní, falešně negativní a skutečně negativní výsledky. U úloh s více třídami (K tříd) má matice rozměr K×K, kde každá třída má svůj vlastní řádek a sloupec.
: V inspekci infrastruktury provádějí modely AI tři primární klasifikační úkoly: klasifikaci typu povrchu (asfalt, beton, kompozit, štěrk), klasifikaci stupňů kvality (dobrý, uspokojivý, špatný, havarijní dle norem ICAO nebo ASTM) a klasifikaci vad (typy trhlin, odlupování, zvětrávání, degradace spár). U každého úkolu matice záměn odhaluje, kde přesně model dělá chyby. U klasifikace vad může matice záměn ukázat, že model často zaměňuje výkvěty za ranou fázi koroze na betonových mostních prvcích nebo zaměňuje síťové trhliny za blokové trhliny na asfaltových vozovkách. Analýzou mimodiagonálních vzorců mohou vývojáři modelů identifikovat vizuálně podobné třídy, které potřebují další trénovací data, odlišnou extrakci příznaků nebo augmentaci specifickou pro danou třídu, aby se snížila záměna.
: U binární klasifikace (dvě třídy, obvykle pozitivní a negativní) má matice záměn 2×2 čtyři buňky: skutečně pozitivní (správné pozitivní predikce), falešně pozitivní (negativní instance predikované jako pozitivní, chyby I. druhu), falešně negativní (pozitivní instance predikované jako negativní, chyby II. druhu) a skutečně negativní (správné negativní predikce). U klasifikace s více třídami (K ≥ 3) má matice rozměr K×K. Každá třída je vyhodnocována přístupem jedna-proti-všem — pro konkrétní třídu i je počet skutečně pozitivních diagonální buňka (i, i), falešně pozitivní jsou součet sloupce i kromě diagonály a falešně negativní jsou součet řádku i kromě diagonály. Matice s více třídami jsou větší a nabízejí bohatší analýzu chyb, ukazující, které konkrétní dvojice tříd jsou nejčastěji zaměňovány.
: Pro danou třídu i v matici záměn K×K: Přesnost (precision) pro třídu i = TP_i / (TP_i + FP_i), kde TP_i je diagonální buňka (i, i) a FP_i je součet sloupce i minus TP_i. Úplnost (recall) pro třídu i = TP_i / (TP_i + FN_i), kde FN_i je součet řádku i minus TP_i. Například u klasifikace 4 typů povrchu (asfalt, beton, kompozit, štěrk) se přesnost pro ‚asfalt‘ rovná počtu správně predikovaných asfaltových snímků děleno všemi snímky predikovanými jako asfalt. Úplnost se rovná správně predikovanému asfaltu děleno všemi skutečnými asfaltovými snímky. F1-skóre je harmonický průměr přesnosti a úplnosti: F1 = 2 × (Přesnost × Úplnost) / (Přesnost + Úplnost).
: Normalizace převádí hodnoty počtů v matici záměn na proporce nebo procenta pro snazší porovnání napříč třídami s různými velikostmi vzorků. Normalizace po řádcích (normalizace='true' v scikit-learn) dělí každou buňku součtem jejího řádku a ukazuje pro každou skutečnou třídu, jaký podíl instancí byl predikován jako jednotlivé třídy. Tím se odhalí úplnost (recall) pro každou třídu. Normalizace po sloupcích (normalizace='pred') dělí součty sloupců a ukazuje přesnost (precision) na třídu. Normalizace je nezbytná, když jsou distribuce tříd nevyvážené — třída s 10 000 instancemi a 90% přesností přispívá 9 000 správnými predikcemi, zatímco třída se 100 instancemi při 90% přesnosti přispívá 90 správnými predikcemi. Bez normalizace větší třída vizuálně dominuje matici a zastiňuje špatný výkon u vzácných, ale kritických tříd vad.
: Pro klasifikaci typu povrchu letištních zpevněných ploch dle norem ICAO matice záměn odhaluje, zda model správně rozlišuje mezi asfaltem (pružná vozovka), betonem (tuhá vozovka), kompozitem (asfalt na betonu) a štěrkem/nezpevněnými povrchy. Mezi běžné záměny patří: kompozitní povrchy klasifikované jako čistý asfalt, když je asfaltový překryv tlustý; stárnoucí beton klasifikovaný jako kompozit, když textura povrchu připomíná překryv; a porézní protismykové vrstvy (PFC) klasifikované nesprávně kvůli svému výraznému vizuálnímu vzhledu. Matice záměn pomáhá identifikovat, které dvojice typů povrchu jsou nejproblematičtější, a řídí cílený sběr dat nebo úpravy modelu. Pro soulad s ICAO je přesná klasifikace typu povrchu kritická pro výpočty výkonnosti letadel včetně délky vzletu a přistání, brzdných účinků a koeficientů tření pneumatik.
: Efektivní vizualizace matice záměn kombinuje barevné kódování, anotace a normalizaci. Standardní přístup používá teplotní mapu s divergentní barevnou škálou — zelenou nebo modrou pro vysoké hodnoty na správné diagonále, červenou nebo teplé barvy pro mimodiagonální chyby. Hodnoty buněk jsou překryty jako textové anotace, buď jako hrubé počty nebo procenta v závislosti na publiku. Pro technické zprávy poskytují tříhodnotové buňky zobrazující počet, procento v řádku a procento ve sloupci úplné informace. Pro výkonná shrnutí je lépe stravitelná matice normalizovaná po řádcích s procenty a jednoduchou barevnou škálou. Mezi osvědčené postupy patří: zajistit, aby barevná škála pokrývala celý rozsah hodnot, jasně označit všechny řádky a sloupce, přidat legendu barevné škály a uvést celkovou přesnost jako popisek. Knihovny Pythonu jako scikit-learn, matplotlib a seaborn poskytují vestavěné funkce pro generování vizualizací matic záměn v kvalitě připravené k publikaci.
: Pro klasifikaci vad betonové infrastruktury může typická matice záměn zahrnovat třídy jako: trhliny (s podtypy: vlásečnicové, střední, závažné), odlupování (spalling), delaminace, výkvěty (efflorescence), koroze (barevné skvrny), odšupování (scaling), degradace spár a zdravý beton. Rozměry matice závisí na počtu tříd vad, které je model trénován rozpoznávat. Každá diagonální buňka ukazuje správné detekce podle typu vady, zatímco mimodiagonální buňky odhalují konkrétní záměny — například výkvěty (bílé krystalické usazeniny) často zaměňované s ranou fází koroze (bílé/reznivé usazeniny) nebo delaminace zaměňovaná s odlupováním, když obě vypadají jako povrchové nepravidelnosti. Analýza těchto vzorců záměn umožňuje cílenou augmentaci: přidání dalších trénovacích příkladů zaměňovaných dvojic, aplikaci barevných transformací zdůrazňujících rozdíly v chemickém zbarvení nebo úpravu vah tříd v účelové funkci.
: Cohenovo Kappa (κ) je metrika odvozená z matice záměn, která měří shodu mezi predikovanými a skutečnými třídami při zohlednění shody, která by nastala náhodně. Vzorec je κ = (Přesnost - p_e) / (1 - p_e), kde p_e je pravděpodobnost náhodné shody vypočítaná z řádkových a sloupcových součtů matice záměn. Hodnoty Kappa se pohybují od -1 (úplná neshoda) do +1 (dokonalá shoda), přičemž 0 označuje shodu nelepší než náhodnou. Pro inspekci infrastruktury je Kappa zvláště cenná při hodnocení modelů na nevyvážených datových sadách — model, který dosahuje 95% přesnosti pouhým predikováním ‚zdravý beton‘ pro každý snímek, by měl nízké Kappa, protože náhodná shoda je vysoká. Kappa pod 0,40 indikuje slabou shodu, 0,40–0,75 indikuje střední až dobrou shodu a nad 0,75 indikuje výbornou shodu nad rámec náhody.

Vyhodnoťte své inspekční modely s přesností

TarmacView využívá analýzu matice záměn k validaci modelů umělé inteligence pro inspekci infrastruktury napříč úkoly klasifikace povrchů, stupňů kvality a vad. Zajistěte, aby vaše modely fungovaly spolehlivě s metrikami hodnocení na úrovni jednotlivých tříd odvozenými z komplexních matic záměn.

Kontaktujte nás Domluvit demo

Zjistit více

Detekce trhlin na bázi AI pro inspekci infrastruktury

Detekce trhlin na bázi AI využívá počítačové vidění — konvoluční neuronové sítě, vision transformery a modely sémantické segmentace — k automatické identifikaci...

Jun 16, 2025 36 min čtení

Computer Vision Deep Learning +8

Konvergence

Konvergence popisuje proces, při kterém se různé prvky, hodnoty nebo systémy přibližují ke společnému bodu nebo sjednocenému stavu, což je základní pojem v mate...

Nov 18, 2025 5 min čtení

Aviation Mathematics +3

Defect Gating — Kontextově uvědomělé filtrování predikcí vad

Defect gating (braní vad) je inferenční strategie, která filtruje predikované štítky vad podle typu povrchu a strukturální domény, aby potlačila falešně pozitiv...

Jun 17, 2026 25 min čtení

Technology Defect Detection +3

Matice záměn

Definice a struktura

Binární matice záměn

Více tříd: matice záměn

Odvození precision, recall a F1 na třídu

Vzorce metrik na třídu

Makro, mikro a vážené průměrování

Matthewsův korelační koeficient (MCC)

Celková přesnost z matice záměn

Paradox přesnosti

Přesnost na třídu

Vyvážená přesnost

Identifikace zaměňovaných tříd

Vzorce záměn

Kvantifikace zaměňovaných dvojic

Vizualizace teplotní mapou

Zlepšení řízené záměnami

Matice záměn pro klasifikaci typu povrchu

Klasifikační úloha

Matice záměn pro typy povrchu

Provozní důsledky

Matice záměn pro klasifikaci stupňů kvality

Klasifikační úloha

Matice záměn pro stupně kvality

Směrovost mimodiagonálních hodnot

Kappa pro ordinální klasifikaci

Matice záměn pro klasifikaci vad

Klasifikační úloha

Matice záměn pro betonové vady

Analýza vzorců záměn

Nápravná opatření řízená záměnami pro modely vad

Vizualizace a reportování

Standardní rozložení teplotní mapy

Možnosti normalizace

Šablony reportů

Matice záměn napříč kontrolními body

Vyhnutelná vs. nevyhnutelná záměna

Reportování regulačním orgánům

Často kladené otázky

Vyhodnoťte své inspekční modely s přesností

Zjistit více

Detekce trhlin na bázi AI pro inspekci infrastruktury

Konvergence

Defect Gating — Kontextově uvědomělé filtrování predikcí vad

Nastavení cookies

Nezbytné cookies

Analytické cookies