Detekce trhlin na bázi AI pro inspekci infrastruktury
Detekce trhlin na bázi AI využívá počítačové vidění — konvoluční neuronové sítě, vision transformery a modely sémantické segmentace — k automatické identifikaci...
Matice záměn porovnává predikce modelu se skutečnými hodnotami: řádky představují skutečné třídy, sloupce předpokládané třídy. Diagonála ukazuje správné predikce; mimodiagonální prvky zobrazují typy chyb. U modelů pro inspekci infrastruktury matice záměn odhalují, které typy vad nebo stupně kvality jsou zaměňovány — např. výkvěty záměněné za korozi. Zahrnuje interpretaci matice záměn, více tříd a odvození přesnosti a úplnosti (precision/recall) pro jednotlivé třídy.
{
Matice záměn, známá také jako chybová matice, je specifické tabulkové uspořádání, které umožňuje detailní vizualizaci výkonu klasifikačního algoritmu. Je jedním z nejzákladnějších a nejinformativnějších nástrojů pro hodnocení modelů strojového učení a poskytuje úplný obraz o tom, kde model uspěl a, což je důležitější, kde selhal. Matice provádí křížovou tabulaci skutečných tříd (ground truth) oproti predikovaným třídám vytvořeným modelem, přičemž každá buňka obsahuje počet instancí spadajících do této kombinace.
Standardní konvence umísťuje skutečné třídy jako řádky a predikované třídy jako sloupce. Pro klasifikační problém s K různými třídami má matice záměn rozměry K×K. Prvek na pozici C[i][j] představuje počet instancí patřících do skutečné třídy i, které model predikoval jako třídu j. Diagonální prvky C[i][i] tedy představují správné klasifikace — instance, u nichž se predikovaná třída shoduje se skutečnou třídou. Všechny mimodiagonální prvky představují chybné klasifikace různého typu a závažnosti.
Matice záměn odvozuje svůj název od vhledu, který poskytuje do toho, které třídy model vzájemně „zaměňuje“. Model, který spolehlivě rozlišuje mezi asfaltovými a betonovými povrchy, ale často zaměňuje kompozitní vozovku s asfaltem, bude vykazovat vysoké hodnoty podél diagonály asfalt-asfalt a beton-beton, ale významnou mimodiagonální koncentraci na průsečíku kompozit-asfalt. Tento vzorec říká vývojáři modelu přesně, kde zaměřit úsilí o zlepšení.
Matematický základ matice záměn je zakořeněn v analýze kontingenčních tabulek, statistické metodě sahající k práci Karla Pearsona z počátku 20. století o chí-kvadrát testech pro kategoriální data. V kontextu strojového učení byla matice formalizována jako standardní nástroj hodnocení v 60. letech 20. století s rozvojem automatizovaných systémů rozpoznávání vzorů. Dnes každý významný framework pro strojové učení zahrnuje výpočet matice záměn — scikit-learn poskytuje sklearn.metrics.confusion_matrix, TensorFlow nabízí tf.math.confusion_matrix a PyTorch umí vypočítat matice pomocí torchmetrics.ConfusionMatrix. Implementace ze scikit-learn je nejpoužívanější v Pythonových pipeline pro inspekci infrastruktury, přijímá pole skutečných a predikovaných tříd a vrací matici K×K s konfigurovatelnými možnostmi normalizace.
Binární matice záměn je nejjednodušší a nejčastěji vyučovaná forma, použitelná když klasifikační problém má právě dvě třídy — konvenčně označované jako pozitivní a negativní. Pro inspekci infrastruktury by binárním problémem mohlo být: „obsahuje tento snímek vozovky trhlinu?“ (pozitivní = trhlina přítomna) nebo „je tento mostní prvek zdravý?“ (pozitivní = vada detekována).
Binární matice záměn 2×2 obsahuje přesně čtyři buňky:
| Predikováno pozitivně | Predikováno negativně | |
|---|---|---|
| Skutečně pozitivní | True Positive (TP) | False Negative (FN) |
| Skutečně negativní | False Positive (FP) | True Negative (TN) |
True Positives (TP) — Instance správně identifikované jako patřící do pozitivní třídy. U modelu pro detekci trhlin je TP počet snímků obsahujících trhliny, které model správně označil jako popraskané. Každá skutečně pozitivní detekce představuje správně identifikovanou vadu, umožňující včasné údržbové opatření. Vysoký počet TP indikuje vysokou senzitivitu neboli úplnost (recall) — model zachytí vady, které má najít.
False Positives (FP) — Negativní instance nesprávně klasifikované jako pozitivní. Ty se také nazývají chyby I. druhu v statistickém testování hypotéz. Falešně pozitivní výsledek při detekci trhlin znamená, že model označil neporušenou vozovku jako popraskanou. I když falešně pozitivní výsledky nezpůsobují problémy s konstrukční bezpečností (žádná vada nezůstane nezjištěna), generují falešné poplachy, které plýtvají inspekčními zdroji — týmy vyslané k prošetření neexistujících vad, rozpočty na údržbu alokované na zbytečné opravy a celkové narušení důvěry v AI systém. V letištním provozu, kde soulad s ICAO Annex 14 vyžaduje dokumentovaná zjištění z inspekcí, nadměrný počet falešně pozitivních výsledků zatěžuje pracovní postup reportování.
False Negatives (FN) — Pozitivní instance nesprávně klasifikované jako negativní. Jedná se o chyby II. druhu a jsou obecně považovány za nebezpečnější typ chyby v inspekci infrastruktury. Falešně negativní výsledek znamená, že skutečná vada — trhlina, odlupování, místo koroze — zůstala nezjištěna. U letištních zpevněných ploch vystavených zatížení letadly se může nezjištěná trhlina šířit vlivem opakovaného zatížení pneumatikami, což vede k urychlenému zhoršení vozovky a potenciálnímu vzniku cizích předmětů (FOD). Falešně negativní výsledky představují zmeškané bezpečnostně kritické vady a musí být minimalizovány i za cenu přijetí více falešně pozitivních výsledků.
True Negatives (TN) — Instance správně identifikované jako nepatřící do pozitivní třídy. Ty představují správně identifikované neporušené plochy vozovky. I když skutečně negativní výsledky přímo nepřispívají k objevování vad, jsou nezbytné pro validaci celkové přesnosti modelu a pro výpočet metrik jako je specificita (míra skutečně negativních výsledků).
Vztah mezi těmito čtyřmi hodnotami určuje všechny odvozené metriky:
Přesnost (Accuracy) = (TP + TN) / (TP + TN + FP + FN) — Podíl všech predikcí, které jsou správné.
Precision (pozitivní prediktivní hodnota) = TP / (TP + FP) — Ze všech instancí predikovaných jako pozitivní, jaký podíl je skutečně pozitivní. Vysoká precision znamená málo falešných poplachů.
Recall (Senzitivita, míra skutečně pozitivních) = TP / (TP + FN) — Ze všech skutečně pozitivních instancí, jaký podíl model zachytil. Vysoký recall znamená málo zmeškaných vad.
Specificita (míra skutečně negativních) = TN / (TN + FP) — Ze všech skutečně negativních instancí, jaký podíl byl správně identifikován jako negativní.
F1-skóre = 2 × (Precision × Recall) / (Precision + Recall) — Harmonický průměr precision a recall, poskytující jedinou vyváženou metriku.
Pro inspekci infrastruktury je kompromis mezi precision a recall řízen pomocí rozhodovacího prahu modelu. Model detekce trhlin může pro každý snímek vydávat skóre pravděpodobnosti mezi 0 a 1. Nastavení prahu na 0,5 dává standardní vyvážení precision a recall. Snížení prahu na 0,3 zvyšuje recall (méně zmeškaných trhlin), ale snižuje precision (více falešných poplachů). Zvýšení prahu na 0,8 zlepšuje precision, ale riskuje přehlédnutí jemných trhlin. Optimální práh závisí na provozním kontextu: pro kritické letištní zpevněné plochy, kde by přehlédnutí trhliny mohlo vést ke vzniku FOD, je vhodnější nižší práh upřednostňující recall. Pro rutinní vizuální inspekce, kde falešné poplachy plýtvají omezenými rozpočty na údržbu, může být výhodnější vyšší práh upřednostňující precision.
Když klasifikační úloha zahrnuje tři nebo více tříd, matice záměn se rozšiřuje na rozměry K×K, kde K je počet tříd. Klasifikace s více třídami je dominantním paradigmatem v AI pro inspekci infrastruktury, kde modely musí současně rozlišovat mezi několika typy povrchu, několika kategoriemi vad nebo několika stupni kvality.
Příklad se 3 třídami pro klasifikaci typu povrchu letištních zpevněných ploch by mohl mít třídy: Asfalt (A), Beton (C) a Kompozit (O). Hypotetická matice záměn pro 1 000 validačních snímků:
| Skutečná \ Predikovaná | Asfalt | Beton | Kompozit | Celkem |
|---|---|---|---|---|
| Asfalt | 420 | 15 | 15 | 450 |
| Beton | 10 | 280 | 10 | 300 |
| Kompozit | 30 | 20 | 200 | 250 |
| Celkem | 460 | 315 | 225 | 1000 |
Diagonála ukazuje správné predikce: 420 asfalt, 280 beton, 200 kompozit — celkem 900 správných z 1 000, což dává 90% celkovou přesnost. Mimodiagonální buňky odhalují strukturu chyb: Asfalt byl zaměňován s Betonem (15 instancí) a Kompozitem (15 instancí) zhruba stejně. Beton byl zaměňován s Asfaltem (10) a Kompozitem (10) stejně. Kompozit byl nejčastěji zaměňován s Asfaltem (30 instancí) — téměř dvojnásobek ve srovnání s Betonem (20). Tento vzorec říká vývojáři modelu, že kompozitní povrchy jsou nejobtížnější třídou, zejména když vizuálně připomínají čistý asfalt.
U matic záměn s více třídami se pro výpočet metrik používá přístup jedna-proti-všem, který převádí problém K tříd na K binárních podproblémů. Pro danou třídu i:
Pro třídu Kompozit v příkladu výše:
Matice záměn s více třídami se škáluje na libovolný počet tříd. U modelů pro inspekci infrastruktury s 10–15 typy vad se matice stává bohatým zdrojem informací, který odhaluje nejen které třídy mají špatný výkon, ale přesně které dvojice tříd jsou problematické. To je zásadně informativnější než jediné číslo přesnosti.
Matice záměn je zdrojem, z něhož jsou odvozeny všechny metriky klasifikace na úroveň tříd. Porozumění odvození umožňuje odborníkům správně interpretovat výkon modelu a identifikovat, které třídy potřebují zlepšení.
Pro každou třídu i v klasifikačním problému s K třídami:
Precision_i = C[i][i] / sum(C[:][i]) = TP / (TP + FP)
Precision odpovídá na otázku: „Když model predikuje třídu i, jak často je to správně?“ Toto se také nazývá pozitivní prediktivní hodnota. U klasifikace vad znamená vysoká precision u třídy „kritická konstrukční trhlina“, že když model označí závažnou trhlinu, inspektoři mohou tomuto zjištění důvěřovat.
Recall_i = C[i][i] / sum(C[i][:]) = TP / (TP + FN)
Recall odpovídá na otázku: „Ze všech skutečných instancí třídy i, kolik jich model našel?“ Toto se také nazývá senzitivita nebo míra skutečně pozitivních. U klasifikace vad znamená vysoký recall u „odlupování“, že většina skutečných odlupování je detekována, čímž se minimalizuje zmeškané zhoršení.
F1_i = 2 × (Precision_i × Recall_i) / (Precision_i + Recall_i)
F1 je harmonický průměr, vždy ležící mezi precision a recall. F1 je preferován před aritmetickým průměrem, protože penalizuje extrémní nevyváženost — model s precision=1,0 a recall=0,0 má F1=0,0, což správně indikuje, že model je k ničemu navzdory aritmetickému průměru 0,5.
Pro porovnávání modelů napříč všemi třídami existují tři metody průměrování:
Makro-průměr počítá metriku nezávisle pro každou třídu a průměruje je se stejnou vahou: Makro-Precision = (1/K) × sum(Precision_i). To zachází se všemi třídami stejně bez ohledu na jejich četnost. Pro příklad se 3 třídami povrchu: Makro-Precision = (420/460 + 280/315 + 200/225) / 3 = (0,913 + 0,889 + 0,889) / 3 = 0,897. Makro-průměr je vhodný, když jsou všechny třídy stejně důležité — například při klasifikaci typů poškození vozovek, kde i vzácné vady jsou důležité pro bezpečnost.
Mikro-průměr agreguje počty napříč všemi třídami před výpočtem metriky: Mikro-Precision = sum(TP_i) / sum(TP_i + FP_i). Pro příklad: Mikro-Precision = (420+280+200) / (420+280+200+15+15+10+10+30+20) = 900 / 1000 = 0,900. Je pozoruhodné, že mikro-průměr precision se rovná přesnosti (accuracy) pro klasifikaci s jedním štítkem. Mikro-průměr je řízen nejčastějšími třídami a je vhodný, když je prioritou celková správnost.
Vážený průměr počítá metriku na třídu a průměruje s váhami podle počtu skutečných instancí na třídu: Vážená-Precision = sum(Precision_i × n_i) / sum(n_i), kde n_i je skutečný počet pro třídu i. Pro příklad: Vážená-Precision = (0,913 × 450 + 0,889 × 300 + 0,889 × 250) / 1000 = (410,85 + 266,70 + 222,25) / 1000 = 0,900. Vážený průměr je doporučeným výchozím nastavením pro nevyvážené datové sady, protože zohledňuje četnost tříd, aniž by skrýval špatný výkon u méně častých tříd.
| Metoda průměrování | Vzorec | Nejlepší pro |
|---|---|---|
| Makro | (1/K) × Σ Metrika_i | Stejná důležitost tříd, vzácné vady jsou důležité |
| Mikro | Σ TP / (Σ TP + Σ FP) | Celkovou správnost datové sady |
| Vážený | Σ (Metrika_i × n_i) / Σ n_i | Nevyvážené třídy, praktické výchozí nastavení |
MCC je odvozen z matice záměn a poskytuje jedinou metriku, která shrnuje celou matici způsobem odolným vůči nevyváženosti tříd. Pro klasifikaci s více třídami se MCC pohybuje od -1 do +1, kde +1 znamená dokonalou predikci, 0 znamená náhodnou predikci a -1 znamená úplný nesouhlas. MCC je definován jako:
MCC = [sum(sum(C[k][l] × C[m][n] - C[k][n] × C[m][l]))] / sqrt( [sum(sum(C[p][q] * C[p][r]))] × [sum(sum(C[s][t] * C[u][t]))] )
kde se sumy provádějí přes příslušné rozsahy indexů podle definice Gorodkina (2004). MCC je široce považován za nejinformativnější jednotlivou metriku pro hodnocení klasifikátorů, protože využívá všechny čtyři kvadranty matice záměn (u binární) nebo všech K² buněk (u více tříd), na rozdíl od přesnosti, která používá pouze diagonálu.
Celková přesnost (overall accuracy) je nejintuitivněji chápaná metrika odvozená z matice záměn: součet diagonály (správné predikce) dělený celkovým počtem vzorků. Pro libovolnou matici záměn se celková přesnost vypočítá jako:
Přesnost (Accuracy) = Σ C[i][i] / Σ C[i][j] pro všechna i, j
Přesnost představuje podíl všech predikcí, které model udělal správně. I když je intuitivní, přesnost má zásadní omezení, která sama matice záměn pomáhá diagnostikovat.
Paradox přesnosti popisuje situace, kdy vysoká přesnost neindikuje dobrý výkon modelu kvůli nevyváženosti tříd. Uvažujme model pro detekci vad vozovek hodnocený na datové sadě, kde 95 % snímků ukazuje neporušenou vozovku (negativní) a 5 % trhliny (pozitivní). Triviální model, který predikuje „neporušeno“ pro každý snímek, dosahuje 95% přesnosti — přesto nezachytí žádnou trhlinu. Matice záměn toto selhání okamžitě odhalí: model má TP=0, FP=0, FN=500 (všechny trhliny zmeškané), TN=9 500 (všechny neporušené správně identifikovány). Navzdory 95% celkové přesnosti je recall pro třídu trhlin 0 %.
Matice záměn činí paradox přesnosti viditelným. Přesnost samotná nedokáže rozlišit mezi:
Pro inspekci infrastruktury je toto rozlišení bezpečnostně kritické. ICAO Annex 14 vyžaduje, aby inspekce povrchu vzletových a přistávacích drah identifikovaly všechny vady, které by mohly ohrozit provoz letadel. Model s 99% přesností, který zmešká 100 % vzácného, ale nebezpečného typu vady (například hluboké konstrukční trhliny v dotykové zóně dráhy), představuje bezpečnostní riziko, které by samotná přesnost maskovala.
Z matice záměn mohou odborníci vypočítat přesnost na třídu (nazývanou také recall nebo senzitivita pro pozitivní třídu v binárním nastavení):
Přesnost_třídy_i = C[i][i] / sum(C[i][:])
To udává podíl skutečných instancí třídy i, které model správně klasifikoval. U nevyvážených datových sad je přesnost na třídu mnohem informativnější než celková přesnost. Užitečný přístup k reportování je prezentovat celkovou přesnost spolu s minimální přesností na třídu — třída s nejnižší individuální přesností se stává slabým místem modelu, které vyžaduje pozornost.
Vyvážená přesnost řeší nevyváženost tříd průměrováním recall napříč všemi třídami:
Vyvážená přesnost = (1/K) × Σ (C[i][i] / sum(C[i][:]))
Pro příklad s 95% neporušených / 5% trhlin u triviálního modelu vždy predikujícího neporušeno: Vyvážená přesnost = (Recall_neporušeno + Recall_trhliny) / 2 = (9 500/9 500 + 0/500) / 2 = (1,0 + 0,0) / 2 = 0,50. Vyvážená přesnost správně identifikuje tento model jako nelepší než náhodný (0,50), zatímco celková přesnost (0,95) je zavádějící vysoká.
Nejmocnější diagnostická schopnost matice záměn je její schopnost odhalit které konkrétní třídy jsou s kterými zaměňovány — vzorec mimodiagonálních chyb. Tato informace přímo řídí strategie zlepšování modelu.
Mezi běžné vzorce záměn v modelech pro inspekci infrastruktury patří:
Záměna v rámci kategorie — Dva vizuálně podobné typy vad jsou často vzájemně zaměňovány. Výkvěty (bílé krystalické usazeniny solí na betonu) a raná fáze koroze (rezavé skvrny) jsou často zaměňovány, protože obojí se projevuje jako změna barvy povrchu. U asfaltových vozovek jsou síťové trhliny (vzájemně propojené polygony z únavy) někdy zaměňovány s blokovými trhlinami (obdélníkové bloky ze smršťování), když je hustota sítě trhlin střední.
Hierarchická záměna — Model správně identifikuje obecnou kategorii, ale zaměňuje konkrétní podtyp. Model může správně detekovat, že povrch je „popraskaný“, ale zaměnit „příčnou trhlinu“ s „podélnou trhlinou“ — obě jsou lineární trhliny lišící se pouze orientací vzhledem k ose vozovky nebo směru dopravy.
Mezikategoriální záměna — Stav povrchu je zaměněn za zásadně odlišný stav. Okraje stínů na vozovce mohou být zaměněny s okraji trhlin kvůli podobným gradientům kontrastu. Materiál těsnění spár může být zaměněn s výplňovým materiálem trhlin. Stopy po smyku pneumatik v dotykových zónách drah mohou být zaměněny s povrchovou degradací.
Podíl záměny pro dvojici tříd (i, j) je:
Záměna(i → j) = C[i][j] / sum(C[i][:])
To udává, jaký podíl skutečných instancí třídy i byl chybně klasifikován jako třída j. Podíl záměny 0,15 mezi kompozitem (skutečný) a asfaltem (predikovaný) znamená, že 15 % kompozitních povrchů je zaměněno za asfalt — primární způsob selhání pro tuto třídu.
Podobně normalizovaná matice záměn s normalizací po řádcích nastaví každý řádek na součet 1,0, čímž přímo ukazuje podíl každé skutečné třídy rozdělený napříč predikovanými třídami. Toto je nejběžnější formát vizualizace pro matice záměn s více třídami, protože činí vzorce záměn okamžitě viditelnými bez ohledu na velikosti vzorků tříd.
Normalizovaná matice záměn se obvykle zobrazuje jako teplotní mapa s divergentním barevným schématem. Diagonála (správné predikce) je zobrazena zeleně nebo modře, čímž vytváří viditelný „hřeben správnosti“, který by měl být dominantním vizuálním prvkem. Mimodiagonální buňky jsou zobrazeny červeně nebo teplými barvami, s intenzitou úměrnou podílu záměny. Toto vizuální kódování umožňuje okamžitou identifikaci:
Jakmile jsou identifikovány zaměňované dvojice tříd, lze použít následující cílené strategie:
Klasifikace typu povrchu je základním úkolem v inspekci infrastruktury. U letištních zpevněných ploch vyžadují Mezinárodní organizace pro civilní letectví (ICAO) a Federální letecká správa (FAA) přesnou identifikaci typu povrchu pro výpočty výkonnosti letadel.
Typický model klasifikace typu povrchu pro letištní zpevněné plochy musí rozlišovat mezi:
Matice záměn pro 4-třídový model typu povrchu testovaný na 2 000 validačních snímcích by mohla vypadat jako:
| Skutečná \ Predikovaná | Asfalt | Beton | Kompozit | Štěrk |
|---|---|---|---|---|
| Asfalt (n=600) | 564 | 6 | 24 | 6 |
| Beton (n=500) | 10 | 465 | 20 | 5 |
| Kompozit (n=400) | 48 | 28 | 312 | 12 |
| Štěrk (n=500) | 5 | 10 | 5 | 480 |
Tato matice odhaluje:
Asfalt (94,0% recall): 24 z 600 asfaltových snímků bylo chybně klasifikováno jako kompozit — nejvýznamnější záměna pro tuto třídu. K tomu dochází, když asfaltové povrchy mají vzory reflexního praskání, které vizuálně připomínají kompozitní vozovku (asfalt na betonu s odrazem trhlin). 6 chybných klasifikací na beton může nastat u světle zbarveného oxidovaného asfaltu, který připomíná stárnoucí beton.
Beton (93,0% recall): Primární záměnou je 20 snímků chybně klasifikovaných jako kompozit — typicky betonové povrchy s tenkými asfaltovými záplatami nebo překryvnými pásy, které vytvářejí vzhled podobný kompozitu.
Kompozit (78,0% recall): Toto je problémová třída. 48 ze 400 kompozitních snímků (12 %) bylo klasifikováno jako čistý asfalt. K tomu dochází, když je asfaltový překryv dostatečně silný, že podkladová betonová textura a spáry nejsou na zachycených snímcích viditelné. Dalších 28 (7 %) bylo klasifikováno jako čistý beton — typicky když se asfaltový překryv v dopravních oblastech opotřeboval do tenké vrstvy a odhalil betonový podklad. Model má potíže, protože vzhled kompozitní vozovky se pohybuje v rozmezí mezi čistým asfaltem a čistým betonem.
Štěrk (96,0% recall): Štěrk je vizuálně nejodlišnější třídou a dosahuje nejvyššího recall.
Pro soulad s ICAO je záměna mezi kompozitem a čistým asfaltem provozně nejvýznamnější. Výpočty výkonnosti letadel — zejména délky vzletu a přistání — závisí na typu povrchu. Záměna kompozitní vozovky za čistý asfalt by mohla vést k nesprávným odhadům brzdného koeficientu, což by ovlivnilo bezpečnostní rezervy.
Cílená zlepšení pro třídu kompozit zahrnují: pořizování trénovacích snímků při různém stáří překryvu (nový tlustý překryv vs. opotřebovaný tenký překryv), přidání snímků ukazujících vzory reflexního praskání specifické pro kompozitní konstrukci a trénování vyhrazeného binárního diskriminátoru mezi čistým asfaltem a kompozitním překryvem.
Klasifikace stupňů kvality přiřazuje kategoriální hodnocení stavu infrastrukturním povrchům. U letištních zpevněných ploch zahrnují běžné systémy hodnocení Index stavu vozovky (PCI) dle ASTM D5340 a Klasifikaci stavu letištní vozovky používanou v systémech hospodaření s letištními vozovkami odkazovaných ICAO.
Stupně kvality obvykle sledují 4- nebo 5-úrovňovou škálu:
| Stupeň | Rozsah PCI | Popis | Vizuální indikátory |
|---|---|---|---|
| Dobrý | 86–100 | Minimální nebo žádné poškození | Málo trhlin, žádné odlupování, neporušené spáry |
| Uspokojivý | 71–85 | Střední zhoršení | Některé trhliny, mírné odlupování, mírné zvětrávání |
| Špatný | 56–70 | Významné zhoršení | Rozsáhlé trhliny, střední odlupování, viditelné rozpadání |
| Havarijní | 0–55 | Závažné zhoršení | Rozsáhlé propojené trhliny, závažné odlupování, konstrukční vady |
Matice záměn pro klasifikaci stupňů kvality na 1 000 úsecích runwayí:
| Skutečná \ Predikovaná | Dobrý | Uspokojivý | Špatný | Havarijní |
|---|---|---|---|---|
| Dobrý (n=350) | 315 | 28 | 7 | 0 |
| Uspokojivý (n=300) | 36 | 237 | 24 | 3 |
| Špatný (n=200) | 0 | 30 | 152 | 18 |
| Havarijní (n=150) | 0 | 0 | 16 | 134 |
Tato matice odhaluje charakteristický vzorec ordinální klasifikační záměny: chyby jsou soustředěny na sousední stupně. Model zřídka zaměňuje Dobrý za Havarijní (0 instancí) nebo Havarijní za Dobrý (0 instancí), protože tyto třídy jsou vizuálně velmi odlišné. Záměna sousedních stupňů je však běžná:
Dobrý ↔ Uspokojivý (28 + 36 = 64 záměn): Tyto dva stupně jsou nejčastěji zaměňovanou dvojicí, představující hraniční případy, kde je mírné praskání přítomno, ale celkový stav je blízko hranice Dobrý-Uspokojivý (PCI ≈ 85). 28 sekcí Dobrý klasifikovaných jako Uspokojivý může mít rané vlásečnicové trhliny, které model interpretuje jako významné; 36 sekcí Uspokojivý klasifikovaných jako Dobrý může mít velmi jemné praskání pod prahem detekce modelu.
Uspokojivý ↔ Špatný (24 + 30 = 54 záměn): Hodnocení středního zhoršení je subjektivní i mezi lidskými inspektory. 24 sekcí Uspokojivý klasifikovaných jako Špatný má pravděpodobně hustoty trhlin blízko hranice Uspokojivý-Špatný; 30 sekcí Špatný klasifikovaných jako Uspokojivý může představovat případy, kde je závažnost trhlin hraniční.
Špatný ↔ Havarijní (18 + 16 = 34 záměn): Na závažném konci je záměna mezi Špatným (rozsáhlé praskání) a Havarijním (konstrukční zhoršení) relativně nízká, protože havarijní vozovka vykazuje kvalitativně odlišné poškození — odlupování, poklesy a dezintegraci povrchu přesahující prosté praskání.
Matice je asymetrická: záměna Dobrý→Uspokojivý (28) je nižší než záměna Uspokojivý→Dobrý (36). To znamená, že model je konzervativnější u sekcí Uspokojivý (má tendenci degradovat Dobré sekce na Uspokojivý) než u sekcí Dobrý (má tendenci povyšovat Uspokojivý na Dobrý). Tato asymetrie je relevantní pro plánování údržby — konzervativní chybné klasifikace (hodnocení lepší vozovky jako horší) jsou provozně bezpečnější, protože vedou k dřívějšímu zásahu údržby namísto odložené akce.
Cohenovo vážené Kappa je zvláště vhodné pro matice záměn stupňů kvality, protože zohledňuje pořadí tříd. Chyby na sousedních stupních (Uspokojivý klasifikovaný jako Špatný) jsou penalizovány méně přísně než vzdálené chyby (Dobrý klasifikovaný jako Havarijní). Lineární váhování penalizuje úměrně vzdálenosti stupňů, zatímco kvadratické váhování penalizuje druhou mocninu vzdálenosti stupňů — vhodnější, když mají rozdíly stupňů nelineární bezpečnostní důsledky.
Pro výše uvedenou matici by vážené Kappa (lineární) bylo přibližně 0,78, což indikuje podstatnou shodu nad rámec náhody, zatímco nevážené Kappa by bylo nižší, přibližně 0,72, protože zachází se všemi mimodiagonálními chybami stejně bez ohledu na závažnost.
Klasifikace vad je nejsložitějším a bezpečnostně nejkritičtějším úkolem pro modely AI v inspekci infrastruktury. U betonových mostních prvků nebo letištních zpevněných ploch může model potřebovat současně rozpoznávat 10–15 různých typů vad.
Mezi typické třídy vad pro inspekci betonové infrastruktury patří:

Částečná matice záměn zaměřená na nejčastěji zaměňované dvojice vad pro model inspekce betonové mostovky:
| Skutečná \ Predikovaná | Vlásečnicová trhlina | Konstrukční trhlina | Odlupování | Výkvěty | Koroze | Neporušeno |
|---|---|---|---|---|---|---|
| Vlásečnicová trhlina | 820 | 30 | 5 | 40 | 10 | 95 |
| Konstrukční trhlina | 15 | 440 | 20 | 5 | 15 | 5 |
| Odlupování | 0 | 10 | 285 | 5 | 20 | 0 |
| Výkvěty | 25 | 0 | 5 | 145 | 60 | 15 |
| Koroze | 5 | 5 | 15 | 35 | 180 | 10 |
| Neporušeno | 65 | 0 | 0 | 10 | 15 | 1910 |
Výkvěty ↔ Koroze (60 + 35 = 95 záměn): Nejvýznamnější záměnná dvojice v klasifikaci betonových vad. Obě se projevují jako zabarvení povrchu — výkvěty jako bílé krystalické usazeniny, koroze jako rezavé skvrny. Když výkvěty obsahují nečistoty nebo když je koroze v rané fázi (rezavá, ale ještě bez vzoru), jsou obě vizuálně nerozlišitelné. Tato záměna má materiální důsledky: výkvěty indikují migraci vody (problém údržby), zatímco koroze indikuje aktivní korozi výztuže (konstrukční bezpečnostní problém). Záměna jednoho za druhé by mohla vést k dramaticky nesprávnému stanovení priorit údržby.
Vlásečnicová trhlina ↔ Neporušeno (95 + 65 = 160 záměn): Vlásečnicové trhliny blízko limitu rozlišení modelu (přibližně 0,2 mm při rozlišení snímku 0,5 mm/pixel) jsou často přehlíženy. 95 vlásečnicových trhlin bylo klasifikováno jako neporušeno (falešně negativní), což představuje zmeškané rané zhoršení. 65 neporušených povrchů bylo klasifikováno jako vlásečnicově popraskané (falešně pozitivní), což představuje falešné poplachy. Toto je klasický kompromis detekční senzitivity na hranici vnímání.
Odlupování ↔ Koroze (20 + 15 = 35 záměn): Odlupované oblasti odhalující zkorodovanou výztuž mají často rezavé zabarvení kolem okrajů odlupování, což vede k záměně mezi těmito dvěma třídami. V mnoha případech se obě vady vyskytují současně — odlupování způsobené podkladovou korozí — což činí úlohu klasifikace s jedním štítkem inherently nejednoznačnou.
Konstrukční trhlina ↔ Vlásečnicová trhlina (30 + 15 = 45 záměn): Trhliny blízko hranice vlásečnicová/konstrukční (přibližně 0,3 mm šířka) jsou zaměňovány na základě vnímané šířky. Bez přesné měřicí schopnosti v submilimetrovém rozsahu ve standardních inspekčních snímcích je tato záměna očekávatelná a může být přijatelná, pokud jsou oba typy trhlin označeny k inspekci.
Na základě vzorců záměn zahrnují specifické strategie nápravy:
Výkvěty vs. Koroze: Přidat trénovací data zobrazující výkvěty s usazenými nečistotami (nažloutlý odstín) a ranou korozi bez viditelné rzi (nazelenalý odstín). Aplikovat barevnou augmentaci zdůrazňující tyto jemné spektrální rozdíly. Zvážit přidání blízkých infračervených nebo multispektrálních kanálů, které detekují rozdíly v chemickém složení.
Vlásečnicová trhlina vs. Neporušeno: Zlepšit rozlišení snímání nebo nasadit super-rozlišení předzpracování. Aplikovat cílenou augmentaci simulující vlásečnicové trhliny na různých texturách povrchu. Zvážit odmítnutí hraničních predikcí a jejich označení k lidskému přezkoumání.
Odlupování vs. Koroze: Trénink modelu by měl používat víceštítkovou anotaci, kde odlupování a koroze mohou koexistovat. Alternativně vytvořit hierarchický klasifikátor, který nejprve detekuje „oblast zhoršení“ a poté na druhé úrovni rozlišuje odlupování od koroze.
Konstrukční vs. Vlásečnicová trhlina: Integrovat odhad šířky trhliny jako regresní hlavu namísto klasifikace. Použít spojitý odhad šířky k nastavení prahů závažnosti, které lze přizpůsobit podle inspekční normy.
Efektivní vizualizace a reportování matice záměn je zásadní pro komunikaci výkonu modelu zainteresovaným stranám — od datových vědců přes manažery údržby letišť až po regulační orgány.
Standardní formát vizualizace matice záměn je teplotní mapa s následujícími konvencemi:
Pro obrázky v publikační kvalitě se standardní přístup používá matplotlib s seaborn.heatmap v Pythonu:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_true, y_pred, labels=class_names)
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(cm_normalized, annot=True, fmt='.2f',
xticklabels=class_names, yticklabels=class_names,
cmap='RdYlGn', vmin=0, vmax=1, ax=ax)
ax.set_xlabel('Predikovaná třída')
ax.set_ylabel('Skutečná třída')
ax.set_title(f'Matice záměn (celková přesnost: {accuracy:.2%})')
plt.tight_layout()
Volba normalizace významně ovlivňuje interpretaci:
Normalizace po řádcích (normalizace=‘true’): Každý řádek má součet 1,0 (100 %). Diagonální hodnoty ukazují recall na třídu. Hodnoty napříč řádky ukazují „když je skutečná třída X, jaký podíl byl predikován jako každá třída?“ Toto je nejběžnější normalizace pro diagnostickou analýzu.
Normalizace po sloupcích (normalizace=‘pred’): Každý sloupec má součet 1,0 (100 %). Diagonální hodnoty ukazují precision na třídu. Hodnoty po sloupcích ukazují „když model predikoval X, jaký podíl skutečně patřil do každé skutečné třídy?“ To je užitečné pro pochopení distribucí falešně pozitivních výsledků.
Bez normalizace: Zobrazují se hrubé počty. Nezbytné pro ověření velikostí vzorků, ale ztěžuje porovnání, když mají třídy různé četnosti.
Formát tří hodnot: Každá buňka zobrazuje tři hodnoty: hrubý počet, % v řádku a % ve sloupci. To poskytuje úplné informace v jediné vizualizaci, ale může být vizuálně přeplněné u velkých matic.
Pro reportování modelů inspekce infrastruktury doporučená šablona zahrnuje:
Pro sledování vývoje modelu by matice záměn měly být generovány a logovány v pravidelných tréninkových kontrolních bodech (každých 10–20 epoch). Porovnávání matic napříč kontrolními body odhaluje:
Platforma Arena a MLflow poskytují sledování matice záměn jako součást správy experimentů, automaticky generují a verzují matice pro každý tréninkový běh.
Ne všechny záměny v matici jsou stejné. Doménoví experti by měli přezkoumat vzorce záměn a klasifikovat každou mimodiagonální dvojici jako:
Vyhnutelná záměna: Dvě třídy jsou pro lidského experta vizuálně odlišné a záměna modelu indikuje nedostatek v trénovacích datech, architektuře modelu nebo učení příznaků. Výkvěty vs. koroze na snímcích s jasnými barevnými rozdíly spadá do této kategorie.
Nevyhnutelná záměna: Dvě třídy jsou skutečně obtížně rozlišitelné i pro lidské experty, nebo rozlišení vyžaduje informace nedostupné ve vstupu (např. data o časovém vývoji, podpovrchové snímání). Vlásečnicová trhlina vs. povrchový škrábanec, kde obojí vypadá jako jemné lineární rysy, může být nevyhnutelně zaměňováno pouze z vizuálních snímků.
Nejednoznačná ground truth: Skutečná třída je sama o sobě nejistá kvůli neshodě mezi anotátory. Pokud dva lidští inspektoři nesouhlasí v 15 % případů, zda je povrch ve stupni „uspokojivý“ nebo „špatný“, nelze očekávat, že model tuto hranici shody překoná. Matice záměn by měla být interpretována relativně k základní linii lidské shody — model dosahující 90% shody s referenčním standardem může být vynikající, pokud je mezihodnotitelská spolehlivost lidí pouze 85 %.
Pro modely inspekce infrastruktury používané v kontextu regulačního souladu — jako je certifikace letišť dle ICAO Annex 14 nebo správa vozovek dle FAA AC 150/5320-5D — slouží matice záměn jako klíčový validační artefakt. Regulační reportování by mělo zahrnovat:
Matice záměn, je-li správně vytvořena a interpretována, transformuje hodnocení modelu z jediného čísla přesnosti na bohatý diagnostický nástroj, který odhaluje úplnou chybovou strukturu klasifikačního systému. Pro aplikace inspekce infrastruktury, kde se náklady různých typů chyb dramaticky liší — zmeškaná konstrukční vada stojí mnohem více než falešný poplach u neporušené vozovky — toto granulární porozumění umožňuje odborníkům ladit, validovat a nasazovat modely, které splňují specifické požadavky na spolehlivost v oblasti bezpečnosti letectví.
TarmacView využívá analýzu matice záměn k validaci modelů umělé inteligence pro inspekci infrastruktury napříč úkoly klasifikace povrchů, stupňů kvality a vad. Zajistěte, aby vaše modely fungovaly spolehlivě s metrikami hodnocení na úrovni jednotlivých tříd odvozenými z komplexních matic záměn.
Detekce trhlin na bázi AI využívá počítačové vidění — konvoluční neuronové sítě, vision transformery a modely sémantické segmentace — k automatické identifikaci...
Konvergence popisuje proces, při kterém se různé prvky, hodnoty nebo systémy přibližují ke společnému bodu nebo sjednocenému stavu, což je základní pojem v mate...
Defect gating (braní vad) je inferenční strategie, která filtruje predikované štítky vad podle typu povrchu a strukturální domény, aby potlačila falešně pozitiv...