Haykin neurális hálózatokkal teljes tanfolyam pdf. Elírási hibák Simon Haykin "Neural Networks: The Complete Course" című könyvében


A legtöbbet leírtuk egyszerű tulajdonságok formális neuronok. Beszéltünk arról, hogy a küszöbösszeadó pontosabban reprodukálja egyetlen tüske természetét, a lineáris összeadó pedig lehetővé teszi egy neuron válaszának szimulálását, amely impulzusok sorozatából áll. Megmutatták, hogy a lineáris összeadó kimenetének értéke összehasonlítható egy valódi neuron kiváltott tüskéinek gyakoriságával. Most megvizsgáljuk az ilyen formális neuronok alapvető tulajdonságait.

Hebb szűrő

A következőkben gyakran fogunk hivatkozni neurális hálózati modellekre. Elvileg a neurális hálózatelmélet szinte minden alapfogalma rendelkezik közvetlen kapcsolat a valódi agy szerkezetére. Az ember, aki bizonyos problémákkal szembesült, számos érdekes neurális hálózatot dolgozott ki. Az evolúció az összes lehetséges idegi mechanizmuson keresztül kiválasztott mindent, ami hasznosnak bizonyult számára. Nem lehet meglepő, hogy sok ember által feltalált modell esetében egyértelmű biológiai prototípusok találhatók. Mivel narratívánk nem célja a neurális hálózatok elméletének részletes bemutatása, csak a főbb gondolatok ismertetéséhez szükséges legáltalánosabb pontokat érintjük. A mélyebb megértéshez erősen ajánlom a szakirodalom felé fordulást. Ami engem illet legjobb tankönyv neurális hálózatokon - ez Simon Haykin „Neurális hálózatok. Teljes tanfolyam” (Khaikin, 2006).

Sok neurális hálózati modell a jól ismert hebbi tanulási szabályon alapul. Donald Hebb fiziológus javasolta 1949-ben (Hebb, 1949). Kicsit laza értelmezésben nagyon egyszerű jelentése van: az együtt tüzelõ neuronok közötti kapcsolatokat meg kell erõsíteni, az egymástól függetlenül tüzelõ neuronok közötti kapcsolatokat gyengíteni.
A lineáris összeadó kimeneti állapota felírható:

Ha a súlyok kezdeti értékeit kis értékekkel kezdeményezzük, és bemenetként különféle képeket adunk meg, akkor semmi sem akadályozza meg, hogy megpróbáljuk ezt a neuront Hebb szabálya szerint betanítani:

Ahol n– diszkrét időlépés, – tanulási sebesség paraméter.

Ezzel az eljárással növeljük azoknak a bemeneteknek a súlyát, amelyekre a jel vonatkozik, de ezt tesszük, minél erősebb a aktívabb reakció maga a tanuló neuron. Ha nincs reakció, akkor nem történik tanulás.

Igaz, az ilyen súlyok korlátlanul növekednek, így normalizálást lehet alkalmazni a stabilizáláshoz. Például osszuk el az „új” szinaptikus súlyokból kapott vektor hosszával.

Az ilyen tanulás során a súlyok újraelosztásra kerülnek a szinapszisok között. Könnyebben érthető az újraelosztás lényege, ha két lépésben figyeljük a súlyok változását. Először is, amikor egy neuron aktív, azok a szinapszisok, amelyek jelet kapnak, kiegészítést kapnak. A jel nélküli szinapszisok súlya változatlan marad. Az általános normalizálás ezután csökkenti az összes szinapszis súlyát. Ugyanakkor a jel nélküli szinapszisok veszítenek korábbi értékükhöz képest, a jelekkel rendelkező szinapszisok pedig újraosztják ezeket a veszteségeket egymás között.

A Hebb-szabály nem más, mint a gradiens süllyedés módszerének megvalósítása a hibafelület mentén. Lényegében arra kényszerítjük a neuront, hogy alkalmazkodjon a szolgáltatott jelekhez, súlyát minden alkalommal a hibával ellentétes irányba, vagyis az antigradiens irányába tolva el. Ahhoz, hogy a gradiens süllyedés egy lokális szélsőséghez vezessen, anélkül, hogy túllőnénk rajta, az ereszkedési sebességnek meglehetősen alacsonynak kell lennie. Amit a hebbi tanulásban a paraméter kicsinysége vesz figyelembe.

A tanulási sebesség paraméter kicsinysége lehetővé teszi, hogy az előző képletet sorozatként átírjuk:

Ha elvetjük a másodrendű és magasabb rendű kifejezéseket, megkapjuk Oja tanulási szabályát (Oja, 1982):

A pozitív adalék a hebbi tanulásért, a negatív adalék pedig az általános stabilitásért felelős. Az ebben a formában történő rögzítés lehetővé teszi, hogy átérezhesse, hogyan valósítható meg az ilyen képzés analóg környezetben számítások használata nélkül, csak pozitív és negatív kapcsolatokkal működve.

Szóval, egy ilyen rendkívül egyszerű képzés csodálatos ingatlan. Ha fokozatosan csökkentjük a tanulási sebességet, akkor a betanított neuron szinapszisainak súlya olyan értékekhez fog konvergálni, hogy a kimenete elkezd megfelelni az első főkomponensnek, amelyet akkor kapnánk meg, ha a megfelelő főkomponens-elemzési eljárásokat alkalmaznánk. a megadott adatokat. Ezt a kialakítást Hebb-szűrőnek hívják.

Például tápláljunk be egy pixelképet egy neuron bemenetére, vagyis az idegsejt minden szinapszisához egy képpontot rendelünk. Csak két képet adunk a neuron bemenetére - a középponton áthaladó függőleges és vízszintes vonalak képét. Egy tanulási lépés – egy kép, egy vonal, vízszintes vagy függőleges. Ha ezeket a képeket átlagoljuk, akkor keresztet kapunk. De a tanulási eredmény nem lesz hasonló az átlagoláshoz. Ez lesz az egyik sor. Az, amelyik gyakrabban fog megjelenni a beküldött képek között. A neuron nem az átlagolást vagy a metszéspontot fogja kiemelni, hanem azokat a pontokat, amelyek leggyakrabban együtt fordulnak elő. Ha a képek összetettebbek, előfordulhat, hogy az eredmény nem lesz olyan egyértelmű. De mindig ez lesz a fő összetevő.

A neuron képzése oda vezet, hogy egy bizonyos képet kiemelnek (szűrnek) a skáláján. Amikor új jelet adnak, minél pontosabb egyezés a jel és a súlybeállítások között, annál nagyobb a neuron válasza. A képzett idegsejt detektor neuronnak nevezhető. Ebben az esetben azt a képet, amelyet a skálái leírnak, jellemző ingernek szokták nevezni.

Fő összetevők

A főkomponens módszerének maga az ötlete egyszerű és ötletes. Tegyük fel, hogy eseménysorozatunk van. Mindegyiket az érzékelőkre gyakorolt ​​hatásán keresztül írjuk le, amelyekkel érzékeljük a világot. Tegyük fel, hogy vannak érzékelőink, amelyek leírják a funkciókat. Számunkra minden eseményt dimenzióvektorok írnak le. Egy ilyen vektor minden komponense a megfelelő th attribútum értékét jelzi. Ezek együtt egy valószínűségi változót alkotnak x . Ezeket az eseményeket a -dimenziós tér pontjaként ábrázolhatjuk, ahol a tengelyek lesznek a megfigyelt jelek.

Az értékek átlagolása megadja a valószínűségi változó matematikai elvárását x, jelölése E( x). Ha az adatokat úgy középre állítjuk, hogy E( x)=0, akkor a pontfelhő az origó köré összpontosul.

Ez a felhő bármely irányban megnyúlhat. Minden lehetséges irányt kipróbálva találunk olyat, amely mentén az adatok szórása maximális lesz.

Tehát ez az irány megfelel az első főkomponensnek. Magát a főkomponenst az origóból kiinduló és ezzel az iránnyal egybeeső egységvektor határozza meg.

Ezután találhatunk egy másik, az első komponensre merőleges irányt úgy, hogy ennek mentén a szórás is maximális az összes merőleges irány között. Miután megtaláltuk, megkapjuk a második komponenst. Ezután folytathatjuk a keresést azzal a feltétellel, hogy a már megtalált komponensekre merőleges irányok között kell keresnünk. Ha a kezdeti koordináták lineárisan függetlenek lennének, akkor ezt egyszer megtehetjük, amíg a tér dimenziója véget nem ér. Így kölcsönösen ortogonális komponenseket kapunk, amelyek sorrendje az általuk magyarázott adatok varianciájának hány százaléka szerint történik.

Az így kapott főkomponensek természetesen az adataink belső mintázatait tükrözik. De vannak egyszerűbb jellemzők, amelyek a meglévő minták lényegét is leírják.

Tegyük fel, hogy összesen n eseményünk van. Minden eseményt egy vektor ír le. Ennek a vektornak az összetevői:

Minden jelhez leírhatja, hogyan nyilvánult meg az egyes eseményekben:

A leírás alapjául szolgáló bármely két jellemzőre ki lehet számítani egy értéket, amely megmutatja együttes megnyilvánulásuk mértékét. Ezt a mennyiséget kovarianciának nevezzük:

Megmutatja, hogy az egyik jellemző átlagos értékétől való eltérések hogyan esnek egybe egy másik jellemző hasonló eltéréseivel. Ha a jellemzők átlagos értéke nulla, akkor a kovariancia a következőképpen alakul:

Ha korrigáljuk a kovarianciát a karakterisztikában rejlő szórásokra, akkor lineáris korrelációs együtthatót kapunk, amelyet Pearson-korrelációs együtthatónak is neveznek:

A korrelációs együtthatónak van figyelemre méltó tulajdonság. Az értékeket -1-től 1-ig veszi. Ezenkívül az 1 két mennyiség egyenes arányosságát jelenti, a -1 pedig azok fordított lineáris kapcsolatát.

A jellemzők összes páronkénti kovarianciájából létrehozhatunk egy kovariancia mátrixot, amely, mint jól látható, a szorzat matematikai elvárása:

Tehát kiderül, hogy a fő összetevőkre a következő igaz:

Vagyis a fő komponensek, vagy ahogy más néven faktorok a korrelációs mátrix sajátvektorai. Sajátértékeknek felelnek meg. Sőt, minél nagyobb a sajátérték, annál nagyobb a variancia százaléka, amelyet ez a tényező magyaráz.

Ismerve az összes fő összetevőt, minden egyes eseményhez, amely megvalósítás x , vetületeit felírhatjuk a főkomponensekre:

Így lehetséges az összes kezdeti esemény új koordinátákban, a főkomponensek koordinátáiban ábrázolni:

Általánosságban elmondható, hogy különbséget teszünk a főkomponensek keresési eljárása és a faktorok alapján történő báziskeresés és ennek későbbi rotációja között, ami megkönnyíti a faktorok értelmezését, de mivel ezek az eljárások ideológiailag közel állnak egymáshoz, és hasonló eredményt adnak, ezért a faktorok értelmezését elősegítő eljárást különítjük el. mindkettőt faktoranalízisnek fogja hívni.

A faktoranalízis meglehetősen egyszerű eljárása mögött nagyon mély jelentés húzódik meg. A helyzet az, hogy ha a kezdeti jellemzők tere egy megfigyelhető tér, akkor a tényezők olyan jellemzők, amelyek bár a környező világ tulajdonságait írják le, általános esetben (ha nem esnek egybe a megfigyelt jellemzőkkel) rejtett entitások. Vagyis a faktoranalízis formális eljárása lehetővé teszi, hogy a megfigyelhető jelenségektől a jelenségek detektálása felé haladjunk, bár közvetlenül láthatatlanok, de mégis léteznek a környező világban.

Feltételezhető, hogy agyunk aktívan használja a tényezők kiválasztását a körülöttünk lévő világ megértésének egyik eljárásaként. A tényezők azonosításával lehetőséget kapunk arra, hogy új leírásokat alkossunk arról, hogy mi történik velünk. Ezeknek az új leírásoknak az alapja az azonosított tényezőknek megfelelő jelenségek kifejeződése a történésekben.

Hadd magyarázzam el egy kicsit a tényezők lényegét a hétköznapi szinten. Tegyük fel, hogy Ön emberi erőforrás menedzser. Sokan eljönnek Önhöz, és mindegyiküknek kitöltenek egy űrlapot, ahol különféle megfigyelhető adatokat rögzítenek a látogatóról. A jegyzetek későbbi áttekintése után előfordulhat, hogy egyes grafikonok bizonyos kapcsolatban állnak egymással. Például a férfi hajvágások átlagosan rövidebbek lesznek, mint a nőké. Valószínűleg csak a férfiak körében találkozik kopaszokkal, és csak a nők viselnek rúzst. Ha a faktoranalízist a személyes adatokra alkalmazzuk, akkor a nem lesz az egyik olyan tényező, amely egyszerre több mintát magyaráz. A faktoranalízis azonban lehetővé teszi, hogy megtalálja az összes olyan tényezőt, amely megmagyarázza az adathalmaz összefüggéseit. Ez azt jelenti, hogy a megfigyelhető nemi tényezőn kívül más tényezők is lesznek, köztük implicit, nem megfigyelhető tényezők. És ha a nem kifejezetten szerepel a kérdőívben, akkor egy másik fontos tényező sorok között marad. Az emberek gondolatkifejezési képességének felmérésével, pályafutásuk sikerességének felmérésével, diploma érdemjegyeinek és hasonló jeleinek elemzésével arra a következtetésre jut, hogy van egy általános értékelés az ember intelligenciájáról, ami nincs kifejezetten leírva a kérdőívben, de ami sok pontját megmagyarázza. Az intelligenciaértékelés a rejtett tényező, a nagy magyarázó hatású fő összetevő. Ezt a komponenst nem figyeljük meg kifejezetten, de rögzítjük a vele korrelált jeleket. Élettapasztalat birtokában tudat alatt bizonyos jellemzők alapján képet alkothatunk beszélgetőpartnerünk intelligenciájáról. Az eljárás, amit agyunk ebben az esetben használ, lényegében a faktoranalízis. Megfigyelve, hogyan jelennek meg egyes jelenségek együtt, az agy formális eljárással azonosítja a tényezőket a körülöttünk lévő világban rejlő stabil statisztikai minták tükröződéseként.

Tényezők halmazának azonosítása

Megmutattuk, hogyan választja ki a Hebb-szűrő az első főkomponenst. Kiderült, hogy a neurális hálózatok segítségével nem csak az első, hanem az összes többi összetevőt is könnyedén megszerezheti. Ezt például a következő módon lehet megtenni. Tegyük fel, hogy vannak bemeneti jellemzőink. Vegyünk lineáris neuronokat, ahol .

Általános Hebb-algoritmus(Khaikin, 2006)

Az első neuront Hebb-szűrőnek fogjuk képezni, így az kiválasztja az első főkomponenst. De minden következő neuront egy jelre fogunk képezni, amelyből kizárjuk az összes korábbi komponens befolyását.
Neuronális aktivitás egy lépés során n azt jelenti

A szinoptikus súlyok korrekciója pedig olyan

ahol 1-től -ig és 1-től -ig.

Ez minden neuron esetében a Hebb-szűrőhöz hasonló tanulásnak tűnik. Az egyetlen különbség az, hogy minden következő neuron nem látja a teljes jelet, hanem csak azt, amit az előző neuronok „nem láttak”. Ezt az elvet nevezzük újraértékelésnek. Valójában visszaállítjuk az eredeti jelet egy korlátozott komponenskészletből, és arra kényszerítjük a következő neuront, hogy csak a maradékot, az eredeti és a visszaállított jel közötti különbséget lássa. Ezt az algoritmust általánosított Hebb-algoritmusnak nevezik.

Ami nem teljesen jó az általánosított Hebb-algoritmusban, az az, hogy túlságosan „számítógépes” jellegű. A neuronokat meg kell rendelni, aktivitásukat szigorúan egymás után kell számolni. Ez nem nagyon egyeztethető össze az agykéreg működési elveivel, ahol az egyes neuronok, bár interakcióba lépnek a többiekkel, önállóan működnek, és ahol nincs egyértelműen meghatározott „központi processzor”, amely meghatározná az események teljes sorrendjét. Ezen okok miatt a dekorrelációs algoritmusoknak nevezett algoritmusok valamivel vonzóbbnak tűnnek.

Képzeljük el, hogy két Z 1 és Z 2 neuronrétegünk van. Az első réteg neuronjainak aktivitása egy bizonyos képet alkot, amely az axonok mentén a következő rétegre vetül.


Egyik réteg vetítése a másikra

Most képzeljük el, hogy a második réteg minden neuronja szinaptikus kapcsolatban áll az első rétegből származó összes axonnal, ha ezek a neuron egy bizonyos szomszédságán belül esnek (az alábbi ábra). Az ilyen területre belépő axonok alkotják a neuron receptív mezőjét. A neuron receptív mezője az általános aktivitás azon töredéke, amely megfigyelésre rendelkezésére áll. Minden más egyszerűen nem létezik ennél a neuronnál.

kívül befogadó mező neuron, egy kicsit kisebb területet vezetünk be, amit elnyomási zónának nevezünk. Kössünk össze minden neuront a szomszédaival, amelyek ebbe a zónába esnek. Az ilyen kapcsolatokat laterálisnak vagy a biológiában elfogadott terminológiát követve laterálisnak nevezzük. Az oldalsó kapcsolatokat tegyük gátlóvá, azaz csökkenti a neuronok aktivitását. Munkájuk logikája az, hogy egy aktív neuron gátolja mindazon neuronok aktivitását, amelyek a gátlási zónájába esnek.

A serkentő és gátló kapcsolatok szigorúan eloszthatók minden axonnal vagy neuronnal a megfelelő területek határain belül, vagy véletlenszerűen is megadhatók, például egy bizonyos centrum sűrű kitöltésével és a kapcsolatok sűrűségének exponenciális csökkenésével. távolodik tőle. A folyamatos töltés a modellezés szempontjából könnyebben anatómiailag anatómiailag alkalmazható a valódi kéregben lévő kapcsolatok szerveződése szempontjából.

A neuronaktivitási függvény felírható:

ahol a végső aktivitás, a kiválasztott neuron receptív területére eső axonok halmaza, azon neuronok halmaza, amelyek elnyomási zónájába a kiválasztott neuron esik, és a megfelelő oldalirányú gátlás erőssége, amely negatív értékeket vesz fel.

Ez az aktivitási függvény rekurzív, mivel a neuronok aktivitása egymástól függ. Ez ahhoz a tényhez vezet, hogy a gyakorlati számításokat iteratív módon hajtják végre.

A szinaptikus súlyok edzése a Hebb-szűrőhöz hasonlóan történik:

Az oldalsó súlyok az anti-Hebbian szabály szerint tanulnak, növelve a „hasonló” neuronok közötti gátlást:

Ennek az elrendezésnek az a lényege, hogy a hebbi tanulásnak az idegsejt skáláján az értékek kiosztásához kell vezetnie, amely megfelel a szolgáltatott adatok első fő jellemzőjének. De egy neuron csak akkor képes tanulni bármely tényező irányában, ha az aktív. Amikor egy neuron elkezd kiválasztani egy faktort, és ennek megfelelően reagál rá, elkezdi blokkolni az elnyomási zónájába eső neuronok aktivitását. Ha több neuron verseng az aktiválásért, akkor a kölcsönös versengés oda vezet, hogy a legerősebb idegsejt nyer, míg az összes többit elnyomja. Más neuronoknak nincs más választásuk, mint tanulni azokban a pillanatokban, amikor nincsenek szomszédok a közelben. magas aktivitás. Így dekorreláció lép fel, vagyis a területen belül minden neuron, amelynek méretét az elnyomási zóna mérete határozza meg, elkezdi kiemelni a saját, az összes többire ortogonális tényezőjét. Ezt az algoritmust adaptív főkomponens-kivonási (APEX) algoritmusnak nevezik (Kung S., Diamantaras K.I., 1990).

Az oldalirányú gátlás gondolata lélekben közel áll a különféle modellekből jól ismert „győztes mindent visz” elvhez, amely lehetővé teszi annak a területnek a díszítését is, ahol a győztest keresik. Ezt az elvet alkalmazzák például a Fukushima neocognitron, Kohanen önszerveződő térképei, és ezt az elvet alkalmazzák Jeff Hawkins jól ismert hierarchikus időbeli memóriájának képzésében is.

A győztes a neuronok aktivitásának egyszerű összehasonlításával határozható meg. De egy ilyen, számítógépen könnyen megvalósítható keresés némileg összeegyeztethetetlen a valódi kéreggel való analógiákkal. De ha azt a célt tűzi ki, hogy mindent a neuronok közötti interakció szintjén tegyen meg külső algoritmusok bevonása nélkül, akkor ugyanazt az eredményt érheti el, ha a szomszédok oldalirányú gátlása mellett a neuron pozitív Visszacsatolás, ami izgatja őt. Ezt a technikát a győztes megtalálására használják például a Grossberg adaptív rezonancia hálózatokban.

Ha egy neurális hálózat ideológiája ezt megengedi, akkor a „győztes mindent visz” szabály alkalmazása nagyon kényelmes, hiszen a maximális aktivitás keresése sokkal egyszerűbb, mint a tevékenységek iteratív számítása a kölcsönös gátlás figyelembevételével.

Ideje befejezni ezt a részt. Elég hosszúnak bizonyult, de nagyon nem akartam feldarabolni a jelentésben összefüggő narratívát. Ne lepődj meg a KDPV-n, ez a kép nekem egyszerre asszociált mesterséges intelligenciaés a fő tényezővel.

Ez a cikk - többnyire orosz nyelvű - anyagokat tartalmaz alaptanulmány mesterséges idegi hálózat.

A mesterséges neurális hálózat vagy az ANN egy matematikai modell, valamint annak szoftveres vagy hardveres kiviteli alakja, amely a biológiai neurális hálózatok - hálózatok - szervezésének és működésének elvén épül fel. idegsejtekélő organizmus. A neurális hálózatok tudománya meglehetősen régóta létezik, de ez a terület éppen a tudományos és technológiai fejlődés legújabb vívmányaival összefüggésben kezd népszerűvé válni.

Könyvek

Kezdjük a kiválasztást azzal klasszikus módon tanulás – könyvek segítségével. Orosz nyelvű könyvekből válogattunk nagy mennyiség példák:

  • F. Wasserman, Neurocomputer technológia: elmélet és gyakorlat. 1992
    A könyv nyilvánosan hozzáférhető formában bemutatja a neurokomputerek építésének alapjait. A neurális hálózatok szerkezetét ismertetjük és különféle algoritmusok beállításaik. Külön fejezetek foglalkoznak a neurális hálózatok megvalósításával.
  • S. Khaikin, Neurális hálózatok: Teljes tanfolyam. 2006
    Itt a mesterséges neurális hálózatok főbb paradigmáit tárgyaljuk. A bemutatott anyag az összes neurális hálózati paradigma szigorú matematikai indoklását tartalmazza, példákkal, számítógépes kísérletek leírásával illusztrálva, számos gyakorlati problémát, valamint kiterjedt bibliográfiát tartalmaz.
  • D. Forsythe, Computer Vision. Modern megközelítés. 2004
    A számítógépes látás az egyik legkeresettebb terület a világon. ezen a ponton globális digitális számítógépes technológiák fejlesztése. Szükséges a gyártásban, a robotvezérlésben, a folyamatautomatizálásban, az orvosi és katonai alkalmazásokban, a műholdas megfigyelésben és a számítógépekben személyi számítógépek, különösen digitális képek keresése.

Videó

Nincs elérhetőbb és érthetőbb, mint a videó segítségével történő vizuális tanulás:

  • Ha szeretné megérteni, mi a gépi tanulás általában, nézze meg itt ez a két előadás a Yandex ShaD-től.
  • Bevezetés a neurális hálózatok tervezésének alapelveibe – kiválóan alkalmas a neurális hálózatok megismerésének folytatására.
  • Előadás tanfolyam a „Számítógépes látás” témában a Moszkvai Állami Egyetem Számítástechnikai Bizottságától. A számítógépes látás olyan mesterséges rendszerek létrehozásának elmélete és technológiája, amelyek észlelik és osztályozzák az objektumokat képeken és videókon. Ezek az előadások bevezetőnek tekinthetők ehhez az érdekes és összetett tudományhoz.

Oktatási források és hasznos linkek

  • Mesterséges intelligencia portál.
  • Laboratórium „Én vagyok az intelligencia”.
  • Neurális hálózatok a Matlabban.
  • Neurális hálózatok Pythonban (angol):
    • Szöveg osztályozása a ;
    • Egyszerű .
  • Neurális hálózat bekapcsolva.

Kiadványaink sorozata a témában

Korábban már publikáltunk egy tanfolyamot #neuralnetwork@tproger neurális hálózatokon. Ebben a listában a kiadványok tanulmányozási sorrendben vannak elrendezve az Ön kényelme érdekében.

S. Khaikin újonnan lefordított alapvető tankönyve (a második 1999-es amerikai kiadást is lefordították) a neuroinformatikai orosz szakirodalom 2006-os eseményének vallja magát. De meg kell jegyezni, hogy bár a fordítás nyilvánvaló hibák nélkül történt, a lábjegyzetek és a fordítók megjegyzései nem ártanak a terminológia tisztázásához (mivel ugyanazt a neuroinformatikában, statisztikában és rendszerazonosításban más szavakkal nevezhetjük, vagy a kifejezések egy területre való szűkítése, vagy szinonimák felsorolása szükséges – nem minden olvasónak lesz széles látóköre). A hozzászólások tükrözhetik a mesterséges neurális hálózatok terén az angol nyelvű eredeti megjelenése óta elért előrehaladást is. Remélem, hogy a könyvre lesz kereslet, és a kiadás utáni kiadásakor változások lesznek. Sőt, a matematikai képletekben is jelentős számú elírás van. Ez az oldal elsősorban az elírások kijavítására szolgál. De meg kell jegyezni, hogy nem garantálom az itt közölt pontatlanságok listájának teljességét - a könyvet „átlósan” olvastam, kezdésekkel és változó mértékben figyelem, szóval lehet, hogy kihagytam valamit (vagy magam is hibáztam).

1. fejezet

  • 32. o. második bekezdés. Csak itt a „teljesítmény” szó alatt a működési sebességet, a számítógép teljesítményét érthetjük. Később a könyvben a „teljesítmény” a pontosságot, a neurális hálózat munkájának minőségét fogja jelenteni (például a 73. oldalon alulról a második bekezdésben).
  • P.35 7.o. A „VLSI Implementability” kifejezést jobb nem „skálázhatóságnak”, hanem „hatékony megvalósíthatóságnak a VLSI-n – nagyon nagyméretű integrált áramkörökön” fordítani.
  • P.39 7.o. A „spike” szót - „kibocsátás, impulzus” az orosz nyelvű idegtudományban gyakran és általában egyszerűen „tüskeként” írják át.
  • P.49 bekezdés címe. Talán jobb kifejezés lenne az "irányított gráf" az "irányított gráf" helyett.
  • P.76 harmadik bekezdés. A link helyett valószínűleg Ashby könyvére mutató link kellene.
  • 99. o. következtetés 1. Szintén hozzá kell adni az azonos feltételek egyidejű kielégítésének esetét a " jellel
  • 105. o. 2. bekezdés. A (látható) elé be kell illesztenie a „látható” szót.

2. fejezet

  • P.94 2. lábjegyzet. A hivatkozás nagy valószínűséggel hibás, mert Ez nem egy könyv, és a cím sem igazán illik hozzá.
  • P.122 utolsó bekezdés. Nevettem a „neuronok szerkezetének deformációja” kifejezésen: amíg az agyrázkódás külső eseménye nem teljesül, az ember nem fog emlékezni erre az eseményre. Valószínűleg azt állították, hogy a memória csak a szinaptikus bemenetek (terminálok) leválasztásával a dendritek csápjairól vagy az egyik csápról a másikra való átkapcsolással valósul meg (az 1.2. ábra kifejezései a 40. oldalon, mivel ez az ábra illusztrálásra alkalmas). . Azok. Agyunk él és mozog.
  • P.129 képlet (2.39). Ahelyett x ott kell lennie x.
  • P.129 képletek (2.40), (2.41), (2.44). A felső indexnek így kell lennie q ahelyett m.
  • P.137 első bekezdés és a (2.61) képlet. Az E-t dőlt betűvel kell írni. És a (2,64), (2,65), (2,67), (2,68) képletekben is a 138. oldalon.
  • P.142 képlet (142). Adjon hozzá 0-t az első nyíl után.
  • P.142 utolsó bekezdés. Előtt az utolsó szó illessze be a "mínuszt".
  • 147. o. első bekezdés. | L|=l. Azok. változó l a kifejezés jobb oldalán dőlt betűvel kell megadni (mivel a könyvben szereplő változat összetéveszti az eggyel).
  • P.151 képlet (2.90). Illessze be a felső vonalba a göndör merevítő után F.
  • C.151 képlet (2.91). Előtte illessze be a "at"-t N.
  • C.160 utolsó bekezdés a lábjegyzetben. A „kis mennyiséghez” kifejezést a „nagy mennyiséghez” kifejezéssel kell helyettesíteni.

3. fejezet

  • P.173 3.1. ábra. A változókat a könyvben elfogadott jelölésnek megfelelően dőlt betűvel kell megadni, mert ezek a változók skalárisak.
  • P.176 képletek (3.5), (3.7). Kell, hogy legyen w* ahelyett w* .
  • C.176 utolsó sor. Valószínűleg hivatkoznia kell, bár ez a probléma a megadottnál is megfontolható.
  • 179. o. lábjegyzet. A következőnek kell lennie: "f(w) származéka w-hez képest"
  • P.180 utolsó sor a lábjegyzet előtt. Lehet, hogy jobb lenne helyette használni, de lehet, hogy a hivatkozás helytelen.
  • P.184 köztes kifejezés a (3.30) képlet felső sorában. Ahelyett x(n) kellene x(én)
  • P.200 bekezdés a (3.59) képlet után. Nevetett a "Gucci-Schwartz egyenlőtlenségen". Ott kellene lennie a Cauchy-Schwarz egyenlőtlenségnek, amit mindenki ismer az egyetemi kurzusból.
  • P.204 A 3.10. szakasz első bekezdése egy Bayes-osztályozó lineáris elválasztóvá alakításáról szól Gauss-környezetben. Ez arra a feltételre vonatkozik, hogy mindkét osztály kovariancia mátrixa azonos (a 207. oldalon lévő részben lesz bemutatva), de amikor meghallom a „Gauss-környezet” kifejezést, általában két normális eloszlás általánosított helyzetére emlékszem tetszőleges kovariancia mellett. mátrixok, amikor Bayes nem degenerálódik lineáris elválasztóvá, hanem négyzetes osztófelületet ad.
  • P.206 képlet (3.77). Ezután a képletben jelzett λ helyett többször Λ lesz kinyomtatva a szövegben és a 3.10. ábrán.
  • P.216 feladat 3.11. Ami az összeg felső határában van megadva, azt az összeg jele alá kell mozgatni (és az összeg elé tehető a mínusz). A képlet utáni bekezdésben is, ahelyett w T x ott kell lennie w T x

4. fejezet

Megjegyzésem a fejezethez: egy rémálom, aki kezdő a neurális hálózatokban és optimalizálási módszerekben, még a fejezet többszöri elolvasása és ismételt próbálkozások (akár szándékosan, akár véletlenszerűen) után sem valószínű, hogy megfelelően programozza a neurális hálózat képzését a backpropagation segítségével. módszer. Legalábbis, ha csak a tartományi műszaki egyetemek hallgatóit veszem figyelembe, hajlandó vagyok erről meglehetősen nagy téttel vitatkozni. Az előadás a szükséges és a felesleges dolgokat is egy kupacba keverte, nem hangsúlyozva és túlbonyolítva a prezentációt (az eljárások lépésről lépésre történő kiegészítése helyett „mindent vagy semmit” megközelítéssel). Plusz sok empiria. Miért nem egyszerűen felvázoljuk egy komplex függvény gradiensének kiszámításának módszerét (egy neurális hálózat plusz egy célfüggvény a kimenetén, és ha szükséges, a neurális hálózat tulajdonságai felett), majd a 6. fejezethez hasonlóan a gradiensre irányítja az olvasókat korlátozások nélküli optimalizációs módszereket (a 6. fejezetben a másodfokú programozási módszerekre utalunk), és számos történelmi példát vázol fel a hálózat által számított gradiensek helyes és helytelen megközelítésére a gradiens optimalizálás elmélete és a konvergencia sebesség maximalizálása szempontjából. (tanulási arány).

Milyen további dolgokat szeretne látni a fejezetben (vagy könyvben). Először is, a legkisebb négyzeteken kívüli célfüggvények, különösen egy osztályozó hálózat betanításához (például keresztentrópia függvény). Másodszor, a több tagból álló célfüggvény lehetőségének világosabb kiemelése: a Tyihonov-féle regularizáció példájával az explicit minimalizálás révén, a hibaérték mellett a hálózati kimeneti jelek skaláris négyzetes gradiensének is. szinapszis súlyok (LeCun és Drucker 1991-92 közös munkája), akár Hochreiter és Schmidhuber Flat minina keresési módszerének példájával, akár Andreas Weigend és munkatársai a hálózati bemeneti jelek tisztításának CLearning módszerével. Harmadszor, a hálózatban a második derivált számítási lehetőségének részletesebb leírása (LeCun és Drucker jelzett munkái, az áttekintésben felsorolt ​​módszerek). Negyedszer, az információtartalom és hasznosság számítási módszereinek részletesebb leírása különböző elemekés a hálózatban lévő jelek (azaz a bemenetek információtartalmának meghatározása, a könyvben leírt módszerekkel nemcsak a szinapszisok, hanem a teljes neuronok redukálásának lehetősége, és még egy rakás módszer létezik a szinapszisok csökkentésére). Ötödször, explicit utalás van (az olvasók maguktól nem fogják kitalálni), hogy a hálózat bemeneti jelei segítségével ki lehet számítani a gradienst (a direkt probléma megoldására betanított neurális hálózatok inverz problémáinak megoldására, a Ctanulási módszer). Ezenkívül ebben és más fejezetekben, ahol a felügyelt tanulás feladata felmerül, írja le részletesebben a neurális hálózatok tanulási görbéinek ötletét.

5. fejezet

  • P.357 (5.23) képlet után. Több oldalon tovább E lehet dőlt vagy félkövér, és az írásmód megváltoztatása meglehetősen véletlenszerű. Helyesebben - dőlt betűvel, for E(F), E s(F), E c (F), E(F,h).
  • P.361 képlet (5.31). Index helyett H ott kell lennie H .
  • P.363 utolsó bekezdés. "...lineáris kombinációval..." a "...lineáris szuperpozícióval..." helyett.
  • P.364 képlet (5.43). Távolítsa el az 1/λ-t.
  • P.367 képlet (5.59). σ δ helyett.
  • P.369 (5.65) képlet után. A "lineáris szuperpozíció" helyett ismét "lineáris kombináció"-nak kell lennie.
  • P.373 (5.74) képlet harmadik sora. Szúrjon be egy nyitó zárójelet a második elé t én .
  • P.382 képlet (5.112). Az összeg alsó határához adja hozzá a „nem egyenlő k".
  • P.390. szakasz címe 5.12. Az orosz nyelvű tudományban a „kernel regresszió” helyett általában a „nem-paraméteres regresszió” (az oroszul így hívják ezt a statisztikai módszert) vagy a „kernel regresszió” (ha fordítva „fejjel”) kifejezéseket használják.
  • P.393 képlet (5.135). A következő oldalon illessze be a „...for all...” (5.139) szerint.
  • P.399 „középső” bekezdés. "...clustering algoritmus by k-átlagos...”, akkor az „átlagos” szó már nem kerül kihagyásra.
  • P.403 számozatlan lista. A szerzők túl globális és egyértelmű következtetéseket vonnak le egy kísérletből, bár nagyrészt egyetértenek.
  • A P.404 az első elem a listán. Nem értem, főleg ami a "bemeneti paraméterekre gyakorolt ​​hatást" illeti. Inkább mint több értéketλ, annál kevésbé befolyásolják az adatok általában a modell végső tulajdonságait.
  • P.408 első bekezdés. A link kérdéses, talán működni fog.
  • P.408 2. bekezdés 6. sora. Az „alapfunkció” helyett az „alapfunkció”.

6. fejezet

  • P.431 utolsó mondat a 6.4. szakasz előtt. Nem értettem a javasolt választás „jobbságát” a mintaátlagon keresztül (és úgy tűnik, a helyes választás b 0 nem lesz lehetséges).
  • P.434 képlet (6.35). Index én az utolsó x nem szabadna lennie.
  • P.435 számozatlan formulák Mercer tételében. ψ helyett φ legyen.
  • P.444 lábjegyzet. A Huber vezetéknevet korábban Hubernek fordították oroszra, nem pedig Haberre (például a Szovjetunió alatti könyvének fordítása: Huber, „Robustness in Statistics”).

7. fejezet (nem teljesen)

  • P.459 harmadik sor felülről. A „gyenge tanulási algoritmus” kifejezés definíciója a 467. oldalon található fentről a második bekezdésben.
  • P.459 számozatlan albekezdések a 2. bekezdésben. A „gateway network” kifejezés a „kapuhálózat” kifejezés fordításaként túlságosan ügyetlen, de oroszul még nincs más (és jó) lehetőség. Valószínűleg jobb lenne a „súlyozó hálózat” kifejezést használni, amely univerzális mind kemény kapcsolás esetén (0-s vagy 1-es szorzó a vezérelt jelnél), mind a csillapítási együttható lágy szabályozásánál (szorzók a tartományból).
  • 463. o.2. Ebből a mondatból eltávolítjuk a „nem” részt - az együttes szórása kisebb, mint az egyes funkciók szórása.
  • P.471 első sorok. Az eredeti erősítési módszer „teljesítménye” (emlékeztessünk arra, hogy a „teljesítmény” itt nem a sebesség, hanem a megoldás és az általánosítás pontossága – lásd kommentárunkat a 32. oldalon) is függ. működése során kialakult elosztásokról a második és az azt követő szakértők számára.
  • P.472 táblázat 7.2 utolsó sor. Kell, hogy legyen F uszony ( x)=…

Bibliográfia

  • Sokszor az alkalmazás, közelítés, megközelítés, alkalmazott, támogatás, leképezés, alkalmazhatóság, felső szavakat eggyel írják p.
  • . Helyes írás Az egyik szerző neve látható a.
  • . Helyes vezetéknév Muller – akár a névrokonja.
  • . Első szerző - B u ntine.
  • . Ugyanabban a NIPS-ben jelent meg, mint a .
  • . Az utolsó szerző neve helyesen szerepel.
  • . Gyenge kell a hét helyett.
  • . Az utolsó szerző neve helyesen szerepel a -ban.
  • . Először - Landa u.
  • . Ez egy fejezet egy könyvben.
  • . Sch ö lkopf.
  • . A címben - „…bia s kifejezés". Helyesen van írva a másolatban.
  • . A címben - "…gamm tovább".
  • . Ismétlés.


Kapcsolódó kiadványok