Un viatge des de 1957 fins l'actualitat
La història de les xarxes neuronals artificials està plena de moments emocionants, descobriments revolucionaris i també períodes d'oblit. Anem a veure els moments clau que van portar-nos fins aquí! 🚀
Frank Rosenblatt, psicòleg i informàtic nord-americà, inventa el perceptró.
Què va fer?
💬 "El perceptró és un aparell electrònic que aprèn pel seu compte" - Frank Rosenblatt
Marvin Minsky i Seymour Papert publiquen el llibre "Perceptrons".
Què van demostrar?
☃️ Hivern de la IA (1969-1980s)
Període on la recerca en xarxes neuronals gairebé es va aturar per falta de finançament i interès.
Rumelhart, Hinton i Williams popularitzen l'algoritme de backpropagation.
Què va canviar?
🔄 Backpropagation ensenya a la xarxa ajustant els pesos des de la sortida cap enrere!
Les xarxes neuronals profundes revolucionen el món amb aplicacions increïbles.
Aplicacions actuals:
💡 Tot va començar amb el perceptró!
El que avui sembla màgia són milions de perceptrons treballant junts.
El perceptró semblava massa simple el 1969, però en combinar-los amb capes ocultes i backpropagation, van acabar canviant el món! Això que aprendràs avui és la base de la IA moderna. 🚀
La neurona artificial més simple: aprèn a classificar amb una línia recta
El perceptró és la neurona artificial més simple, inventada per Frank Rosenblatt el 1957. És capaç d'aprendre a classificar dades en dues categories diferents (per exemple: aprovar/suspendre, sí/no, 0/1).
Al gràfic pots veure:
La línia representa l'equació: w₁·x₁ + w₂·x₂ + b = 0
Procés d'aprenentatge:
η (eta) és la taxa d'aprenentatge: controla quan ràpid aprèn el perceptró.
Pesos (w₁, w₂):
Biaix (b):
Són portes lògiques bàsiques de la informàtica:
✓ AND (I)
Retorna 1 només si ambdues entrades són 1
✓ OR (O)
Retorna 1 si almenys una entrada és 1
✗ XOR (O Exclusiu)
Retorna 1 si les entrades són diferents
⚠️ El perceptró NO pot aprendre XOR!
💡 Limitació important: El perceptró només pot resoldre problemes linealment separables (que es poden separar amb una línia recta). XOR no ho és, per això necessitem xarxes neuronals més complexes!
Compara les prediccions abans i després d'entrenar:
| Entrada | Esperat | Predicció | ✓ |
|---|
Exemple pràctic:
Exemples ràpids:
Predicció:
?
Suma ponderada: 0.00
La línia blava mostra la frontera de decisió. Els punts són els exemples d'entrenament.
| Època | Entrada | Esperat | Predicció | Error | w₁ | w₂ | bias |
|---|
Les files verdes indiquen prediccions correctes. Les files vermelles indiquen errors.
Resol XOR amb 5 neuronas (2-2-1) i backpropagation
Una xarxa neuronal multicapa té capes ocultes entre l'entrada i la sortida. Això li permet aprendre patrons no lineals que el perceptró simple no pot resoldre, com el problema XOR.
El problema XOR:
| x₁ | x₂ | XOR | Significat |
|---|---|---|---|
| 0 | 0 | 0 | Iguals → 0 |
| 0 | 1 | 1 | Diferents → 1 |
| 1 | 0 | 1 | Diferents → 1 |
| 1 | 1 | 0 | Iguals → 0 |
El problema:
💡 Descobriment de 1969: Marvin Minsky i Seymour Papert van demostrar matemàticament que el perceptró no pot resoldre XOR. Això va causar el primer "hivern de la IA".
Com funciona una xarxa 2-2-1:
✅ Resultat: La xarxa crea una frontera de decisió no lineal (corba) que pot separar correctament els punts de XOR!
Elements visuals:
Neurones (cercles)
Color indica activació: Blau=0 → Verd=1
Connexions verdes (pesos positius)
Més gruixut = més important. Reforça la senyal.
Connexions vermelles (pesos negatius)
Més gruixut = més important. Inhibeix la senyal.
Números sota les neurones
Valor d'activació actual (entre 0 i 1)
El gràfic mostra com aprèn la xarxa durant l'entrenament:
📊 Bon entrenament: La corba baixa ràpidament i s'estabilitza prop de 0.
⚠️ Mal entrenament: La corba es queda alta o oscil·la molt.
Backpropagation (retropropagació) és l'algoritme d'aprenentatge de les xarxes neuronals.
Analogia simple:
Procés tècnic:
🎓 Descobriment de 1986: Rumelhart, Hinton i Williams van popularitzar backpropagation, resolent el problema de com entrenar xarxes multicapa. Això va relançar la recerca en IA.
📊 Taxa d'Aprenentatge (Learning Rate)
La taxa d'aprenentatge controla quant canvien els pesos en cada pas d'entrenament.
Analogia del cotxe:
Imagina que condueixes amb els ulls tancats cap a un aparcament:🔁 Èpoques (Epochs)
Una època és un cicle complet d'entrenament amb tots els exemples del dataset.
Analogia de l'estudi:
Per què necessitem moltes èpoques?
💡 Al simulador: Si tries 5,000 èpoques, la xarxa veurà els 4 exemples de XOR un total de 20,000 vegades (5,000 × 4)!
🎯 Com es combinen?
| Taxa | Èpoques | Resultat |
|---|---|---|
| 0.1 (baixa) | 1,000 | ⚠️ Pot no convergir |
| 0.5 (mitjà) | 5,000 | ✅ Bon equilibri |
| 2.0 (alta) | 10,000 | ❌ Pot oscil·lar |
Experimenta amb diferents combinacions per veure-ho!
La nostra xarxa 2-2-1 pot aprendre patrons no lineals del món real. Aquí tens exemples concrets:
🎯 Això és XOR! El llum s'encén quan els interruptors estan en posicions diferents. La nostra xarxa pot aprendre aquest patró!
🎯 Patró no lineal! Només una combinació específica obre la porta. Un perceptró NO podria aprendre això, però la nostra xarxa SÍ!
🎯 Útil en sensors! Monitoratge de maquinària, detecció d'anomalies, sistemes d'alerta... Tot això és XOR!
🎯 Fonamental en informàtica! WiFi, USB, discos durs... tots usen XOR per detectar errors en les dades transmeses.
Aquests 4 exemples del món real tenen EXACTAMENT el mateix patró matemàtic que XOR. Un perceptró simple NO pot resoldre cap d'aquests problemes (només pot traçar línies rectes). Però la nostra xarxa de 5 neurones pot aprendre TOTS aquests patrons!
✨ Aquest és el poder de les capes ocultes i backpropagation!
Controla la velocitat dels ajustos de pesos
Cicles complets de repàs de tots els exemples
⚠️ Què fa el botó taronja?
Entrena amb només 50 èpoques per mostrar com una xarxa mal entrenada pot fallar en les prediccions.
XOR retorna 1 si les entrades són diferents, 0 si són iguals.
Exemples ràpids:
Predicció:
?
Valor continu: 0.000
🎨 Llegenda visual:
Prova els exemples de sota per veure com s'activen les neurones!
📊 Com interpretar el gràfic:
Comparació visual: limitacions del perceptró vs capacitat de xarxes multicapa
No pot resoldre-ho!
El problema:
Sí pot resoldre-ho!
La solució:
El 1969, Marvin Minsky i Seymour Papert van demostrar matemàticament que el perceptró no pot resoldre problemes no linealment separables com XOR. Aquesta descoberta va causar el primer "Hivern de la IA" i va paralitzar la recerca durant gairebé dues dècades.
Però el 1986, l'algoritme de backpropagation va demostrar que les xarxes multicapa sí podien resoldre XOR i problemes molt més complexos. Aquest descobriment va relançar la IA i és la base del deep learning modern.
Explicació intuïtiva de les matemàtiques darrere del backpropagation
Una derivada mesura què tan ràpid canvia alguna cosa. És com preguntar: "Si moure aquest botó una mica, quant canvia el resultat?"
💡 Interactiu:
Mou el cursor sobre el gràfic per veure com canvia la pendent (derivada) en cada punt de la corba sigmoid.
🔵 Corba Blava (Sigmoid)
La funció d'activació que utilitzen les neurones. Transforma qualsevol número en un valor entre 0 i 1.
🟠 Corba Taronja (Derivada)
Mostra "què tan sensible" és la neurona en cada punt. Màxima al centre (0.5), mínima als extrems (0 o 1).
La xarxa necessita saber: "Si canvio aquest pes una mica, l'error puja o baixa? Quant?"
La derivada ens dóna exactament aquesta informació:
Imagina que estàs en una muntanya amb els ulls tancats i vols baixar a la vall:
🎓 Això s'anomena "descens del gradient" (gradient descent) - l'algoritme bàsic del machine learning!
σ'(x) = σ(x) × (1 - σ(x))
Aquesta és la derivada de la funció sigmoid. Sembla complicada, però ja està calculada matemàticament - nosaltres només l'apliquem!
🧮 Què significa?
💡 Optimització Important:
Fixa't que per calcular la derivada només necessitem la sortida sigmoid, no l'entrada original! Això fa backpropagation molt eficient.
L'evolució de xarxes neuronals: dels teus 13 paràmetres als bilions de la IA moderna
ChatGPT, Claude, DALL-E utilitzen exactament els mateixos principis que has après avui:
La senyal flueix cap endavant per les capes
L'error es propaga enrere per aprendre
Buscar el mínim de l'error
Sigmoid, ReLU, etc.
🎓 La única diferència és l'ESCALA: més neurones, més dades, més potència de càlcul!
Si cada paràmetre de la nostra xarxa fos 1 gra d'arròs:
Diferència de paràmetres:
Com flueix la informació per la xarxa
Com aprèn la xarxa dels seus errors
Com les neurones prenen decisions
Com trobar la solució òptima
Això és EXACTAMENT el que utilitza ChatGPT, Claude i tota la IA moderna! 🤯
La única diferència és l'escala.
Has passat de veure una "caixa negra" misteriosa a comprendre els fonaments de la tecnologia que està canviant el món.
Desenvolupat amb ❤️ i Claude code; utilitzant JavaScript Vanilla i Tailwind CSS