π μΈκ³΅ μ κ²½λ§ (artificial neural network)
π² μ¬λμ λ μ λ΄λ°μ μμ©μ λ³Έλ ν¨ν΄μ ꡬμ±ν μ»΄ν¨ν μμ€ν μ μΌμ’
π μΈκ³΅ μ κ²½λ§ λ΄λ°
π μλ¬Όνμ μΈ λ΄λ°μ μνμ μΌλ‘ λͺ¨λΈλ§ν κ²
π μ¬λ¬ μ λ ₯κ°μ λ°μμ μΌμ μμ€μ΄ λμ΄μλ©΄ νμ±νλμ΄ μΆλ ₯κ°μ λ΄λ³΄λ
π² νλμ μΈκ³΅ λ΄λ°(λ Έλ, node) μμ λ€μμ μ λ ₯ μ νΈλ₯Ό λ°μμ νλμ μ νΈλ₯Ό μΆλ ₯
π² λ΄λ°μ λκΈ°κ° μ νΈλ₯Ό μ λ¬νλ μν μ νλ―μ΄ μΈκ³΅ λ΄λ°μμλ κ°μ€μΉ(weight) κ° κ·Έ μν μ ν¨
κ° μ λ ₯μ νΈμλ κ³ μ ν κ°μ€μΉκ° λΆμ¬λλ©° κ°μ€μΉκ° ν΄μλ‘ ν΄λΉ μ νΈκ° μ€μνλ€κ³ ν μ μμ
π μΈκ³΅ μ κ²½λ§μ μλ μ리
π μ λ ₯μ νΈλ₯Ό ν΅ν μΆλ ₯κ°μ hΘ ν¨μ λ‘ ννλλ©°, νμ±ν ν¨μ (Activation Function) λΌκ³ ν¨
π νμ±ν ν¨μ (Activation Function)
π² μκ·Έλͺ¨μ΄λ ν¨μ (Sigmoid function)
: νμ±ν ν¨μκ° μΌμ κ°μ λμ΄μλ©΄ 1, κ·Έ μ΄νλ 0 κ°μ μΆλ ₯νκΈ° μν΄ μκ·Έλͺ¨μ΄λ ν¨μ (Sigmoid function) λ₯Ό μ¬μ©
μ λ ₯κ° xμ κ°κ°μ μ λ ₯κ°μ λν κ°μ€μΉ(weight) μΈνκ°(Θ) μΌλ‘ κ³μ°λ μκ·Έλͺ¨μ΄λ ν¨μμ μ λ ₯νμ¬ 0κ³Ό 1μ¬μ΄μ
κ°μΌλ‘ λ°κΎΈλ©°, λ³΄ν΅ 0.5λ₯Ό κΈ°μ€μΌλ‘ 0.5 λ―Έλ§μ 0, 0.5 μ΄μμ 1μ λμλλλ‘ νμ¬ νμ±ν ν¨μλ‘ μ¬μ©
β μκ³κ°μ κΈ°μ€μΌλ‘ νμ±ν / λΉνμ±ν λλ κ³λ¨ν¨μ(step function) or Heaviside function μ κ·Όμ¬ν
π² ReLU ν¨μ (Rectified Linear Unit function)
: μ λ ₯κ°μ΄ 0λ³΄λ€ ν¬λ©΄ μ λ ₯κ°μ κ·Έλλ‘ μΆλ ₯, μ λ ₯κ°μ΄ 0 μ΄νμ΄λ©΄ 0μ μΆλ ₯
μκ·Έλͺ¨μ΄λλΆν° νμ νΈ ν¨μκΉμ§ ν΄κ²°λμ§ μμλ κΈ°μΈκΈ° μμ€λ¬Έμ λ₯Ό μλμ ν¨μλ‘ ν΄κ²°
β μκ·Έλͺ¨μ΄λ ν¨μλ λν¨μμμ 0μμ 1μ¬μ΄μ μμ κ°μ κ³±νλ©΄μ μ μ κΈ°μΈκΈ°κ° μμ€λλ λ¬Έμ κ° λ°μ
β ReLU ν¨μλ μμ κ·Έλ¦Όκ³Ό κ°μ΄ λ―ΈλΆκ°μ΄ 1μ΄κΈ° λλ¬Έμ κΈ°μΈκΈ° μμ€λ¬Έμ κ° λ°μνμ§ μκ³ νμ΅ν¨κ³Όκ° κ³μ μ§μ
β But, μ κ²½λ§μ νΉμ μΆλ ₯μ΄ 0μ΄ λλ©΄ νμ΅ν΄μ κ³±νλ κΈ°μΈκΈ° κ°μ 0μ κ³±νκ² λμ΄ κ°μ 0μΌλ‘ λ§λ€κ² λ¨
(μ£½μ ReLU λ¬Έμ )
π² Leaky ReLU ν¨μ
β 0λ³΄λ€ μκ±°λ κ°μ λ 0μ κ³±νλ κ²μ΄ μλ xμ 0.01μ κ³±ν μμ μμ κΈ°μΈκΈ°λ₯Ό μ¬μ© νμ¬ μ£½μ ReLU λ¬Έμ λ₯Ό ν΄κ²°
π νΌμ νΈλ‘ (Perceptron)
: λ΄λ°μ μ리λ₯Ό λ³Έλ λ§λ μΈκ³΅κ΅¬μ‘°
π² νΌμ νΈλ‘ μ λ¨μν μ ν λΆλ₯κΈ°μ λΆκ³Όνμ¬ OR, AND μ κ°μ λΆλ₯λ κ°λ₯νλ, XOR λΆλ₯ λ ν΄κ²°ν μ μμ
π λ€μ€ νΌμ νΈλ‘ (MLP, Multi-Layer Perceptron)
: μλκ³μΈ΅ (Hidden Layer) μ΄λΌλ μ€κ°μΈ΅μ μΆκ°νμ¬ μ νλΆλ₯κΈ°λΌλ νκ³λ₯Ό 극볡
π μΈκ³΅μ κ²½λ§ λ΄λ΄ λ€νΈμν¬λ λ΄λ°λ€μ μ¬λ¬κ° μμμ λ§λ€ μ μμ
Layer1 (Input Layer, μ λ ₯μΈ΅), Layer2 (Hidden Layer, μλμΈ΅), Layer3 (Output Layer, μΆλ ₯μΈ΅) λ‘ κ΅¬μ±λ λ΄λ΄ λ€νΈμν¬
π μμ ν μκ³ λ¦¬μ¦ (Backpropagtion Algorithm)
π μλ°©ν₯ (Feed forward) μ°μ° ν μμΈ‘κ°κ³Ό μ λ΅ μ¬μ΄μ μ€μ°¨λ₯Ό νλ°© (backward) μΌλ‘ λ€μ 보λ΄λ©΄μ νμ΅μν€λ λ°©λ²
π κ²½μ¬ νκ°λ² (Gradient Descent)
: 1μ°¨ κ·Όμ¬κ° λ°κ²¬μ© μ΅μ ν μκ³ λ¦¬μ¦
ν¨μμ κΈ°μΈκΈ°(κ²½μ¬)λ₯Ό ꡬνκ³ κ²½μ¬μ λ°λ λ°©ν₯μΌλ‘ κ³μ μ΄λμμΌ κ·Ήκ°μ μ΄λ₯Ό λκΉμ§ λ°λ³΅μν΄
π² λ¬Έμ μ 1. μ μ ν νμ΅λ₯ (learning rate)
π νμ΅λ₯ μ μ μ ν μ‘°μ νλ κ²μ΄ λ§€μ° μ€μ
π² λ¬Έμ μ 2. Local Minimum λ¬Έμ
π μ μ μ΅μκ°(Global) μ μ°Ύκ³ μΆμ§λ§, μ§μ(Local) μ΅μκ°μ λΉ μ Έ νμΆνμ§ λͺ»νκ³ κ·Έλλ‘ μλ ΄ ν μ μμ
β νμ΅ λμ€μ νμ΅λ₯ μ μ§μμ μΌλ‘ λ°κΎΈλ Adaptive Gradient Descent,
local minimum μ λΉ μ§λ κ²½μ°λ₯Ό λ°©μ§νκΈ° μν΄ κ΄μ±λ ₯μ μΆκ°ν Momentum GD μ κ°μ κ²½μ¬ νκ°λ²μΌλ‘ ν΄κ²°