Das Subdifferential ist eine Verallgemeinerung des Gradienten auf nicht differenzierbare konvexe Funktionen . Das Subdifferential spielt eine wichtige Rolle in der konvexen Analysis sowie der konvexen Optimierung .
Sei f : R n → R {\displaystyle f\colon \mathbb {R} ^{n}\to \mathbb {R} } eine konvexe Funktion. Ein Vektor g ∈ R n {\displaystyle g\in \mathbb {R} ^{n}} heißt Subgradient von f {\displaystyle f} an der Stelle x 0 {\displaystyle x_{0}} , wenn für alle x ∈ R n {\displaystyle x\in \mathbb {R} ^{n}} gilt[ 1]
f ( x ) ≥ f ( x 0 ) + ⟨ g , x − x 0 ⟩ {\displaystyle f(x)\geq f(x_{0})+\langle g,x-x_{0}\rangle } , wobei ⟨ ⋅ , ⋅ ⟩ {\displaystyle \langle \cdot ,\cdot \rangle } das Standardskalarprodukt bezeichnet.
Das Subdifferential ∂ f ( x 0 ) {\displaystyle \partial f(x_{0})} ist die Menge aller Subgradienten von f {\displaystyle f} im Punkt x 0 {\displaystyle x_{0}} .[ 2]
Existieren die folgenden Grenzwerte a = lim x → x 0 − f ( x ) − f ( x 0 ) x − x 0 , {\displaystyle a=\lim _{x\to x_{0}^{-}}{\frac {f(x)-f(x_{0})}{x-x_{0}}},} b = lim x → x 0 + f ( x ) − f ( x 0 ) x − x 0 , {\displaystyle b=\lim _{x\to x_{0}^{+}}{\frac {f(x)-f(x_{0})}{x-x_{0}}},} so wird das Intervall [ a , b ] {\displaystyle [a,b]} aller Subgradienten das Subdifferential der Funktion f {\displaystyle f} bei x 0 {\displaystyle x_{0}} genannt und wird als ∂ f ( x 0 ) := [ a , b ] {\displaystyle \partial f(x_{0}):=[a,b]} geschrieben.
Für eine konvexe Funktion gilt a ≤ b {\displaystyle a\leq b} , für eine nicht konvexe Funktion braucht dies nicht zu gelten und dann ist ∂ f ( x 0 ) = ∅ {\displaystyle \partial f(x_{0})=\emptyset } .
Subgradienten einer konvexen Funktion Intuitiv bedeutet diese Definition für n = 1 {\displaystyle n=1} , dass der Graph der Funktion f {\displaystyle f} überall über der Geraden G {\displaystyle G} liegt, die durch den Punkt ( x 0 , f ( x 0 ) ) {\displaystyle (x_{0},f(x_{0}))} geht und die Steigung g {\displaystyle g} besitzt:
G = { ( x , y ) ∈ R 2 ∣ y = g ⋅ ( x − x 0 ) + f ( x 0 ) } {\displaystyle G=\{(x,y)\in \mathbb {R} ^{2}\mid y=g\cdot (x-x_{0})+f(x_{0})\}} Da die Normalengleichung von G {\displaystyle G} gerade
− g ⋅ ( x − x 0 ) + 1 ⋅ ( y − f ( x 0 ) ) = 0 {\displaystyle -g\cdot (x-x_{0})+1\cdot (y-f(x_{0}))=0} ist, ist die Normale an G {\displaystyle G} also ( − g , 1 ) ∈ R 2 {\displaystyle (-g,1)\in \mathbb {R} ^{2}} .
Im allgemeinen Fall n ≥ 1 {\displaystyle n\geq 1} liegt f {\displaystyle f} über der Hyperebene , die durch den Fußpunkt ( x 0 , f ( x 0 ) ) {\displaystyle (x_{0},f(x_{0}))} und die Normale ( − g , 1 ) ∈ R n + 1 {\displaystyle (-g,1)\in \mathbb {R} ^{n+1}} gegeben ist.
Wegen des Trennungssatzes ist das Subdifferential einer stetigen konvexen Funktion überall nichtleer.
Das Subdifferential der Funktion f : R → R {\displaystyle f\colon \mathbb {R} \rightarrow \mathbb {R} } , x ↦ | x | {\displaystyle x\mapsto |x|} ist gegeben durch:
∂ f ( x 0 ) = { { − 1 } x 0 < 0 [ − 1 , 1 ] x 0 = 0 { 1 } x 0 > 0 {\displaystyle \partial f(x_{0})={\begin{cases}\{-1\}&x_{0}<0\\\left[-1,1\right]&x_{0}=0\\\{1\}&x_{0}>0\end{cases}}} Eine ähnliche Eigenschaft ist bei der Lasso-Regression für die Herleitung der Soft-Threshold-Funktion wichtig.
Sei f : R n → R {\displaystyle f\colon \mathbb {R} ^{n}\rightarrow \mathbb {R} } stetig und sei X ⊂ R n {\displaystyle X\subset \mathbb {R} ^{n}} beschränkt. Dann ist die Menge ⋃ x 0 ∈ X ∂ f ( x 0 ) {\displaystyle \bigcup _{x_{0}\in X}\partial f(x_{0})} beschränkt.
Sei f : R n → R {\displaystyle f\colon \mathbb {R} ^{n}\rightarrow \mathbb {R} } stetig und sei X ⊂ R n {\displaystyle X\subset \mathbb {R} ^{n}} beschränkt. Setze ε := sup | f ( U 1 ( X ) ¯ ) | {\displaystyle \varepsilon :=\sup |f({\overline {U_{1}(X)}})|} wobei U 1 ( X ) ¯ = { x ∈ R n ∣ d i s t ( x , X ) ≤ 1 } {\displaystyle {\overline {U_{1}(X)}}=\{x\in \mathbb {R} ^{n}\mid {\rm {dist}}(x,X)\leq 1\}} . Angenommen, ⋃ x 0 ∈ X ∂ f ( x 0 ) {\displaystyle \bigcup _{x_{0}\in X}\partial f(x_{0})} ist nicht beschränkt, dann gibt es für R := 2 ε {\displaystyle R:=2\varepsilon } ein x 0 ∈ X {\displaystyle x_{0}\in X} und ein g ∈ ∂ f ( x 0 ) {\displaystyle g\in \partial f(x_{0})} mit ‖ g ‖ 2 > R = 2 ε {\displaystyle \|g\|_{2}>R=2\varepsilon } . Sei x := 1 ‖ g ‖ 2 g + x 0 {\displaystyle x:={\frac {1}{\|g\|_{2}}}g+x_{0}} . Somit sind x 0 , x ∈ U 1 ( X ) ¯ {\displaystyle x_{0},x\in {\overline {U_{1}(X)}}} . Wir erhalten die Abschätzung
g T ( x − x 0 ) = 1 ‖ g ‖ 2 g T g = ‖ g ‖ 2 > 2 ε ≥ | f ( x ) − f ( x 0 ) | ≥ f ( x ) − f ( x 0 ) {\displaystyle g^{T}(x-x_{0})={\frac {1}{\|g\|_{2}}}g^{T}g=\|g\|_{2}>2\varepsilon \geq \left|f(x)-f(x_{0})\right|\geq f(x)-f(x_{0})} . g {\displaystyle g} ist also kein Subgradient. Das ist ein Widerspruch.
Ist die Funktion differenzierbar in x 0 ∈ i n t d o m f {\displaystyle x_{0}\in \mathrm {int} \,\mathrm {dom} \,f} , so gilt:
∂ f ( x 0 ) = { ∇ f ( x 0 ) } {\displaystyle \partial f(x_{0})=\left\{\nabla f(x_{0})\right\}} Siehe [ 3] für einen Beweis.
Zudem gilt: Ist das Subdifferential ∂ f ( x 0 ) {\displaystyle \partial f(x_{0})} einelementig, so ist f {\displaystyle f} an der Stelle x 0 {\displaystyle x_{0}} differenzierbar.[ 4]
↑ R. T. Rockafellar Convex analysis 1970., p.214 ↑ R. T. Rockafellar Convex analysis 1970., p.215 ↑ Yaron Singer: Advanced Optimzation. Abgerufen am 27. Januar 2022 : „Proposition 4“ ↑ R. T. Rockafellar: Convex Analysis . Band 28 , 1970: „Theorem 25.1“