Eine Herleitung der Taylorreihe bzw. der Taylorpolynome

Veröffentlicht am

Die Taylorreihe \( \sum_{n=0}^\infty \frac{f^{(n)}(x_0)}{n!} (x-x_0)^n \) und die mit ihr eng verwandten Taylorpolynome \( f(x_0) + f'(x_0) (x-x_0) + \ldots + \frac{f^{(n)}(x_0)}{n!} (x-x_0)^n \) sind wesentliche Hilfsmittel in Mathematik und Naturwissenschaften. Mit ihnen können Funktionen untersucht, komplizierte Formeln vereinfacht oder Funktionswerte approximiert werden. Kein Wunder, dass viele Studenten ihnen schon früh in ihrem Studium begegnen.

Doch wie kommt man auf diese Taylorreihe? Schließlich wird die Taylor-Formel Herrn Brook Taylor doch nicht einfach so auf sein Papier gefallen sein, wie Newton der Apfel auf dem Kopf. Welche Gedanken führten ihn zu seiner berühmten Formel?

In diesem Artikel will ich eine mögliche Erklärung für diese Frage liefern.

Das Grundproblem: Wir wollen eine Funktion approximieren

Stell dir folgendes Grundproblem vor: Gegeben ist eine reelle Funktion \( f \), von der du entweder nicht genau weißt, wie sie aussieht oder die du gerne durch eine einfachere Funktion annähern möchtest. Für ein gegebenes Argument \( x_0 \) kennst du den Funktionswert \( f(x_0) \) sowie eventuell weitere Ableitungen \( f'(x_0) \), \( f''(x_0) \) usw. Welchen Funktionswert wird die Funktion an einer anderen Stelle \( x \) besitzen? Oder besser formuliert: Was ist die beste Schätzung des Funktionswertes \( f(x) \) auf Grundlage der uns bekannten Informationen, also auf Grundlage des Funktionswerts \(f(x_0) \) und der eventuell auch bekannten Ableitungen \( f'(x_0), f''(x_0), \ldots \)?

Es geht also darum, eine Funktion so gut wie möglich anzunähern. Die Zahl \( x_0 \) wird dabei oft Entwicklungspunkt der Taylorpolynome bzw. der Taylorreihe genannt. Beachte, dass \( x \) sowohl größer als auch kleiner \( x_0 \) sein kann.

Abbildung: Das Grundproblem bei der Approximation einer Funktion: Bekannt ist der Wert und Ableitungen einer Funktion an der Stelle \( x_0 \). Welchen Wert hat die Funktion an einer anderen Stelle \( x \)?

Da wir nur vermuten können, wie die Funktion nach oder vor der Stelle \( x_0 \) aussieht, ist unsere Annäherung auch immer fehlerbehaftet. Wir können mutmaßen, dass der Fehler umso größer wird, je weiter \( x \) von \( x_0 \) entfernt ist. Dieser Fehler, der im Zusammenhang mit der Taylorreihe oft Restglied genannt wird, sollte nach Möglichkeit klein sein und es wäre schön eine Abschätzung nach oben für dieses Restglied in Abhängigkeit von \( x \) zu finden. Durch eine solche Restgliedabschätzung wissen wir nämlich, wie groß das Restglied für jedes einzelne \( x \) maximal ist. Ich werde mich aber nur mit der Herleitung und nicht mit der Restgliedabschätzung bei der Taylorreihe befassen. Der Wikipedia-Artikel zur Taylor-Formel enthält Informationen zur Abschätzung des Restglieds.

Damit dieser Abschnitt für dich noch ein wenig fassbarer wird, will ich noch zwei Beispiele für dieses Problem geben: Stell dir vor, du untersucht die Bahn eines Himmelskörpers und weißt zu einem gegebenen Zeitpunkt \( t_0 \) seine Position \( \vec r( t_0 ) \), seine Geschwindigkeit (erste Ableitung der Bahnkurve \( \vec r \) an der Stelle \( t_0 \)) und seine Beschleunigung (zweite Ableitung der Bahnkurve \( \vec r \) an der Stelle \( t_0 \)). Wo befindet sich der Himmelskörper zu einem späteren oder befand sich der Himmelskörper an einem früheren Zeitpunkt \( t \)?

In diesem Beispiel entspricht \( t_0 \) unserem \( x_0 \) und die Bahnkurve des Himmelskörpers der unbekannten Funktion \( f \). Dieses Beispiel ist insofern anders, als dass die Funktionswerte \( \vec r(t) \) dreidimensionale Vektoren sind und somit die folgenden Überlegungen nicht direkt auf dieses Beispiel anwendbar sind. Das Grundproblem ist aber dasselbe und das Beispiel zeigt, dass es Sinn macht Taylorreihen auf mehrdimensionale Funktionen zu verallgemeinern.

Als zweites Beispiel stelle dir vor, dass du tauchen gehst. Du kennst den Wasserdruck in 100m Tiefe und weißt, wie stark er sich dort pro Meter ändert. Wie groß wird dann der Wasserdruck in 200m Tiefe sein?

Approximation für stetige Funktionen

Gehen wir zunächst davon aus, dass die Funktion an der Stelle \( x_0 \) stetig, aber nicht zwangsläufig differenzierbar ist. Außerdem kennen wir den Funktionswert \( f(x_0) \) an der Stelle \( x_0 \). Wie sollten wir mit Hilfe dieser Informationen den Funktionswert \( f(x) \) einschätzen?

Stetigkeit bedeutet, dass eine kleine Änderung des Arguments auch nur eine kleine Änderung des Funktionswertes zur Folge hat. Wenn also \( x \) ungefähr \( x_0 \) ist, dann sollte \( f(x) \) ungefähr \( f(x_0) \) sein. Dementsprechend ist es sinnvoll erst einmal \( f(x) \) konstant mit \( f(x_0) \) zu nähern. Auch aus anderer Sichtweise scheint diese Approximation die einzig nützliche zu sein. Der einzige Ausgangspunkt unserer Schätzung ist der Funktionswert \( f(x_0) \) an der Stelle \( x_0 \), über den weiteren Verlauf der Funktion wissen wir nichts. Wir wissen weder, ob die Funktion an dieser Stelle steigt oder fällt (erste Ableitung ist unbekannt oder nicht existent) und auch weitere Funktionswerte kennen wir nicht. Da bleibt kaum etwas anderes übrig, als zu sagen, \( f(x) \) sei ungefähr \( f(x_0) \).

Schreiben wir also \( f(x) \approx f(x_0) \) und bezeichnen die konstante Funktion \( T_0(x) := f(x_0) \) als erstes Taylorpolynom (Nebennotiz: Es ist das Taylorpolynom nullten Grades, da es als konstante Funktion ein Polynom nullten Grades ist). \( T_0 \) ist also unsere erste Näherungsfunktion an die Funktion \( f \). Sicher, diese Approximation wird für die meisten Anwendungen ungenügend sein, wir sind aber noch am Anfang.

Schauen wir uns das Ganze am Beispiel der Exponentialfunktion \( \exp(x) \) an, die wir um den Punkt \( x_0 := 0 \) entwickeln wollen. \( \exp(x) \) ist überall und somit auch bei \( x_0 = 0 \) stetig und somit lautet unsere erste Näherung \( T_0(x) := \exp(x_0) = \exp(0) = 1 \).

Abbildung: Zunächst nähern wir die Exponentialfunktion \( \exp(x) \) durch die konstante Funktion \( T_0(x) := \exp(0) = 1 \) an. Diese Näherung ist zwar nicht optimal, aber das beste, was wir momentan haben.

Approximation für differenzierbare Funktionen

Gehen wir jetzt einen Schritt weiter und gehen nun zusätzlich davon aus, dass \( f \) an der Stelle \( x_0 \) differenzierbar ist und uns die Ableitung \( f'(x_0) \) bekannt ist. Neben dem Funktionswert \( f(x_0) \) wissen wir also noch die Steigung \( f'(x_0) \) von der Tangente der Funktion im Punkt \( (x_0, f(x_0)) \). Wie können wir nun den weiteren Verlauf von \( f \) optimal einschätzen?

Die Tangente ist genau diejenige Gerade, die sich an einem Punkt der Funktion optimal an diese anschmiegt. Deshalb sollten wir die Tangentenfunktion als zweite Näherung an unsere Funktion \( f \) heranziehen, zumal wir keine weiteren Informationen darüber haben, wie der Graph von \( f \) sich von der Tangente unterscheidet (mit den Informationen \( f(x_0) \) und \( f'(x_0) \) lässt sich nur die Tangentenfunktion bestimmen für mehr reichen diese Informationen nicht aus). Die Zuordnungsvorschrift der Tangentenfunktion ist \( x \mapsto f(x_0) + f'(x_0) (x-x_0) \) und dementsprechend behaupten wir jetzt \( f(x) \approx f(x_0) + f'(x_0) (x-x_0) \).

Auf diese Abschätzung kommen wir auch durch einen zweiten Gedankengang: Die Ableitung \( f'(x_0) \) gibt an, dass lokal um \( x_0 \) bei einer Änderung des Arguments \( h \) sich die Funktion um den Wert \( f'(x_0) \cdot h \) ändert. Nun muss sich das Argument \( x_0 \) um den Wert \( x-x_0 \) ändern, um das Argument \( x \) zu erreichen. Damit sollte sich der Funktionswert ungefähr um die Differenz \( f'(x_0) \cdot (x-x_0) \) ändern, was auf den ursprünglichen Funktionswert \( f(x_0) \) draufaddiert werden muss. Dies ergibt eine Gesamtänderung von:

\[ f(x) \approx \underbrace{f(x_0)}_\text{ursprünglicher Funktionswert} + \underbrace{f'(x_0)\cdot (x-x_0)}_\text{geschätzte Änderung} \]

Ich will noch eine dritte Herleitung für die obige Formel präsentieren, die deswegen so spannend ist, weil diese für die weiteren Taylorpolynome höheren Grades verallgemeinert werden kann. Hierzu müssen wir aber zusätzlich annehmen, dass die Funktion global differenzierbar ist (oben haben wir nur die Differenzierbarkeit in dem einen Punkt \( x_0 \) gefordert) und dass die Ableitungsfunktion \( f' \) im Punkt \( x_0 \) stetig ist.

Sei also \( f \) differenzierbar, womit \( f \) eine Ableitungsfunktion \( f' \) besitzt. Für diese wissen wir, dass sie zum einen im Punkt \( x_0 \) stetig ist und zum anderen, dass sie an der Stelle \( x_0 \) den Funktionswert \( f'(x_0) \) besitzt. Damit können wir aber die Ableitungsfunktion nach denselben Überlegungen wie im obigen Abschnitt zur „Approximation einer stetigen Funktion“ durch \( f'(x) \approx f'(x_0) \) annähern. Unsere beste Schätzung für die Ableitungsfunktion ist also zu sagen, dass diese konstant \( f'(x_0) \) ist.

Wenn wir nun eine Schätzung für die Ableitungsfunktion haben, wie können wir auf die ursprüngliche Funktion zurückrechnen? Analoge Frage: Wenn uns die Ableitungsfunktion \( f' \) und der Funktionswert \( f(x_0) \) bekannt ist, wie lautet dann die ursprüngliche Funktion \( f \)?

Eine Antwort liefert uns der Hauptsatz der Differential- und Integralrechnung. Dieser besagt, dass \( \int_a^b g(x) \mathrm{d}x = G(b) - G(a) \) ist, wobei \( G \) eine beliebige Stammfunktion von \( g \) ist. Ist also \( g \) eine bekannte Ableitungsfunktion der Funktion \( G \) und der Funktionswert \( G(x_0) \) ist bekannt, so ist \( G(x) = G(x_0) + \int_{x_0}^x g(\tilde x) \,\mathrm{d}\tilde x \), denn es ist \( G(x_0) + \int_{x_0}^x g(\tilde x) \,\mathrm{d}\tilde x = G(x_0) + G(x) - G(x_0) = G(x) \). Angewandt auf unsere Überlegung erhalten wir:

\[ \begin{align} f(x) &= f(x_0) + \int_{x_0}^x f'(\tilde x) \,\mathrm{d}\tilde x \\ &\qquad \left\downarrow\ f'(\tilde x) \approx f'(x_0)\right. \\ &\approx f(x_0) + \int_{x_0}^x f'(x_0) \,\mathrm{d}\tilde x \\ &\qquad \left\downarrow\ f'(x_0)\text{ ist konstant }\right. \\ &= f(x_0) + f'(x_0) \cdot \int_{x_0}^x 1 \,\mathrm{d}\tilde x \\ &= f(x_0) + f'(x_0) (x-x_0) \\ \end{align} \]

In allen drei Gedankengängen kommen wir als zweites Taylorpolynom auf \( T_1(x) = f(x_0) + f'(x_0) \cdot (x-x_0) \), welches wir Taylorpolynom ersten Grades nennen, weil es ein Polynom vom Grad 1 ist.

In unserem obigen Beispiel mit \( \exp(x) \) ist \( \exp'(0) = \exp(0) = 1 \) und damit erhalten wir als Taylorpolynom ersten Grades \( T_1(x) = \exp(0) + \exp'(0) (x-0) = 1 + x \):

Abbildung: Die zweite Näherung der Exponentialfunktion ergibt \( T_1(x) = 1 + x \), welche schon besser als unsere erste Approximation ist. Jedoch siehst du auch, dass der Fehler umso größer wird, je mehr sich \( x \) vom Entwicklungspunkt 0 unterscheidet.

Approximation für zweifach differenzierbare Funktionen

Bestreiten wir den Weg weiter und nehmen nun an, dass die Funktion an der Stelle \( x_0 \) zweifach differenzierbar ist und dort die zweite Ableitung \( f''(x_0) \) besitzt. Für meinen folgenden Gedankengang ist es auch notwendig anzunehmen, dass die Funktion generell differenzierbar ist (bisher habe ich nur die Differenzierbarkeit an der Stelle \( x_0 \) angenommen).

Im obigen Abschnitt haben wir die erste Ableitung durch eine konstante Funktion angenähert. Nun können wir diese Näherung noch weiter verbessern, da uns die zweite Ableitung \( f''(x_0) \) und damit die erste Ableitung der ersten Ableitungsfunktion \( f' \) von \( f \) an der Stelle \( x_0 \) bekannt ist. Für die erste Ableitungsfunktion wissen wir, dass sie an der Stelle \( x_0 \) den Wert \( f'(x_0) \) und die Ableitung \( f''(x_0) \) besitzt (weil wir annehmen, dass \( f \) differenzierbar ist, existiert die Ableitungsfunktion \( f' \)). Nachdem, was ich im obigen Abschnitt geschrieben habe, können wir diese Ableitungsfunktion folgendermaßen nähern:

\[ f'(x) \approx f'(x_0) + f''(x_0) \cdot (x-x_0) \]

Nun ist aber \( f(x) = f(x_0) + \int_{x_0}^x f'(\tilde x)\,\mathrm{d}\tilde x \) und damit

\[ \begin{align} f(x) &= f(x_0) + \int_{x_0}^x f'(\tilde x)\,\mathrm{d}\tilde x \\ &\approx f(x_0) + \int_{x_0}^x (f'(x_0) + f''(x_0) \cdot (\tilde x-x_0))\,\mathrm{d}\tilde x \\ &= f(x_0) + \left[f'(x_0) \cdot \tilde x+ \frac 12 f''(x_0) \cdot (\tilde x-x_0)^2\right]_{x_0}^x \\ &= f(x_0) + f'(x_0)\cdot (x-x_0) + \frac 12 f''(x_0) \cdot (x-x_0)^2 \\ \end{align} \]

Wir haben also für jede Stelle \( x \) die Ableitung von \( f \) mit den uns bekannten Informationen optimal genähert und dann auf \( f \) diese optimale Näherung der Ableitungsfunktion zurückgerechnet. Damit erhalten wir als drittes Taylorpolynom \( T_2(x) = f(x_0) + f'(x_0)\cdot (x-x_0) + \frac 12 f''(x_0) \cdot (x-x_0)^2 \), das Taylorpolynom zweiten Grades.

Für unser Beispiel mit der Exponentialfunktion ist die zweite Ableitung an unser gewählten Entwicklungspunkt \( x_0 = 0 \) gleich \( \exp''(0) = \exp(0) = 1 \) und wir erhalten als Taylorpolynom zweiten Grades \( T_2(x) = \exp(0) + \exp'(0) \cdot (x-0) + \frac 12 \exp''(0) (x-0)^2 = 1 + x + \frac 12 x^2 \).

Abbildung: Taylorpolynom \( T_2(x) = 1 + x + \frac 12 x^2 \) für die Exponentialfunktion und den Entwicklungspunkt \( x_0 = 0 \). Wie du siehst wird unsere Näherung immer besser.

Taylorpolynome höheren Grades

Die Überlegungen des obigen Abschnitts lassen sich schrittweise für Taylorpolynome höheren Grades verallgemeinern. Um das Taylorpolynom dritten Grades zu bestimmen, nehmen wir nun an, dass uns auch die dritte Ableitung \( f^{(3)}(x_0) \) bekannt ist und dass unsere Funktion zweimal differenzierbar ist. Damit können wir die erste Ableitung nähern durch:

\[ f'(x) = f'(x_0) + f''(x_0)\cdot (x-x_0) + \frac 12 f^{(3)}(x_0) \cdot (x-x_0)^2 \]

Durch Zurückrechnen auf \( f \) über die Formel \( f(x) = f(x_0) + \int_{x_0}^x f'(\tilde x)\,\mathrm{d}\tilde x \) erhalten wir:

\[ \begin{align} f(x) &= f(x_0) + \int_{x_0}^x f'(\tilde x)\,\mathrm{d}\tilde x \\ &\approx f(x_0) + \int_{x_0}^x (f'(x_0) + f''(x_0)\cdot (\tilde x-x_0) + \frac 12 f^{(3)}(x_0) \cdot (\tilde x-x_0)^2 )\,\mathrm{d}\tilde x \\ &= f(x_0) + \left[f'(x_0) \tilde x + \frac 12 f''(x_0) \cdot (\tilde x-x_0)^2 + \frac 16 f^{(3)}(x_0) \cdot (\tilde x-x_0)^3\right]_{x_0}^x \\ &= f(x_0) + f'(x_0)\cdot (x-x_0) + \frac 12 f''(x_0) \cdot (x-x_0)^2 + \frac 16 f^{(3)}(x_0) \cdot (\tilde x-x_0)^3 \\ \end{align} \]

Damit ist das Taylorpolynom dritten Grades gleich

\[T_3(x) = f(x_0) + f'(x_0)\cdot (x-x_0) + \frac 12 f''(x_0) \cdot (x-x_0)^2 + \frac 16 f^{(3)}(x_0) \cdot (x-x_0)^3 \]

Durch weitere Integrationen nach demselben Schema findest du die Taylorpolynome höheren Grades.

Abbildung: Das Taylorpolynom \( T_3(x) = 1 + x + \frac 12 x^2 + \frac 16 x^3 \) dritten Grads für unser Beispiel der Exponentialfunktion.

Zusammenfassung: Herleitung beliebiger Taylorpolynome mit Hilfe vollständiger Induktion

Fassen wir unsere Überlegungen zusammen. Wie du gesehen hast, sind die ersten vier Taylorpolynome folgende:

\[ \begin{align} T_0(x) &= f(x_0) \\ T_1(x) &= f(x_0) + f'(x_0) \cdot (x-x_0) \\ T_2(x) &= f(x_0) + f'(x_0) \cdot (x-x_0) + \frac 12 f''(x_0) \cdot (x-x_0)^2 \\ T_3(x) &= f(x_0) + f'(x_0) \cdot (x-x_0) + \frac 12 f''(x_0) \cdot (x-x_0)^2 + \frac 16 f^{(3)}(x_0) \cdot (x-x_0)^3 \\ \end{align} \]

Vielleicht erkennst du schon folgende Formel für das Taylorpolynom n-ten Grads für den Fall, dass \( f(x_0) \) und die ersten \( n \) Ableitungen \( f'(x_0), f''(x_0), \ldots, f^{(n)}(x_0) \) bekannt sind und existieren:

\[ T_n(x) = f(x_0) + f'(x_0) \cdot (x-x_0) + \frac 12 f''(x_0) \cdot (x-x_0)^2 + \dots + \frac{f^{(n)}(x)}{n!} (x-x_0)^n = \sum_{k=0}^n \frac{f^{(k)}(x_0)}{k!} (x-x_0)^k \]

Obige Taylor-Formel können wir jetzt mit Hilfe vollständiger Induktion beweisen:

Induktionsanfang: Zur Bestimmung des Taylorpolynoms nullten Grades nutzen wir nur den Funktionswert \( f(x_0) \) und gehen davon aus, dass \( f \) an der Stelle \( x_0 \) stetig ist. Nach dem Abschnitt „Approximation einer stetigen Funktion“ lautet die Näherung durch das nullte Taylorpolynom \( T_0(x) = f(x_0) \).

Induktionsschritt: Sei \( f \) an der Stelle \( x_0 \) mindestens \( n+1 \) mal differenzierbar und sei neben dem Funktionswert \( f(x_0) \) die ersten \( n+1 \) Ableitungen \( f'(x_0), f''(x_0), \ldots , f^{(n)}(x_0) \) bekannt. Sei \( f \) außerdem \( n \)-mal differenzierbar. Aus dem Induktionsschritt können wir die erste Ableitung von \( f \) annähern durch \( f'(x) \approx \sum_{k=0}^n \frac{f^{(k+1)}(x_0)}{k!} (x-x_0)^k \). Nach dem Hauptsatz der Differential- und Integralrechnung ist \( f(x) = f(x_0) + \int_{x_0}^x f'(\tilde x) \,\mathrm{d}\tilde x \) und damit:

\[ \begin{align} f(x) &= f(x_0) + \int_{x_0}^x f'(\tilde x) \,\mathrm{d}\tilde x \\ &\approx f(x_0) + \int_{x_0}^x \sum_{k=0}^n \frac{f^{(k+1)}(x_0)}{k!} (\tilde x-x_0)^k \,\mathrm{d}\tilde x \\ &= f(x_0) + \sum_{k=0}^n \int_{x_0}^x \frac{f^{(k+1)}(x_0)}{k!} (\tilde x-x_0)^k \,\mathrm{d}\tilde x \\ &= f(x_0) + \sum_{k=0}^n \frac{f^{(k+1)}(x_0)}{k!}\cdot \int_{x_0}^x (\tilde x-x_0)^k \,\mathrm{d}\tilde x \\ &= f(x_0) + \sum_{k=0}^n \frac{f^{(k+1)}(x_0)}{k!} \cdot \left[\frac{1}{k+1} (\tilde x-x_0)^{k+1}\right]_{x_0}^x \\ &= f(x_0) + \sum_{k=0}^n \frac{f^{(k+1)}(x_0)}{(k+1)!} (x-x_0)^{k+1} \\ &\qquad \left\downarrow\ \text{Summe umordnen}\right.\\ &= \sum_{k=0}^{n+1} \frac{f^{(k)}(x_0)}{(k)!} (x-x_0)^k \\ \end{align} \]

Kontakt

Wenn du mir Feedback, Anmerkungen oder Korrekturen zukommen lassen willst, dann kannst du mir eine E-Mail an schreiben. Weitere Kontaktmöglichkeiten findest du auf meiner Kontaktseite.

Hinweise zum Artikel

Ähnliche Beiträge

  • How to compare infinite sets of natural numbers, so that proper subsets are also strictly smaller than their supersets

    Veröffentlicht am

    Are there really as many rational numbers as natural numbers? You might answer “Yes” but a better answer would be “It depends on the underlying order relation you use for comparing infinite sets”. In my opinion there really is no reason why we should consider Cantors characterization of cardinality as the only possible one and there is also a total order relation for countable sets where proper subsets are also strictly smaller than their supersets. In this article I want to present you one of them.

  • How to proof the convergence of functions without knowing the limit

    Veröffentlicht am

    How can someone show the existences of a limit without determining its actual value or without even providing a way to constructe the limit? Also imagine that you want to find a direct instead of an indirect proof.

    I found a way by transfering the concept of Cauchy sequences to functions. Are you interested? Read the article!

  • Kochrezepte zur Extremstellenberechnung für Funktionen mit mehreren Variablen

    Veröffentlicht am

    In diesem Artikel zeige ich dir wie du Extremstellen von Funktionen mit mehreren Variablen berechnen kannst. Dabei zeige ich dir den allgemeinen Lösungsweg zur Extremstellenberechnung einmal mit und einmal ohne Nebenbedingungen.