Vorteile der Methode der k nächsten Nachbarn (kNN) sind die einfache Verständlichkeit und gute Visualisierbarkeit sowie der Umstand, dass die Schätzmodelle nicht veralten, weil laufend neue Datensätze berücksichtigt werden können.

Nachtrag November 2019: Dieser Artikel beschreibt eine veraltete Version. Die neue Software ist hier verfügbar.

Die Wirtschaftlichkeit der Waldbewirtschaftung wird massgeblich durch die Kosten der Holzernte beeinflusst. Ihr Anteil an den Gesamtkosten im Forstbetrieb liegt in der Schweiz zwischen 40 und 60 Prozent. Für die betriebliche Planung und Steuerung der Holzernte werden verlässliche Informationen über ihre Zeitbedarfe und Kosten benötigt. Aber auch für strategische und konzeptionelle Überlegungen zum Holzproduktionsprozess stellen diese Informationen eine wichtige Grundlage dar.

Um die Zeitbedarfe und Kosten der Holzernte effizient und verlässlich schätzen zu können, bedarf es zweckmässiger Kalkulationsgrundlagen beziehungsweise IT-gestützter Instrumente, wie zum Beispiel der Holzernteproduktivitätsmodelle HeProMo. Solche Modelle basieren auf der Zerlegung des gesamten Ernteprozesses in einzelne Aktivitäten und deren mathematischer Beschreibung mittels Regressionen, welche den Zusammenhang zwischen der Produktivität des Erntesystems und seinen Einsatzbedingungen quantifizieren.

Die Erstellung praxistauglicher Modelle ist allerdings aufwendig – nicht zuletzt wegen der umfangreichen Datenerhebung – und erfordert eine professionelle IT-Umsetzung. Wegen des raschen technischen Fortschritts in der Holzernte veralten die Modelle relativ schnell, was wiederum Aktualisierungen notwendig machen kann. Eine Alternative zu regressionsbasierten Methoden bildet die Methode der k nächsten Nachbarn (kNN-Methode). Sie erlaubt es, eine unbekannte abhängige Variable eines Datensatzes über die Ähnlichkeit zu Referenzdatensätzen mit bekannten Werten zu schätzen. Aus einer Holzschlagdatenbank eines Forstbetriebes oder eines Forstunternehmens lässt sich so für einen anstehenden Holzschlag die zu erwartende Produktivität bei der Holzernte schätzen, indem die dem neuen Holzschlag ähnlichsten früheren Holzschläge der Datenbank ermittelt werden und aus diesen ein Durchschnittswert der erzielten Produktivitäten berechnet wird.

Diese Methode lässt eine hohe Praxistauglichkeit erwarten. Für den Fall der Kalkulation von Selbstkosten auf betrieblicher Ebene kann auf eigene und aktuelle Holzschlagdaten zurückgegriffen werden. Dies verspricht ein erhöhtes Vertrauen in die Prognose. Um die Anwendung der kNN-Methode in der Praxis zu ermöglichen wurde an der Forschungsanstalt WSL die Software kNN-Workbook als Prototyp entwickelt (siehe Kasten).

Software kNN-Workbook

Die auf Excel 2007 basierende Software kNN-Workbook steht einem breiten Publikum, insbesondere den Forstbetriebsleitern, kostenlos zur Verfügung. Die Autoren sind interessiert an Rückmeldungen von Personen, die Instrument und Methode getestet haben.

kNN-Methode und Regression in einem Fallbeispiel

Vergleich kNN-Methode und Regressionsmodellrechnung

Um zu überprüfen, inwieweit die kNN-Methode als Schätzmethode geeignet ist, wurde die Schätzgüte der kNN-Analyse bei optimalem k mit derjenigen der multiplen linearen Regressionsmodellrechnung verglichen (Abbildungen 2 und 3). Um für eine Reihe von Datensätzen die Güte der Anpassung des Schätzwertes an den realen Messwert beurteilen zu können, werden häufig die Quadratwurzel des mittleren quadratischen Fehlers (Root Mean Square Error, RMSE), der Bias und der mittlere absolute prozentuale Fehler (Mean Absolute Percentage Error, MAPE) herangezogen.

Der RMSE hat dieselbe Einheit wie die abhängige Variable. Er kann nur Werte ≥ 0 annehmen. Der Bias beschreibt den systematischen Fehler. Er hat dieselbe Einheit wie die abhängige Variable. Ein positiver Bias bedeutet ein systematisches Überschätzen der abhängigen Variablen, ein negativer Bias ein systematisches Unterschätzen derselben. Der MAPE beschreibt die mittleren absoluten prozentualen Abweichungen zwischen Schätzung und Messwert. Der MAPE ist somit ein Mass für das Verhältnis der Residuen zu den tatsächlichen Messwerten. Ein Wert von 0 besagt, dass sämtliche Schätzungen exakt mit den tatsächlichen Messwerten übereinstimmen. Gegen oben sind dem MAPE hingegen keine Grenzen gesetzt, er kann auch Werte > 1 annehmen. Bei einer optimalen Wahl von k sind RMSE und MAPE minimal, und der Bias liegt nahe bei 0.

Es zeigt sich, dass trotz optimalem k die kNN-Methode bezüglich der drei Kennwerte in keinem Fall so gut abschneidet wie die Regressionsanalyse. Die Unterschiede zwischen beiden statistischen Verfahren sind allerdings nicht gravierend.

Fazit

Beide Methoden, die kNN-Methode und die multiple lineare Regression, können zur Schätzung von Holzernteproduktivitäten herangezogen werden. Die Prognosegenauigkeit liegt in derselben Grössenordnung. Beide Schätzmethoden haben Vor- und Nachteile und ihre eigenen Anwendungsschwerpunkte:

RegressionkNN-Methode
  • Die Annahmen über die funktionalen Zusammenhänge zwischen den unabhängigen und der abhängigen Variablen werden durch die Regressionsformel explizit gemacht. Gestützt auf eine vorliegende explizite Formel ist die Regression leicht anzuwenden und besonders geeignet für den Einsatz in Simulationsmodellen und für Sensitivitätsanalysen.
  • Die Anwendung der Regressionsformel erfordert keinen Zugriff auf die zugrunde liegenden Daten.
  • Aufgrund der einfachen Verständlichkeit der kNN-Methode sowie der Visualisierbarkeit der k nächsten Nachbarn ist sie besonders geeignet für Praktiker und Praktikerinnen, die einzelne Ereignisse schätzen wollen.
  • Die kNN-Methode ist robust und nicht parametrisch, das heisst, sie setzt im Gegensatz zur Regressionsanalyse nicht die Wahl eines bestimmten Modelltyps (z.B. linear, exponentiell, logarithmisch) voraus. Im Gegensatz zur Regression müssen bei der Anwendung der kNN-Methode funktionale Zusammenhänge zwischen den unabhängigen und der abhängigen Variablen nicht bekannt sein, sie werden allerdings durch die kNN-Methode auch nicht aufgezeigt. Weiter können zusätzliche unabhängige Variablen nachträglich ins Modell aufgenommen werden, ohne dass das Schätzmodell neu gerechnet werden muss. Allerdings erfordert die kNN-Methode eine gute Wahl von k. Richtlinien können hierbei hilfreich sein, z.B. k := √n oder k := n3/8 (für n vorhandene Datensätze)
  • Die kNN-Methode nutzt lokale Abweichungen von einem grösseren Trend besser aus als eine lineare Regression.
  • Die kNN-Methode hat die Tendenz, systematisch kleinste Werte zu über- und grösste Werte zu unterschätzen. Eine Verringerung von k verkleinert zwar diesen Bias, erhöht jedoch gleichzeitig die Varianz.
  • Die Anwendung der kNN-Methode berücksichtigt immer sämtliche vorhandenen Datensätze. Sie kann so auf eine laufend aktualisierte Datenbasis zugreifen, sie setzt aber den Zugriff auf sämtliche Daten notwendigerweise voraus. Die Schätzmodelle veralten aufgrund neu hinzugefügter Datensätze im Gegensatz zur Regression nicht.

Eine Extrapolation über den durch Daten unterlegten Bereich hinaus ist weder bei der Regressionsanalyse noch bei der kNN-Methode ohne Weiteres möglich. Eine Schwierigkeit, die überdies bei beiden Schätzmethoden zu bewältigen ist, ist die Auswahl geeigneter unabhängiger Variablen. Ein Praktiker, welcher bei der Anwendung der kNN-Methode keinerlei Anhaltspunkte zur Wahl der unabhängigen Variablen hat, könnte in einem ersten Schritt sämtliche unabhängigen Variablen in sein Modell einbeziehen. Es wird dadurch zwar ein gewisses Rauschen in Kauf genommen, allerdings verschlechtern sich nach Erfahrung der Autoren die Schätzresultate dadurch nicht wesentlich.

Mit der kNN-Methode beziehungsweise mit der Software kNN-Workbook lassen sich natürlich nicht nur Holzerntedaten auswerten sowie diesbezügliche Leistungen und Kosten schätzen. Grundsätzlich sind die Methode und das Instrument auch auf andere Datensätze und Schätzgrössen anwendbar. Zum Beispiel liesse sich auch die Sortimentszusammensetzung von Holzschlägen (Anteile an Säge-, Industrie- und Energieholz) gestützt auf Erfahrungszahlen prognostizieren.

Für eine Weiterentwicklung des Ansatzes wäre es überlegenswert, eine zentrale Holzerntedatenbank aufzubauen. Repräsentativ über die Schweiz verteilte Testbetriebe würden sich gegebenenfalls gegen Entschädigung oder Einräumung spezieller Nutzungsrechte dazu verpflichten, zuvor festgelegte Variablen ihrer Holzschläge zu erfassen und diese Daten in die Datenbank einzuspeisen. Die Datenerfassung sowie die Schätzung von Produktivitäten und Kosten mittels der kNN-Methode würden über Internet erfolgen.

(TR)