Als Entwickler entwickeln wir nicht nur KI-Modelle, um Unternehmen zu analysieren, sondern wir schlüpfen auch in die Rolle aktiver Investoren. KI kann zwar riesige Datenmengen verarbeiten, aber ihr fehlt die menschliche Seite – die Erfahrungen aus erster Hand, die wir bei der Besichtigung von Produktionsanlagen oder der Nutzung eines Produkts machen. Diese Einblicke helfen uns, ein Unternehmen auf eine Art und Weise zu bewerten, wie es KI einfach nicht kann.

Heute geht es um die Frage: Wie groß muss ein Unternehmen sein, um für das Training eines KI-Modells in Frage zu kommen?

An einem bestimmten Punkt im Prozess der Vorbereitung des Datensatzes für das Training eines KI-Modells stellt sich eine wichtige Entscheidung: Welche Unternehmen sollen für das Training einbezogen werden, und wie groß muss der Markt mindestens sein, damit ein Unternehmen sowohl für das Training als auch für die Schlussfolgerungen in Frage kommt?

Warum ist dies so wichtig? Die Antwort ist zweifach:

Zum einen ist da die Frage der Datenqualität. Kleinere Unternehmen melden ihre Daten meist aufgrund begrenzter Ressourcen seltener – beispielsweise jährlich statt vierteljährlich, vor allem bei Unternehmen außerhalb der USA. Sie können auch nicht obligatorische Beobachtungsdaten weglassen, was zu einem weniger vollständigen Datensatz führt. Diese Inkonsistenz kann die Qualität der für das Training des Modells verwendeten Daten erheblich beeinträchtigen.

Andererseits sind kleine Unternehmen oft jünger und arbeiten möglicherweise anders als etablierte Firmen. Sie können sich beispielsweise noch in der Frühphase der Produktentwicklung befinden und durch einen Börsengang an die Börse gegangen sein, um Kapital für die Finanzierung der letzten Entwicklungsphasen zu beschaffen, ohne bereits ein Produkt auf dem Markt zu haben. In solchen Fällen sind wichtige Finanzkennzahlen wie der Umsatz noch nicht aussagekräftig. Außerdem beschaffen sich jüngere Unternehmen in der Regel eher Eigenkapital, als dass sie Fremdkapital aufnehmen, was zu Finanzstrukturen führt, die sich von denen reiferer Unternehmen erheblich unterscheiden. Diese Unterschiede können die Verteilung der Trainingsmuster verzerren, so dass es für das KI-Modell schwieriger wird, effektiv zu verallgemeinern.

Letztendlich folgen die Finanzkennzahlen junger Unternehmen oft anderen Verteilungen als die etablierterer Firmen. Diese Unterschiede – wie z. B. Umsatzmuster oder Kapitalstrukturen in der Frühphase – können das Verständnis und die Vorhersagen der KI verzerren. Daher ist die Auswahl von Unternehmen einer angemessenen Größe entscheidend, um sicherzustellen, dass die für das Training verwendeten Daten relevant, zuverlässig und konsistent sind. Durch den Ausschluss kleinerer Unternehmen verringert sich jedoch der Umfang des Trainingsdatensatzes, der bereits der wichtigste Engpass bei der Anwendung von KI für die Aktienauswahl ist.

Dies stellt ein Dilemma dar: Datenqualität versus Datenmenge. Bei einem der beiden Punkte müssen Opfer gebracht werden. 

Die Landschaft der Unternehmensgrößen

Bevor wir uns in die Feinheiten der Marktkapitalisierung vertiefen, lassen Sie uns mit einem kleinen Quiz beginnen. Was glauben Sie, wie hoch ist die durchschnittliche Marktkapitalisierung eines börsennotierten Unternehmens auf den entwickelten Märkten? Der Mittelwert oder der Medianwert, d. h. der Wert, der genau in der Mitte liegt, wenn man die Unternehmen nach Größe sortiert?

Viele Menschen könnten annehmen, dass der Durchschnitt deutlich höher ist als er tatsächlich ist, was vor allem auf die Präsenz von Giganten wie Apple, Amazon und Microsoft zurückzuführen ist. Wenn wir alle Unternehmen in den von MSCI definierten „entwickelten Märkten“ mit einer Marktkapitalisierung von mehr als 100 Millionen Euro betrachten, kommen wir auf etwa 10.000 Unternehmen.

Das Histogramm enthüllt die Wahrheit

Wenn wir diese Unternehmen in ein Histogramm eintragen, ergeben die Daten eine überraschende Geschichte. Die größten Unternehmen sind Ausreißer; nur eine Handvoll erreicht eine Marktkapitalisierung in Billionenhöhe und verschwindet aufgrund der schieren Anzahl kleinerer Unternehmen vor dem Auge.

Die überwiegende Mehrheit der Unternehmen ist viel kleiner, so dass sie im kleinsten Bereich unseres Histogramms landen. Im Durchschnitt liegt die mittlere Marktkapitalisierung bei 6,5 Mrd. EUR, während der Median bei nur 710 Mio. EUR liegt. In Deutschland passt ein Unternehmen wie Zeal Network in dieses Profil, während wir in den USA weniger bekannte Unternehmen wie Ceva oder Ani Pharmaceutical finden – Namen, die vor allem bei Experten in ihrem Bereich bekannt sind.

Wenn wir uns auf Unternehmen mit einer Marktgröße von weniger als 2 Milliarden Euro beschränken, sehen wir, dass etwa 70 % dieser Unternehmen übrig bleiben.

Es zeigt sich ein aufschlussreiches Muster: Mit abnehmender Marktgröße nimmt die Zahl der Unternehmen zu. Tatsächlich haben über 40 % der börsennotierten Unternehmen eine Marktkapitalisierung von weniger als 500 Mio. EUR.

Die Auswirkungen von maschinellem Lernen auf Investitionen

Dies stellt eine Herausforderung für den Einsatz von maschinellem Lernen bei der Unternehmensauswahl dar. Warum? Weil die Aktienmärkte überproportional von einer kleinen Anzahl großer Unternehmen beeinflusst werden. Wenn ein großer Akteur wie Apple ins Straucheln gerät, spürt der Markt die Erschütterungen. Für unsere Zwecke lassen wir jedoch die Marktschwankungen beiseite und konzentrieren uns auf die Fundamentaldaten der Unternehmen.

Die eigentliche Herausforderung ergibt sich aus der Verwendung der Marktkapitalisierung als Filterkriterium. Der Ausschluss kleinerer Unternehmen kann den für das Training von Machine-Learning-Modellen verfügbaren Datensatz erheblich reduzieren. Würde man beispielsweise nur Unternehmen mit einer Marktkapitalisierung von mehr als 700 Millionen Euro – der mittleren Größe – verwenden, würden sich die Trainingsdaten um fast die Hälfte reduzieren. Und bedenken Sie, dass die anfängliche Menge von 10 000 Unternehmen bereits eine nicht gerade ideale Stichprobe für Anwendungen des maschinellen Lernens war. Warum also Beschränkungen bei der Marktkapitalisierung einführen?

Das Trade-off Dilemma

Es ist ein Kompromiss: Wählt man einen kleineren, homogeneren Datensatz oder einen größeren, potenziell vielfältigeren Datensatz? Der Grund für den Ausschluss kleinerer Unternehmen liegt in der Überzeugung, dass für sie oft andere Regeln gelten als für größere Unternehmen. Wie in dem Artikel „A Small Business Is Not a Little Big Business“ von Welsh und White in der Harvard Business Review festgestellt wird, werden kleine Unternehmen nicht einfach von ihren größeren Pendants verkleinert. Sie leben unter einzigartigen Bedingungen, oft in fragmentierten Branchen, in denen Preisunterbietungen üblich sind. Außerdem wirken sich externe Kräfte wie Änderungen von Vorschriften oder Steuergesetzen in der Regel stärker auf sie aus als auf große Unternehmen.

Aus datenwissenschaftlicher Sicht ist die Qualität der Daten kleinerer Unternehmen oft minderwertig, insbesondere außerhalb der USA. Nicht alle Länder schreiben vor, dass Unternehmen ihre Jahresabschlüsse vierteljährlich veröffentlichen, so dass kleinere Firmen die Berichterstattung auf ein Minimum reduzieren können. Dies führt zu fehlenden Daten und einem Mangel an Details in den Jahresabschlüssen – Herausforderungen, die die Analyse erschweren [weitere Informationen zum Thema fehlende Daten in Finanzanwendungen finden Sie in einem kürzlich erschienenen Artikel über Missing Financial Data].

Letztendlich muss der Entwickler ein Gleichgewicht finden, um den idealen Schwellenwert für den Ausschluss kleinerer, weniger repräsentativer Unternehmen aus dem Trainingssatz zu ermitteln und gleichzeitig eine beträchtliche Menge an Trainingsdaten beizubehalten.

Ein näherer Blick auf kleine Unternehmen

Sind kleine Unternehmen wirklich so anders? Schauen wir uns drei aufstrebende französische Unternehmen in der Kreislaufwirtschaft an: Afyren, Carbios und Hoffmann Green Cement.

Die Newcomer der Kreislaufwirtschaft – Eine Reise durch Frankreich:

Afyren, Carbios und Hoffmann Grüner Zement. Kreislaufwirtschaft. So könnte die Überschrift der Reise zu interessanten Unternehmen in Frankreich im Dezember 2022 lauten. Der Begriff tauchte während der Reise, auf der wir drei aufstrebende französische Unternehmen kennenlernten, nämlich Afyren, Carbios und Hoffmann Green Cement, immer wieder auf.

Sie alle haben große Ambitionen: Sie wollen wichtige Akteure in einer neuen, nachhaltigen Kreislaufwirtschaft werden. Von den Unternehmen ist Carbios mit einer Marktkapitalisierung von 410 Millionen Euro noch immer das größte. Afyren und Hoffmann Green Cement sind mit einer Marktkapitalisierung von 147 Mio. EUR bzw. 131 Mio. EUR immer noch Kleinstunternehmen. Die drei Unternehmen sind nicht unbedingt repräsentativ für das typische „kleine“ Unternehmen, da sie eine weitere Besonderheit aufweisen. Nicht, weil sie alle Franzosen sind, sondern weil es sich um sehr junge Unternehmen handelt, die noch am Anfang ihrer Existenz stehen. Cabios ging 2013 an die Börse, Hoffmann Green Cement im Jahr 2019 und Afyren im Jahr 2021, alle innerhalb des letzten Jahrzehnts. Werfen wir also einen kurzen Blick auf die Unternehmen, die die Industrie revolutionieren wollen, indem sie petrochemiefreie Säuren herstellen, die Lebensdauer von Kunststoffen verlängern und kohlenstoffarmen Zement anbieten.

 

Afyren

Unsere Reise beginnt in Clermont-Ferrand, wo Afyren, ein Hersteller von biobasierten organischen Säuren, für Furore sorgt. Während 99 % der organischen Säuren, die in Alltagsprodukten verwendet werden, aus der Petrochemie stammen, nutzt Afyren die Fermentationstechnologie, um aus Nebenprodukten der Zuckerrübe biobasierte Alternativen herzustellen. Die fertigen Säuren sind der Ausgangspunkt für eine breite Palette von Produkten wie salzige Chips, Duftstoffe, Zusatzstoffe für die Lebensmittelkonservierung, Kunststoffe für Konsumgüter, Schmiermittel für die Luft- und Raumfahrt, Haarspülungen oder Batteriekühlmittel und Kühlmittel, um nur einige zu nennen. Ihre erste Anlage, die 2022 fertiggestellt wird, ermöglicht eine Produktion im industriellen Maßstab. Links: Kleine Laborprobe einer natürlichen Mikroorganismenmischung zur Herstellung organischer Säuren.

Carbios

Anschließend besuchen wir Carbios, ebenfalls in Clermont-Ferrand. Dieses innovative Unternehmen revolutioniert den Lebenszyklus von Kunststoffen durch die Entwicklung von Enzymen, die PET-Flaschen und Textilabfälle in ihre Grundbestandteile (Monomere) aufspalten, um sie für die Herstellung von 100 % recyceltem und recycelbarem PET wiederzuverwenden. Carbios kann Materialien ohne Qualitätsverlust recyceln – eine erhebliche Verbesserung gegenüber herkömmlichen Methoden. Die Technologie von Carbios hat bereits die Aufmerksamkeit von multinationalen Marken wie L’Oréal und PepsiCo auf sich gezogen.

Rechts: Die enzymatischen Prozesse laufen versteckt in großen Reaktoren ab. In ihnen wird geschredderter und poröser PET-Kunststoff mit Wasser und Enzymen vermischt. Nach 24 Stunden bei einer Temperatur von nur 65 Grad Celsius zerlegen die Enzyme lange Polymerketten in einzelne Monomere. Werden diese aus den Reststoffen isoliert, können sie direkt für die Herstellung von Verpackungen oder Flaschen wiederverwendet werden, und zwar in der gleichen Qualität wie die ursprünglichen Produkte.

 

Hoffmann Green Cement

Schließlich reisen wir nach Rives-de-l’Yon, wo Hoffmann Green Cement die Zementindustrie neu definiert. Die herkömmliche Zementproduktion ist ein großer Verursacher von Treibhausgasemissionen, aber Hoffmanns einzigartiges Verfahren produziert kalten, dekarbonisierten Zement mit einer deutlich geringeren Kohlenstoffintensität. Trotz seines innovativen Ansatzes hat Hoffmann jedoch noch keine nennenswerten Umsätze erzielt, so dass es schwierig ist, seine finanzielle Rentabilität allein auf der Grundlage historischer Daten zu beurteilen.

Ist dies die Zukunft der Zementherstellung? Wo sind die rauchenden Schornsteine geblieben?

Die menschliche Komponente bei Investitionsentscheidungen

Was ist also das Problem mit diesen Unternehmen? Warum sollte man sie vom Training ausschließen, wenn man Modelle für maschinelles Lernen erstellt, die auf Fundamentaldaten basieren, d. h. auf Daten aus der Gewinn- und Verlustrechnung, der Bilanz und der Kapitalflussrechnung? Warum sollte man diese Unternehmen ausschließen und sich dem Problem stellen, das ohnehin schon knappe Trainingsmaterial zu reduzieren? Nehmen wir das Unternehmen Hoffmann als Beispiel und schauen wir uns die Jahresabschlüsse an. Der letzte Finanzbericht kann hier eingesehen werden. Zum Zeitpunkt des Schreibens dieses Beitrags ist das neueste Dokument der Halbjahresfinanzbericht zum 30. Juni 2022. Er ist nur in französischer Sprache verfügbar, was uns aber nicht davon abhält, die wichtigsten Zahlen zu lesen.

Manchmal sagen Zahlen mehr als tausend Worte! Hoffmann Green Cement hat noch keinen nennenswerten Umsatz erzielt. Magere 500.000 Euro Umsatz bei einer Marktkapitalisierung von über 100 Millionen Euro! Gleichzeitig verbrennt das Unternehmen Bargeld: fast 5 Millionen Euro im operativen Geschäft. Aber das ist verständlich: Das Unternehmen muss viel Geld investieren, um zu beweisen, dass seine Zementproduktion in industriellem Maßstab funktioniert, und dazu muss es zunächst ausreichende Kapazitäten aufbauen und Mitarbeiter einstellen (zusätzlich zu den massiven Investitionen). Immerhin ist vom Börsengang noch genug Geld auf dem Konto übrig. Die Technologie von Hoffmann Green Cement könnte ein Wendepunkt sein. Es könnte die Zukunft der Zementproduktion sein. Aber das sieht man den jüngsten Finanzberichten nicht an. Das Unternehmen kann nicht auf der Grundlage seiner historischen Daten bewertet werden. Eine Investition ist eine Wette darauf, dass seine Technologie erfolgreich sein und sich durchsetzen wird. Oder eine Wette darauf, dass das Unternehmen von einem der großen Zementhersteller wie Holcim (Schweiz), Lafarge (Frankreich), HeidelbergCement (Deutschland) oder einem exotischen Unternehmen wie Cemex (Mexiko) übernommen wird.

Aber wir wollen nicht wetten, wenn es um einen quantitativen Ansatz geht. Wir wollen die Renditeverteilung unserer Aktienpositionen ein wenig nach rechts verschieben, in Richtung einer Outperformance gegenüber dem breiten Markt. Wir wollen jedoch nicht die potenziellen extremen Ausreißer identifizieren, die die Fähigkeit haben, eine Branche in Zukunft durch disruptive Technologien zu dominieren. Das maschinelle Lernen bietet diese Möglichkeit (noch) nicht. Ein Ansatz, der auf historischen Fundamentaldaten beruht, ist nicht geeignet, um die künftigen insgesamt adressierbaren Märkte, die Wahrscheinlichkeit der Einführung bestimmter Technologien oder die künftige Regulierung der Märkte durch Regierungen oder Behörden abzuschätzen.

Es ist immer noch menschliches Urteilsvermögen erforderlich. Ich überlasse es gerne den Managern, die über einen gewissen Ermessensspielraum verfügen, solche Unternehmen zu finden und zu bewerten. Mein Instrumentarium ist dafür nicht ausgelegt. Ich möchte auch nicht, dass solche Unternehmen meine Reihe etablierter Geschäftsmodelle völlig verzerren und sie deshalb aus der Trainingsgruppe ausschließen. Als Entwickler müssen wir den richtigen Schwellenwert für den Ausschluss kleinerer Unternehmen festlegen, ohne unseren Schulungspool drastisch zu verkleinern. Aber wo liegt die Grenze? Nun, das muss jeder für sich selbst herausfinden.

Letztendlich erfordert das Verständnis der Marktlandschaft, insbesondere für kleine Unternehmen, Nuancen und eine sorgfältige Abwägung zwischen dem Wunsch nach Daten und der Realität dessen, was diese Daten uns sagen können.