Wie The Baltimore Banner mit seinem KI-gesteuerten Tagging-System wertvolle Einsichten in Nutzerpräferenzen gewann
Das Pulitzer-preisgekrönte Lokalnachrichtenportal entwickelte ein KI-System zur Klassifizierung von Inhalten, testete es mit 1400 Baseball-Beiträgen und lernte: Menschen ziehen besser als Statistiken
Tour durch die Redaktion des Baltimore Banner beim Hacks / Hackers Empfang
Das lokale Nachrichtenportal The Baltimore Banner ist neuerdings viel im Rampenlicht. Am 5. Mai gewann die Redaktion einen Pulitzerpreis in der Kategorie Local Reporting für seine investigative Reportageserie über die Fentanylkrise in Baltimore. Einen Tag später, noch sichtlich in Feierlaune, gab der Banner einen Empfang für das erste Hacks /Hackers Gipfeltreffen in Baltimore. And gestern wählte Nieman Lab den Banner als Vorzeigebeispiel für eine Geschichte über erfolgreiche Kooperationen mit der New York Times im Rahmen der NYT Local Investigations Fellowships. Nicht schlecht für ein lokales Medien-Startup, das noch keine drei Jahre alt ist.
Einige Hintergrund-Infos: Der Baltimore Banner ist ein Nonprofit-Medienunternehmen, das sowohl für community-orientierten Journalismus als auch für innovativen und nachhaltigen Lokaljournalismus steht. Das Unternehmen startete im Juni 2022 mit 50 Millionen Dollar Anschubfinanzierung und hat eine rasant wachsende Redaktion mit der 85 Journalisten. Der Banner hat mehr als 55.000 zahlende Abonnenten und generierte 2024 mehr als 13 Millionen Dollar Umsatz aus diesen drei Primärquellen: Abos (45 Prozent), Werbung (35 Prozent), und Spenden / Fördermittel (22 Prozent). Ihr erklärtes Ziel ist es, innerhalb von fünf Jahren schwarze Zahlen ohne zusätzliche Förderung zu schreiben und sie sind auf einem guten Weg dahin.
Beim Hacks / Hackers Kongress schilderten Ali Tajdar, Head of Insights and Analytics beim Baltimore Banner, und Emma Patti, Managing Editor for Digital, Audience and Visuals, wie der Banner ein KI-gestütztes System zur Klassifizierung von Inhalten entwickelte, um besser zu verstehen, welche Art von Inhalten beim Publikum die größte Resonanz findet. Dafür musste das Unternehmen ein Taxonomie-System von Grund auf neu schaffen, weil sein im CMS integriertes System für umfangreiche Analysen nicht geeignet war. “Wir stecken noch in den Kinderschuhen und sind mit vielleicht zwei bis fünf Beiträgen pro Tag gestartet. Wir haben einfach nicht so weit gedacht, aber inzwischen veröffentlich wir 30 bis 45 Artikel pro Tag ”, erklärte Patti.
Anstatt die gesamten Inhalte von drei Jahren manuell zu taggen, startete das Team einen Versuch, um herauszufinden, ob LLMs die Berichte zuverlässig und skalierbar einordnen können. Das Testmaterial waren 1400 Beiträge über die Orioles, das Major League Baseball Team von Baltimore.
So ist der Versuch verlaufen:
Implementierungs-Prozess
Der Ablauf folgte einem Framework mit fünf Stufen:
Entwicklung einer redaktionellen Taxonomie: Start mit 15 Klassifizierungen, die auf 10 Inhaltskategorien reduziert wurden, darunter Feature, Profil, Analyse, Erklärungen, Kurznachrichten und allgemeine Berichterstattung.
Prompt-Engineering: Test mit acht verschiedene Prompt-Iterationen, Verfeinerung der Kategorie-Definitionen von einfachen Beschreibungen in zwei Sätzen bis hin zu umfassenden Erklärungen, die die Nuancen zwischen den verschiedenen Inhaltstypen berücksichtigten. “Wir haben diese Definitionen immer weiter präzisiert, um die Genauigkeit der Ergebnisse zu verbessern“, so Emma Patti. Die endgültigen Prompts enthielten detaillierte Rollenbeschreibungen (die KI sollte als Nachrichtenredakteur agieren) und spezifische Anforderungen an die Formatierung des Outputs.
Modell-Tests: Mit AWS Bedrock wurden sechs verschiedene LLMs parallel getestet, um das genaueste Modell für die spezifischen Anforderungen zu finden. (AWS Bedrock ist ein Allround-Service von Amazon Web Services für die Erstellung und Skalierung generativer KI-Anwendungen unter Verwendung einer breiten Palette von Basismodellen). Claude Sonnet schnitt mit 84 % Genauigkeit im Vergleich zu menschlichen Redakteuren am besten ab. Andere Modelle wie Amazon Titan und Mistral AI lieferten deutlich schlechtere Ergebnisse für diesen speziellen Anwendungsfall.
Menschliche Verifizierung: Das Redaktionsteam klassifizierte über 1.000 Artikel manuell, um eine Grundlage für die Messung der KI-Genauigkeit zu schaffen.
Iteration und Skalierung: Hinzufügungen von Kontext per RAG (Definition), Verfeinerung des Ansatzes durch Feedback-Schleifen, Anwendung auf etwa 1400 Orioles-Artikel. Der gesamte Prozess dauerte etwa drei Wochen und die Kosten betrugen etwa 50 Dollar (etwa 4 Cent pro Artikel).
Wichtige technische Erkenntnisse zur Performance-Steigerung:
Null-Temperatur-Parameter, um konsistente Ergebnisse zu gewährleisten: „Wir haben festgestellt, dass das LLM jedes Mal, wenn wir es laufen ließen, unterschiedliche Ergebnisse lieferte. Wir mussten einige der Hyperparameter des LLM ändern und die Temperatur auf Null setzen. Damit wurden die Ergebnisse viel konsistenter“, sagte Ali Tajdar. (Zur Erläuterung: Bei LLMs bedeutet eine Temperatur von Null die höchstmögliche Konsistenz, während eine höhere Temperatur mehr Zufälligkeit und mehr Kreativität bei den Ergebnissen zulässt. Für Taxonomiezwecke braucht man in erster Linie Konsistenz.)
Zusätzliche Klassifizierungen: Strukturierung des Outputs als CSV-Tabellen mit primären Klassifikationen (Hauptkategorien) und sekundären Klassifikationen (zusätzlicher Kontext). Bei Berücksichtigung sowohl der primären als auch der sekundären Klassifizierungen stieg die Genauigkeit auf 93 %.
Einbeziehung von Konfidenz-Scores für Klassifikationen: Die Scores halfen bei der Bewertung der Leistung der verschiedenen LLMs im Allgemeinen und bei verschiedenen Inhaltstypen.
Key Learnings
Die wichtigsten Erkenntnisse aus diesem Test sind eine sorgfältige Modellauswahl, der Wert menschlicher Expertise, die Notwendigkeit klarer redaktioneller Richtlinien und die Vorteile einer schnellen, kostengünstigen Analyse:
Modellauswahl und -tests sind von entscheidender Bedeutung: Der Banner machte die Erfahrung, dass nicht alle KI-Modelle für redaktionelle Aufgaben gleich gut geeignet sind. Das Team testete mehrere große Sprachmodelle und stellte dabei erhebliche Unterschiede in der Genauigkeit fest. Das unterstreicht, wie wichtig es ist, die richtigen KI-Tools für die jeweiligen Aufgabe auszuwählen und zu bewerten.
Menschliches Fachwissen ist unverzichtbar: Selbst bei fortgeschrittenen LLMs war der Banner auf Redakteure angewiesen, um Taxonomien zu definieren, Prompts zu verfeinern und eine Grundlage für die Bewertung der KI-Leistung zu schaffen. Dies unterstreicht, dass redaktionelles Urteilsvermögen und Aufsicht für verlässliche Ergebnisse unerlässlich bleiben.
Prompt-Engineering und klare Richtlinien verbessern die Ergebnisse: Das Team stellte fest, dass die Verfeinerung von Prompts und die Bereitstellung detaillierter, nuancierter Definitionen für Inhaltskategorien zu genaueren und konsistenteren KI-Ergebnissen führten. Die Investition von Zeit in die Entwicklung von Prompts zahlt sich in einer besseren KI-Leistung aus.
KI kann zu verwertbaren Business-Insights führen: Durch die Klassifizierung von Inhalten in großem Maßstab entdeckte der Banner eine starke Korrelation zwischen bestimmten Inhaltstypen und den Konversionsraten für Abonnements. „Das hat uns gezeigt, dass wir uns weniger auf Statistiken und mehr auf die Menschen auf dem Spielfeld konzentrieren müssen“, verriet Emma Patti. Diese Erkenntnis veranlasste das Redaktionsteam, seine Strategie zu ändern und sich mehr auf Stories mit Menschen im Mittelpunkt anstatt auf Statistiken oder allgemeine Berichterstattung zu konzentrieren, da diese deutlich weniger effektiv zu neuen Abos führten.
Ein solches Projekt kann schnell und preiswert umgesetzt werden: Das erste Projekt wurde innerhalb von drei Wochen abgeschlossen. Ali Tajdar stellte fest, dass das gesamte Archiv des Banner mit 15.000 Artikeln jetzt für etwa 600 Dollar verarbeitet werden kann. Das zeigt, dass die Entwicklung und Einführung von KI für Lokalmedien bemerkenswert kosteneffizient sein kann und selbst in Redaktionen mit eingeschränkten Ressourcen effizient eingesetzt werden kann.
Die nächsten Schritte: Der Baltimore Banner plant, sein KI-Klassifizierungssystem über Sportinhalte hinaus auf andere Rubriken auszuweiten und diese Klassifizierungen als formale Taxonomie in sein CMS zu implementieren.