Google hat mit Ironwood eine neue Generation von Tensor Processing Units (TPU) vorgestellt, die im Laufe des Jahres auf den Markt kommen sollen und die Entwicklung von AI Modelle noch einfacher machen werden. Als TPU der siebten Generation ist Ironwood die erste, die gezielt für KI-Inferenz optimiert wurde – also das Ausführen trainierter KI-Modelle wie großer Sprachmodelle oder Empfehlungssysteme. Das Unternehmen schreibt selbst dazu:

Unsere TPU der siebten Generation, Ironwood, ist unsere bisher größte und leistungsstärkste TPU und stellt eine mehr als zehnfache Verbesserung gegenüber unserer neuesten Hochleistungs-TPU dar. Mit mehr als 9.000 Chips pro Pod liefert Ironwood beeindruckende 42,5 Exaflops Rechenleistung pro Pod und erfüllt damit die exponentiell wachsenden Anforderungen anspruchsvollster Denkmodelle wie Gemini 2.5.

Ironwood wurde entwickelt, um die steigende Nachfrage nach effizienter KI-Inferenz zu erfüllen. Man nutzt es, um KI-Anwendungen wie Chatbots, Suchmaschinen oder personalisierte Empfehlungen schneller und ressourcenschonender zu betreiben. Im Gegensatz zu früheren TPUs, die oft für Training und Inferenz gleichermaßen gedacht waren, konzentriert sich Ironwood auf die Phase, in der Modelle bereits trainiert sind und Ergebnisse liefern müssen.

Technische Leistung

Man erzielt mit Ironwood beeindruckende Leistungswerte. Jeder Chip bietet eine Spitzenleistung von 4.614 Teraflops in FP8-Präzision. In großen Konfigurationen mit 9.216 Chips erreicht man bis zu 42,5 Exaflops – eine Rechenleistung, die für komplexe KI-Workloads entscheidend ist. Zudem verfügt jeder Chip über 192 GB High-Bandwidth-Memory (HBM), sechsmal mehr als beim Vorgänger Trillium, mit einer Bandbreite von 7,4 Terabit pro Sekunde. Damit kann man große Datenmengen schnell verarbeiten, ohne häufige Transfers.

Ein zentraler Vorteil von Ironwood ist seine Energieeffizienz. Man spart im Vergleich zu Trillium doppelt so viel Strom und erreicht eine fast 30-fache Verbesserung gegenüber Googles erster TPU von 2018. In einer Zeit, in der KI-Workloads enorme Energiemengen verbrauchen, ist dies ein entscheidender Fortschritt.

Man kann Ironwood in zwei Größen einsetzen: eine kleinere Variante mit 256 Chips für standardisierte Aufgaben und eine große mit 9.216 Chips für besonders anspruchsvolle Anwendungen. Beide Konfigurationen sind flüssigkeitsgekühlt und nutzen ein verbessertes Inter-Chip-Interconnect (ICI) mit 1,2 Terabit pro Sekunde, was die Kommunikation zwischen Chips beschleunigt.

Integration in den AI Hypercomputer

Ironwood ist ein Kernbestandteil von Googles AI Hypercomputer, einer Architektur, die Hardware und Software für KI-Workloads optimiert. Mit der Pathways-Software kann man Tausende Chips effizient orchestrieren, um verteilte Berechnungen durchzuführen. Dies ermöglicht es, große Modelle wie Gemini 2.5 oder Mixture-of-Experts-Architekturen zu betreiben.

Man findet in Ironwood eine verbesserte SparseCore, die speziell für große Datenmengen in Ranking- oder Empfehlungssystemen optimiert ist. Damit kann man nicht nur traditionelle KI-Anwendungen, sondern auch Berechnungen in Finanzen oder wissenschaftlichen Simulationen beschleunigen. Diese Flexibilität macht Ironwood vielseitig einsetzbar.

Verfügbarkeit

Man wird Ironwood ab später im Jahr 2025 über Google Cloud nutzen können. Es ist nicht als eigenständiges Produkt erhältlich, sondern ausschließlich über die Cloud-Infrastruktur zugänglich. Damit zielt Google darauf ab, Unternehmen und Entwicklern Zugang zu modernster KI-Hardware zu verschaffen.

Man sieht in Ironwood ein Fundament für die sogenannte „Ära der Inferenz“, in der KI nicht nur Daten liefert, sondern aktiv Erkenntnisse generiert. Mit seiner hohen Leistung, Effizienz und Flexibilität stärkt Ironwood Googles Position im Wettbewerb mit Anbietern wie Nvidia. Gleichzeitig unterstützt es die Weiterentwicklung von Modellen wie Gemini und anderen KI-Innovationen.