Über 3,5 Millionen digitalisierte Bücher verfügbar in Google BigQuery

Mehr als 3,5 Millionen digitalisierte frei zugängliche englischsprachige Bücher aus den vergangenen zwei Jahrhunderten aus dem Internet Archive (1,3 Millionen Bände) und HathiTrust (2,2 Millionen Bände) sind für den GDELT Global Knowledge Graph aufbereitet worden und jetzt in Google BigQuery verfügbar (via Stephen’s Lighthouse bzw. The GDELT Project):

«More than a billion pages stretching back 215 years have been examined to compile a list of all people, organizations, and other names, fulltext geocoded to render them fully mappable, and more than 4,500 emotions and themes compiled. All of this computed metadata is combined with all available book-level metadata, including title, author, publisher, and subject tags as provided by the contributing libraries. Even more excitingly, the complete fulltext of all Internet Archive books published 1800-1922 are included to allow you to perform your own near-realtime analyses.

All of this is housed in Google BigQuery, making it possible to perform sophisticated analyses across 122 years of history in just seconds. A single line of SQL can execute even the most complex regular expression or complete JavaScript algorithm over nearly half a terabyte of fulltext in just 11 seconds and combine it with all of the extracted data above. Track emotions or themes over time or map the geography of the world as seen through books – the sky is the limit!»

Dieser Beitrag wurde unter E-Books veröffentlicht. Setzen Sie ein Lesezeichen auf den Permalink.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert