Hierarchical Data Format
El format de dades jeràrquiques HDF (Hierarchical Data Format, en anglès) és un conjunt de formats de fitxers (HDF4, HDF5) dissenyat per a emmagatzemar i organitzar grans quantitats de dades. Va ser desenvolupat al Centre Nacional d'Aplicacions per a la Supercomputació dels Estats Units. Actualment, aquest format és mantingut per The HDF Group, una organització sense ànim de lucre que té com a objectiu seguir desenvolupant les tecnologies HDF i mantenir l'accés a dades emmagatzemades en aquest format. Les eines i biblioteques de codi HDF es poden usar lliurement, ja que d'una llicència de programari lliure de tipus BSD. HDF és donat suport per molt anunci i programari no comercial plataformes i llenguatges de programació. La distribució gratuïta de l'HDF es compon de la biblioteca de codi, programes per a la línia de comandes, codi de mostra i validació, una interfície Java i una eina de visualització, HDFView, també basada en Java.[2] La versió actual, HDF5, és significativament diferent de la versió HDF4 tant pel que fa al disseny com a les Interfícies de Programació d'Aplicacions (API) que utilitzen. HistòriaEl 1987, el Centre Nacional d'Aplicacions per a la Supercomputació dels EUA va començar a desenvolupar un format per a emmagatzemar dades científiques de manera jeràrquica portàtil. El projecte fou inicialment conegut com a AEHOO («All Encompassing Hierarchical Object Oriented format», en anglès). Aquest projecte va ser finançat amb beques de la Fundació Nacional per a la Ciència (NSF) el 1990 i el 1992, i va culminar amb l'elecció del format HDF com un nou estàndard dos anys més tard.[3] HDF4HDF4 és la versió més antiga del format HDF, tot i que segueix sent mantinguda per The HDF Group. Permet emmagatzemar dades en diferents models, incloent vectors multidimensionals, mapes de bits o taules. Cada model defineix un tipus de dades específic i està associat a una API que permet llegir, escriure i organitzar dades i metadades.
El format HDF4 té diverses limitacions.[4][5] No té un model d'objecte clar, la qual cosa dificulta el manteniment del codi. Degut a què utilitza diferents estils d'interfície per a accedir a diferents tipus de dades (vectors, imatges, taules...), la seva API és excessivament complicada. A més a més, la manera com s'interpreten les metadades depèn de la interfície que s'estigui utilitzant: algunes són flexibles i permeten qualsevol tipus d'atributs, mentre que d'altres només funcionen amb metadades pre-definides. La limitació més important, però, és que el format HDF4 té un límit de 2GB d'emmagatzematge, degut a què es basa sencers de 32 bits. HDF5El format HDF5 va ser dissenyat per a resoldre algunes de les limitacions, presents i anticipades, de l'antic format HDF4. El 2002 va guanyar un R&D 100 Award.[6] HDF5 simplifica l'estructura de l'arxiu, que ara es basa en només dos tipus d'objecte:
Aquesta organització permet que les dades emmagatzemades en format HDF5 puguin ser llegides de manera jeràrquica, com si fossin un sistema de fitxers. De fet, és possible accedir a dades HDF5 mitjançant una sintaxi de ruta d'estil POSIX. Les metadades es poden desar com a atributs addicionals definits per l'usuari, i també es poden combinar metadades, datasets i grups per a definir continguts complexes com ara taules i imatges. A més d'aquests avenços, HDF5 inclou un sistema de tipus millorat, i un sistema per seleccionar regions concretes dels datasets. A més a més, la seva API està dissenyada per a poder treballar amb els diferents tipus d'objectes de què es compon el format (datasets, grups, atributs, tipus, espais de dades i llistats de propietats). La darrera versió de NetCDF (4) està basada en HDF5. Degut a què HDF5 utilitza B-arbres com a índex de la taula d'objectes, aquest format es pot fer servir per a emmagatzemar sèries de dades temporals com ara valors borsaris, informació de control de xarxa, o dades meteorològiques. El gruix de dades s'emmagatzema en forma de vectors fàcilment accessibles (més ràpidament que una base de dades SQL), mentre que l'índex en format B-arbre facilita l'accés a les dades no vectorials. CrítiquesEl format HDF5 ha estat criticat degut al seu disseny monolític i a la llargada de la seva especificació formal.
InterfíciesAPIs amb suport oficial
Aplicacions de tercers
Referències
Enllaços externs
This article is based on material taken from the Free On-line Dictionary of Computing prior to 1 November 2008 and incorporated under the "relicensing" terms of the GFDL, version 1.3 or later. |