機械判読可能なデータ機械判読可能なデータ(きかいはんどくかのうなデータ、英語: Machine-readable data)とは、コンピューター(ソフトウェア、プログラミング言語)で容易に処理できるデータ形式を指す。機械判読可能データは構造化されている必要がある[1]。機械判読に適したデータ、機械可読なデータ、マシンリーダブルデータなどとも呼ばれる。 概要アメリカ合衆国で2019年1月に署名されたオープンデータ法(OPEN Government Data Act)では、「意味を全く失うことなく、人の介入なくコンピュータで容易に処理可能な形式のデータ」[2] と定義されている。 この法令ではアメリカの連邦行政機関にデータを基本的に公開するように義務付け、すべての公開データアセットが機械判読可能であることを保証している[3]。 日本では総務省が2020年に政府統計(e-Stat)の統計表を作成する際の統一ルールとして「統計表における機械判読可能なデータの表記方法」を策定している[4]。 また、コンピューター上で閲覧・表示可能な電子文書・電子データと同義ではない。 オンライン上に存在する電子文書が人間にとっては容易に判読できるものだったとしても、それは必ずしもコンピューターにとって判読できるものとは限らない。 例えば紙媒体をスキャンしたPDFや画像に記載されている表は、人間は一目見て内容を理解できるが、プログラミング言語を用いてその内容を抽出・加工することは困難である。 一般的に、機械判読可能データから人間も判読しやすいデータを生成することは容易であるが、逆に人間だけが判読できるデータから機械判読データを生成することは困難である。 分類機械判読可能データは大きく2つに分けられる。
ただし、これらの形式であったとしても、中身が正しく構造化されていなければ機械判読はできない。 例えば、構造に問題のあるExcelファイルからCSVファイルをエクスポートしたとしても、それは機械判読可能にはならない。 機械判読性を高めるための工夫の例
関連項目脚注
|