Share to: share facebook share twitter share wa share telegram print page

 

機械判読可能なデータ

機械判読可能なデータ(きかいはんどくかのうなデータ、英語: Machine-readable data)とは、コンピューターソフトウェアプログラミング言語)で容易に処理できるデータ形式を指す。機械判読可能データは構造化されている必要がある[1]機械判読に適したデータ機械可読なデータマシンリーダブルデータなどとも呼ばれる。

概要

アメリカ合衆国で2019年1月に署名されたオープンデータ法(OPEN Government Data Act)では、「意味を全く失うことなく、人の介入なくコンピュータで容易に処理可能な形式のデータ」[2] と定義されている。 この法令ではアメリカの連邦行政機関にデータを基本的に公開するように義務付け、すべての公開データアセットが機械判読可能であることを保証している[3]

日本では総務省が2020年に政府統計(e-Stat)の統計表を作成する際の統一ルールとして「統計表における機械判読可能なデータの表記方法」を策定している[4]

また、コンピューター上で閲覧・表示可能な電子文書・電子データと同義ではない。 オンライン上に存在する電子文書が人間にとっては容易に判読できるものだったとしても、それは必ずしもコンピューターにとって判読できるものとは限らない。 例えば紙媒体をスキャンしたPDFや画像に記載されている表は、人間は一目見て内容を理解できるが、プログラミング言語を用いてその内容を抽出・加工することは困難である。

一般的に、機械判読可能データから人間も判読しやすいデータを生成することは容易であるが、逆に人間だけが判読できるデータから機械判読データを生成することは困難である。

分類

機械判読可能データは大きく2つに分けられる。

  • 人間にも判読できるデータ - マークアップ言語であり、機械にとっても判読可能であるデータ
  • 主にコンピューターによる処理を目的としたデータ

ただし、これらの形式であったとしても、中身が正しく構造化されていなければ機械判読はできない。 例えば、構造に問題のあるExcelファイルからCSVファイルをエクスポートしたとしても、それは機械判読可能にはならない。

機械判読性を高めるための工夫の例

1セルに1データのみ記載する
1セルに複数年度などのデータを入力するのではなく、単年度など項目ごとにセルを分ける[5]
セルを結合しない[6]
プログラムから結合されたセルを解読しようとする場合、結合された範囲などを認識する複雑な処理が生じてしまう。そのため、結合するのではなく同一の値を個々のセルに記載して対応することが望ましい。
値を省略しない[6]
前行などと同一の値であったとしても、値を省略しない。
複数の表を1つのデータセットに記載しない[6]
1つのデータセット(Excelの1シート上など)に複数の表が記載されている場合、表がどこで分割されているかなどを認識する必要が生じるため、機械判読が困難になる。そのため、1つのデータセットには1つの表のみを記載する。複数の表を扱う必要がある場合、データセットを表の数に応じて分割する。
位取りや見栄えのための記号や、注などをデータに含ませない[6]
「11,000」のように数値の中にカンマを含んだり、整形のために「東 京」のように空白文字(スペース)を含んだりしている場合、機械はその記号に意味があるのかどうか判別できない。そのため、必要ない記号は削除する必要がある。また、「(注1)」などの注釈も同様である。また、マイナスの値も▲などの文字で表現せず、-記号で表現すべきである[5]
オブジェクトを使用しない[5]
地理空間情報の場合、座標を併記する[6]
地理空間情報において、位置情報に関するデータを扱う場合は住所だけではなく、座標(緯度経度)も付与する。

関連項目

脚注

  1. ^ Machine readable”. opendatahandbook.org. 2019年7月22日閲覧。
  2. ^ data in a format that can be easily processed by a computer without human intervention while ensuring no semantic meaning is lost. HR4174”. stratml.us. 2019年11月29日閲覧。
  3. ^ HR4174”. stratml.us. 2019年11月29日閲覧。
  4. ^ 総務省|報道資料|統計表における機械判読可能なデータの表記方法の統一ルールの策定”. 総務省. 2023年9月11日閲覧。
  5. ^ a b c 統計表における機械判読可能なデータの表記方法奥村晴彦
  6. ^ a b c d e "数値(表)、文章、地理空間情報のデータ作成に当たっての留意事項(案)" (DOC). 首相官邸. 2019年12月6日閲覧
Kembali kehalaman sebelumnya


Index: pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9