機械判読可能なデータの作成

 YouTubeに突然、Excelの使い方についてのおすすめがでてきて、何をしたせいかなと不安に思いつつ、ついつい見てしまったのですが、総務省が作った資料が何かあるらしく検索してみると、それらしいPDFファイルがありました。(「統計表における機械判読可能なデータ作成に関する表記方法について」https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html)令和2年12月18日の資料でかなり前のものですが、紹介のブログや記事が同時にかなり検索されましたから当時は話題だったようです。消えて欲しいことも沢山ありますが、こうやっていつまでも残っているのはありがたいことです。
 資料の目的として「各府省がe-Statに登録する機械判読可能な統計表を作成する上で留意すべき事項についてとりまとめ、統一ルールとして作成するものです。」とある通り、Excel形式の統計表データを皆で活用するための注意点がまとめられています。見た目重視で表を作成すると活用の障害になる例が修正前後のイメージでわかりやすく示されていますので未読のかたは一度、目を通しておくことをおすすめします。
 その中に「数値データは数値属性とし、文字列を含まないこと」というチェック項目がありました。数値の欄は、▲100とか1,000ではなく、数値データは数値属性として入力することと書かれているのですが、先輩からマイナスは▲と書くのが常識だと怒られたり、紙の資料からの転記を延々と繰り返すような作業していると、そのまま入力することもあるような気もします。(朝日新聞デジタル2022/10/21「エクセル任せで点検不十分」マイナス収支で「△三角」と誤入力)
 ちなみにマイナスを▲で表記するのは日本だけの習慣らしく上記の朝日新聞の記事も、その辺りの経緯を検索していて見つけたものです。記事には他にも108.1%が1.081%になっていたというものもあり単位をつけろと言われて%を単純に付けたのだろうかとか色々想像してしまいますが、チェック項目には「データの単位を記載しているか」というものもあります。(この場合は、%にするために100かけるかどうか判断する必要があるので記載すればよいというわけではありませんが)
 このチェック項目が気になったのは、Excelの機能を活用するなら書式設定を設定してデータは数値のままで見た目だけを▲にすればよいのではと思ったからなのですが、ExcelをCSVに変換して出力すると見た目通りに▲100と出力されてしまいます。結局、データ活用のためには余計なことはしないほうがよさそうです。

あれこれ書きましたが今時のAIなら、この辺は気にすることなく統計表のデータに変換してくれるのかもしれません。一度試してみようと思います。

(内山)