にわか管理者のためのLinux運用入門(315) Macで行く - Mac awkとGNU awkの違いを知る

awkの実装の違いを知る

前回説明したように、Macに標準で搭載されているawkは「nawk」、Linuxディストリビューションに標準で搭載されているawkは「GNU awk」だ。nawkは最もオリジナルに近いawkの実装系で、AWK開発者らがまとめた書籍で説明されている機能がほぼそのまま実装されている。ほかの実装系との互換性も一番高いawkだ。

一方、Linuxディストリビューションに標準でデプロイされていることが多いawkコマンドはGNU awkだ。こちらはオリジナルのawkコマンドとの互換性は保ちつつ、さまざまな拡張機能が追加されている。具体的にはプログラミング言語としての機能が強化されており、GNU awkだけでさまざまなことができるようになっている。

こうした違いがあるので、Linuxのawkコマンドを使って開発していたスクリプトがMacでは動かない、といったような事態が起き得る。知っていればこの辺りで苦労することもなくなるので、今回はこの辺りについて簡単にまとめておこう。

オリジナルの機能

正確に全体を網羅したものではないが、AWK本に記載されていて実装系ごとの互換性が確保されている機能についてざっとまとめておく。まず、awkの基本的なプログラミングは次の形式で成り立っている。

パターン-アクションステートメント
パターン { アクション }

アクション部分は次のような記述ができる。

アクション
if (式) ステートメント [ else ステートメント ]
while (式) ステートメント
for (式; 式; 式) ステートメント
for (変数 in 配列) ステートメント
do ステートメント while (式)
break
continue
{ [ ステートメント ... ] }
式
print [ 式-list ] [ > 式 ]
printf フォーマット [ , 式-list ] [ > 式 ]
return [ 式 ]
next
nextfile
delete array[ 式 ]
delete array
exit [ 式 ]

提供されている関数は次の通りだ。

種類	関数
算術演算	atan2(y, x)
算術演算	cos(x)
算術演算	exp(x)
算術演算	int(x)
算術演算	log(x)
算術演算	rand()
算術演算	sin(x)
算術演算	sqrt(x)
算術演算	srand(expr)
文字列操作	gsub(r, t, s)
文字列操作	index(s, t)
文字列操作	length(s)
文字列操作	match(s, r)
文字列操作	split(s, a, fs)
文字列操作	sprintf(fmt, expr, ...)
文字列操作	sub(r, t, s)
文字列操作	substr(s, m, n)
文字列操作	tolower(str)
文字列操作	toupper(str)
入出力ほか	close(expr)
入出力ほか	コマンド｜ getline [変数]
入出力ほか	getline
入出力ほか	getline 変数
入出力ほか	getline [変数]
入出力ほか	system(コマンド)

提供されている変数は次の通りだ。

特殊変数	内容
ARGC	引数の数
ARGV	引数の配列
CONVFMT	数字を変換するときのフォーマット(デフォルト "%.6g")
ENVIRON	環境変数の配列
FILENAME	入力ファイルの名前
FNR	現在のファイルにおける現在のレコードの順序番号
FS	正規表現で表記されるフィールドセパレータ
NF	現在のレコードのフィールド数
NR	現在のレコードの順序番号
OFMT	数字の出力フォーマット(デフォルト "%.6g")
OFS	出力フィールドセパレータ(デフォルトブランク)
ORS	出力レコードセパレータ(デフォルト改行)
RLENGTH	match()関数で一致した文字列の長さ
RS	入力レコードセパレータ(デフォルト改行)
RSTART	match()関数で一致し文字列の開始ポジション
SUBSEP	添字の区切りデータ

コマンドオプションも次のように限定的だ。

コマンドオプション	内容
-F	正規表現で使われる入力データフィールドセパレータを指定
-v 変数=値	指定した変数に指定した値を設定した状態でプログラムを実行。複数回指定可能
-f ファイルパス	コマンドラインからではなく、指定されたファイルからプログラムを読み込み

演算子やそのほかの変数など書かないといけないことはほかにもあるのだが、それらはどの実装系でも同じで拡張されていることも少ない部分なので、とりあえず上記を基本の機能として捉えておけばよいだろう。

上記をご覧いただけばわかるように、awkで提供されている機能は現在主流のプログラミング言語と比べてとてもシンプルなものだ。テキストデータ処理に必要となる最小限かつ便利な機能が詰まったもののようなもので、コマンドとプログラミング言語の中間くらいの位置付けといってもよいかもしれない。

しかしながら、awkの提供する機能は本質的で強力だ。これらの機能を使いこなせるだけでも多くの処理を実現できる。

nawkの拡張機能

Mac nawkの拡張機能はかなり少ない。オリジナルのawkに対して次のような拡張機能が取り込まれているくらいだ。若干動作が異なる部分もあるが、基本的はこの辺りだと考えておいていただきたい。

Mac nawk 拡張機能
fflush()関数
POSIXLY_CORRECT環境変数

Mac awk

Macに取り込まれている基本的なコマンドはFreeBSDから移植されたものだ。FreeBSDはnawkをawkの実装として採用しており、このためMacのawkもnawkだ。このFreeBSDのnawkのほうはもうちょっと拡張機能が追加されている。簡単にまとめると次のようになる。

FreeBSD nawk拡張機能
-dオプション
-Vオプション
-safeオプション
fflush()関数
compl()関数
and()関数
or()関数
xor()関数
lshift()関数
rshift()関数

コマンドオプションがいくつかと、ビット演算用の関数が追加されている。ビット演算はオリジナルにはない機能なので、ビット演算をした段階でほかのawk実装系との互換性はあまり期待できないことになる。

GNU awkの拡張機能

ではGNU awkの拡張機能を見てみよう。nawkの拡張機能と比べると、GNU awkの拡張機能はかなり多い。その全てをここで紹介するのは難しいので、代表的なところを大雑把にまとめておく。

GNU awk拡張機能
--fileオプション
--field-separatorオプション
--assignオプション
-bオプション
--characters-as-bytesオプション
-cオプション
--traditionalオプション
-Cオプション
--copyrightオプション
-dオプション
--dump-variablesオプション
-Dオプション
--debugオプション
-eオプション
--sourceオプション
-Eオプション
--execオプション
-gオプション
--gen-potオプション
-hオプション
--helpオプション
-iオプション
--includeオプション
-lオプション
--loadオプション
-Lオプション
--lintオプション
-Mオプション
--bignumオプション
-nオプション
--non-deciman-dataオプション
-Nオプション
--use-lc-numericオプション
-oオプション
--pretty-printオプション
-Oオプション
--optimizeオプション
-pオプション
--profileオプション
-Pオプション
--posixオプション
-rオプション
--re-intervalオプション
-sオプション
--no-optimizeオプション
-Sオプション
--sandboxオプション
-tオプション
--link-oldオプション
-Vオプション
--versionオプション
--オプション
@include機能
@load機能
@namespace機能
8進数定数
16進数定数
｜&演算子
\xエスケープシーケンス
ローカライズ文字列
I/O拡張機能
BEGINFILE特殊パターン
ENDFILE特殊パターン
ARGIND変数
AWKPATH変数
BINMODE変数
ERRNO変数
FIELDWIDTHS変数
FPAT変数
FUNCTAB変数
IGNORECASE変数
LINT変数
PREC変数
PROCINFO変数
ROUNDMODE変数
RT変数
SYMTAB変数
TEXTDOMAIN変数
RS変数の正規表現拡張
and()関数
asort()関数
asorti()関数
bindtextdomain()関数
compl()関数
dcgettext()関数
dcngettext()関数
gensub()関数
lshift()関数
mktime()関数
or()関数
patsplit()関数
rshift()関数
strftime()関数
strtonum()関数
systime()関数
xor()関数
split()拡張動作
close()拡張動作
match()拡張動作
printf()拡張動作
sprintf()拡張動作
length()拡張動作
POSIXLY_CORRECT環境変数

このように、GNU awkには拡張機能が多い。コマンドオプションも豊富だし、@からはじまる独自の機能もある。変数、関数、パターンが新たに追加されているほか、いわゆるプログラミング言語仕様に相当する部分の機能も拡張されている。

ポイントは「別物」と捉えること

上述したように、GNU awkの機能はオリジナルのawkよりもかなり拡張されている。オリジナルのawkの機能とは互換性があるものの、拡張機能を使った場合には全くの別のコマンドのようなものだ。GNU awkの拡張機能をオリジナルの機能を置き換えることができるかと言えばそんなことはなく、基本的に拡張機能を使った時点で別物だと考えたほうがよい。

逆に、GNU awkの拡張機能を使わずにnawkの機能だけで実装できるなら、それはそれで推奨できる。互換性が高いので、ほかのawkで実行できるからだ。特にmawkの存在が大きい。awkでテキスト処理をしている場合、データサイズが大きいとそれだけで数時間かかるようなケースも出てくる。しかし、nawk互換にしておけば実装系をmawkへ入れ替えるだけで高速化が期待できる。これは大きなアドバンテージだ。GNU awkでしか動かないとこうはいかない。高速化を考えるなら、nawk互換にしておくことには意味があるのだ。

今回紹介したawkの実装系を理解しておくだけで、用途に応じて使い分け、適切な活用ができるようになる。そもそもawk自体が便利なコマンドなので、こうした違いをしっかり把握しておきたい。

Macで行く - Mac awkとGNU awkの違いを知る

awkの実装の違いを知る

オリジナルの機能

nawkの拡張機能

GNU awkの拡張機能

ポイントは「別物」と捉えること

参考

この連載の前後回

AIが勧める、あなたのための会員限定記事

Micron幹部が中国メモリ勢の成長認める、AppleはCXMT調達で米政府に働きかけ

航空機構造を軽くする接着剤設計の効率化へ　東北大がCFRP接着構造の強度予測を実現

WordPressプラグイン・テーマの脆弱性最新情報第31回 WordPress脆弱性16件、UpdraftPlus PremiumのRCEに注意【6月11日～6月17日】

慶大、アルマ望遠鏡でいて座A＊を公転する2つのホットスポットを検出

高校生がゾウムシの成虫に寄生する新種のハチを発見！

JAXAなど、X線ドップラートモグラフィで中性子連星のガス流を可視化

電通×電通デジタル、データクリーンルーム分析を支援する「Tobiras Agent」

長崎・雲仙市役所がLGWAN系へのGoogle Workspace/アドオンツールの先駆的導入で業務効率の向上を実現

データから価値を生み出し続けるための基盤とは──Microsoft Fabricで変わるデータ活用

AWS白幡社長「AIエージェントを使いこなせるのは『フライホイール』を持つ企業」

軍事とIT 第668回水上戦と対潜戦で敵味方はどう見分けるのか｜戦闘識別(5)

フジテレビ、冬季国際スポーツ大会の中継制作をAWSでクラウド化　ネットワークコスト45％削減

このカテゴリーについて

Macで行く - Mac awkとGNU awkの違いを知る

awkの実装の違いを知る

オリジナルの機能

nawkの拡張機能

GNU awkの拡張機能

ポイントは「別物」と捉えること

参考

この連載の前後回

AIが勧める、あなたのための会員限定記事

Micron幹部が中国メモリ勢の成長認める、AppleはCXMT調達で米政府に働きかけ

航空機構造を軽くする接着剤設計の効率化へ 東北大がCFRP接着構造の強度予測を実現

WordPressプラグイン・テーマの脆弱性最新情報 第31回 WordPress脆弱性16件、UpdraftPlus PremiumのRCEに注意【6月11日～6月17日】

慶大、アルマ望遠鏡でいて座A＊を公転する2つのホットスポットを検出

高校生がゾウムシの成虫に寄生する新種のハチを発見！

JAXAなど、X線ドップラートモグラフィで中性子連星のガス流を可視化

電通×電通デジタル、データクリーンルーム分析を支援する「Tobiras Agent」

長崎・雲仙市役所がLGWAN系へのGoogle Workspace/アドオンツールの先駆的導入で業務効率の向上を実現

データから価値を生み出し続けるための基盤とは──Microsoft Fabricで変わるデータ活用

AWS白幡社長「AIエージェントを使いこなせるのは『フライホイール』を持つ企業」

軍事とIT 第668回 水上戦と対潜戦で敵味方はどう見分けるのか｜戦闘識別(5)

フジテレビ、冬季国際スポーツ大会の中継制作をAWSでクラウド化 ネットワークコスト45％削減

このカテゴリーについて

航空機構造を軽くする接着剤設計の効率化へ　東北大がCFRP接着構造の強度予測を実現

WordPressプラグイン・テーマの脆弱性最新情報第31回 WordPress脆弱性16件、UpdraftPlus PremiumのRCEに注意【6月11日～6月17日】

軍事とIT 第668回水上戦と対潜戦で敵味方はどう見分けるのか｜戦闘識別(5)

フジテレビ、冬季国際スポーツ大会の中継制作をAWSでクラウド化　ネットワークコスト45％削減