にわか管理者のためのLinux運用入門(78) インターネット経由でデータを取得する「curl」(その2)

毎日特定のサイトからデータを持ってきてExcelのシートにまとめ、印刷して提出する。そんな作業もあるだろう。そうした作業は、自動化が可能だ。ここで使えるのが、前回紹介したデータを取得するためのコマンド「curl」、これまでの連載で紹介してきたデータ加工用のコマンドたちである。

例えば、天気予報のサイトから天気予報データを取得し、テキストとして表示させてみよう。


天気予報のページ	ハイライト部分の文字列を取り出すことにする

curlコマンドで対象のHTMLデータが取得できることは前回紹介した。今回の場合、次のように指定して実効する。

curlコマンドで天気予報データを取得

次に、取得したHTMLデータから欲しいデータだけを取得する。「曇り」という文字列をgrepコマンドで抽出してみよう。

grepコマンドで欲しいデータ（ここでは「曇り」）を探す

どのように加工してもよいのだが、この場合だと「height=40」という文字列で絞り込むことができそうなので、次のように指定して実行してみる。

特定のキーワード（ここでは「height=40」）で絞り込み

今回は、「alt=」という文字列の後に続く天気を表す文字列だけが取得できればよいので、次のようにさらにsedコマンドで文字列の抜き出しを行う。

sedコマンドで欲しいデータを抜き出す

後は、不要な文字列をgrepコマンドで排除するだけだ。すると、次のように欲しいデータだけ抜き出せる。

データの抜き出し完了

一連の処理をシェルスクリプトに整理すると、次のようになる。

#!/bin/sh

url=https://weather.yahoo.co.jp/weather/jp/13/4410/13101.html

curl $url 2> /dev/null                  |
grep 'height=40'                        |
gsed -E 's/alt="([^"]+)".+$/\n\1/'      |
grep -v '^<td'

当然、実行結果は先ほどと同じだ。シェルスクリプトだけ見ると何をしているのかわかりにくいが、加工の順序を追っていくと意味がわかるだろう。

業務の自動化は、将来の作業コストを減らす意味で投資でもある。ぜひとも、自動化できる部分をこっそり増やしていってもらいたい。

インターネット経由でデータを取得する「curl」(その2)

この連載の前後回

Members+ 会員限定記事

大塚製薬はゲーミフィケーションで「子どもの食育」を叶えられるのか - 「もぐもぐタウン」開発の裏側

有識者が解説、巧妙化するフィッシング詐欺に企業はどう対策を講じるべきか

メタバース×日常に強み - アダストリアが見出した活路とは

船井総研HDはなぜ、新オフィスにZoomソリューションを全面導入したのか

国内株式取引システムをAWSクラウドへ移行したSBI証券、狙いと効果を説明

「ラピダスは技術を受け入れる準備が整いつつある」 - IBM半導体研究のキーマン

ペルソナ対応もできる! 用途に応じたチャットボット作成を可能にし、企業価値を向上第1回高性能なチャットボットを活用し、業務効率化や販売促進を! ――サテライトオフィス・AIチャットボット for Mindlogic（ChatGPT対応）

船井総研HDはなぜ、新オフィスにZoomソリューションを全面導入したのか

生成AIサービス「Amazon Bedrock」に新機能 - ユーザー作成のモデルが利用可能に

NVIDIA Metropolisプラットフォーム活用の省人警備ソリューション開発、セキュア

日立、統合システム運用管理で生成AIを活用‐判断時間を約3分の2に短縮

NEC、cotomi Light搭載の「cotomi Appliance Server」を6月から販売

このカテゴリーについて