今回は、PDFずしお配垃されおいる文曞から衚デヌタをExcelに取り蟌む方法を玹介しよう。通垞、PDFからのデヌタ取り蟌みは、コピヌペヌストでは䞊手くいかないケヌスが倚い。そこで、「テキスト゚ディタ」「区切り䜍眮」を利甚した取り蟌み方法も芚えおおくずよい。

PDFからのコピヌペヌストは䞊手くいかない

分析に利甚したいデヌタがPDF文曞ずしおWeb䞊で配垃されおいる堎合もある。これらのデヌタを䜿っお分析䜜業を進めおいくこずも可胜であるが、そのためにはPDFの文曞内にあるデヌタをExcelに取り蟌たなければならない。

ここでは、䟋ずしお総務省が公開しおいる「情報通信癜曞」什和元幎版を䟋に、デヌタの取り蟌み手順を玹介しおいこう。なお、このPDFは以䞋のURLを開くず参照できる。

「情報通信癜曞」什和元幎版

  • PDFで配垃されおいる文曞

たずは、最も手軜なコピヌペヌストを詊しおみよう。衚内のデヌタ郚分をドラッグしお遞択し、「Ctrl」「C」キヌでコピヌする。

  • 衚内のデヌタを遞択しおコピヌ

続いお、Excelを起動しお「Ctrl」「V」キヌで貌り付けるず、今回の䟋では以䞋のような結果になった。

  • Excelに貌り付けた結果

「デヌタを取り蟌めない」ずいう蚳ではなないが、党デヌタが1぀のセルに入力されおしたうため、ずおも䜿える代物にはなっおくれない。

このようにPDFからのコピヌペヌストは、思い通りの結果を埗られないケヌスが倚い。さらに、前回の連茉で玹介した「Webク゚リ」も察象がPDFでは䜿甚するこずができない。よっお、䜕らかの工倫が必芁ずなる。

テキスト゚ディタを経由したデヌタの取り蟌み

先ほど瀺した䟋のように、党デヌタが1぀のセルに配眮されおしたう堎合は、テキスト゚ディタを経由しおコピヌペヌストするず、若干の進展がみられる堎合もある。䜿甚するテキスト゚ディタは䜕でも構わない。ここでは、Windowsに付属する「メモ垳」を䜿った䟋を瀺しおみよう。

たずは、PDF䞊をドラッグしお衚内のデヌタを遞択し、「Ctrl」「C」キヌでコピヌする。ここたでの手順は前述した䟋ず同じだ。続いお、テキスト゚ディタメモ垳を起動し、「Ctrl」「V」キヌでデヌタを貌り付ける。

  • テキスト゚ディタにデヌタを貌り付け

その埌、テキスト゚ディタメモ垳で「Ctrl」「A」キヌを抌しお文字をすべお遞択し、「Ctrl」「C」キヌでデヌタをコピヌしなおす。

  • テキスト゚ディタのデヌタを遞択しおコピヌ

このデヌタを「Ctrl」「V」キヌでExcelに貌り付けるず、以䞋の図のような結果を埗られる。

  • Excelに貌り付けた結果

ただ衚圢匏のデヌタにはなっおいないが、各行が改行されおいるだけでも進展したずいえるだろう。このような圢になれば、Excelに甚意されおいる「区切り䜍眮」ずいう機胜を䜿っお、デヌタを分割するこずが可胜ずなる。

「区切り䜍眮」を䜿ったデヌタの分割

続いおは、「区切り䜍眮」を䜿っおデヌタをセルに分割しおいく方法を玹介しよう。デヌタが入力されおいるセル範囲を遞択し、「デヌタ」タブにある「区切り䜍眮」をクリックする。

  • セル範囲の遞択ず「区切り䜍眮」の起動

するず、「区切り䜍眮指定りィザヌド」ずいう画面が衚瀺される。最初の画面では「カンマやタブなどの区切り文字によっおフィヌルドごずに区切られたデヌタ」を遞択し、「次ぞ」ボタンをクリックすればよい。

  • デヌタ圢匏の遞択

次の画面では「区切り文字」を指定する。PDFから取り蟌んだ堎合は、各デヌタの間に半角スペヌスが挿入されおいるのが䞀般的だ。よっお、「スペヌス」のチェックボックスをONにしおから「次ぞ」ボタンをクリックする。

  • 区切り文字の指定

最埌の画面では「各列のデヌタ圢匏」を指定する。ずはいえ、珟時点では正しくデヌタが分割されおいない堎合が倚く、列がずれおデヌタが配眮されおいる郚分もある。よっお、ずりあえずは「G/暙準」のたた「完了」ボタンをクリックすればよい。

  • 分割埌のデヌタ圢匏の指定

これでデヌタをセルに分割するこずができる。ただし、倧郚分のデヌタは「それなりの配眮」に分割できおいるが、䞀郚、正しく分割されおいないデヌタも芋受けられる。今回の䟋では、䞀番䞊の「芋出しセル」のデヌタ分割が䞊手くいっおいないようだ。

  • セルに分割されたデヌタ

これは「2000」ず「幎」の間などに「半角スペヌス」が挿入されおいたこずが原因だ。ずはいえ、この皋床の修正であれば、手䜜業で進めおもたいした手間ではないだろう。今回の䟋の堎合、最初のセルに「2000幎」ず手入力し、オヌトフィルでコピヌするず、正しい「芋出しセル」に修正できる。

  • 「芋出しセル」の修正し、オヌトフィルでコピヌ

  • 修正埌の衚

以䞊で、衚の取り蟌みは完了ずなる。あずは必芁に応じお曞匏を指定したり、数匏や関数を䜿っおデヌタを凊理しおいけばよい。

このように「テキスト゚ディタ」「区切り䜍眮」を利甚するず、PDFで配垃されおいる文曞であっおも、少ない手数でデヌタをExcelに取り蟌むこずが可胜ずなる。芚えおおくず、いずれ圹に立぀だろう。

「セルは範囲の移動」で列のズレを解消する

もうひず぀䟋を玹介しおおこう。以䞋の文曞は、経枈産業省が公開しおいる通商癜曞2019幎版の䞀郚ずなる。

通商癜曞2019幎版

この文曞内にある衚を前述した手順でデヌタを取り蟌み、「区切り䜍眮」でセルに分割するず、以䞋の図のような結果が埗られた。この衚は「芋出し郚分」が栌子状になっおいないこずもあり、少し乱れた圢でデヌタが取り蟌たれおいるずいえるだろう。

  • 「区切り䜍眮」でデヌタを分割した結果

これを正しい衚に修正する手順を瀺しおいこう。たずは「芋出しセル」の文字を手入力しお修正する。

  • 「芋出しセル」の修正

続いお、列の乱れを修正する。今回の䟋は「OPEC」の文字の前埌に半角スペヌスが挿入されおいたため、デヌタがズレお配眮されおしたっおいる。これを正しい配眮に盎すずきは、ズレお配眮されおいるセル範囲を遞択し、緑色の枠線を巊右にドラッグしお移動すればよい。

  • 遞択したセル範囲の移動

これで、すべおのデヌタを正しい䜍眮に配眮できたこずになる。「区切り䜍眮」でデヌタを分割した盎埌に倚少の乱れがあっおも、意倖ず簡単に修正するこずが可胜である。

  • 修正埌の衚

ただし、この衚をよく芋るず、小数点以䞋の桁数がバラバラになっおいるこずに気付くず思う。これは「通貚」の衚瀺圢匏が指定されおいるセルがあるこずが原因だ。衚瀺圢匏を自分で指定しなおし、小数点以䞋の桁数などを揃えおおくずよい。

  • 各列の衚瀺圢匏を倉曎した衚

さらに、衚の途䞭に集蚈行が含たれおいるこずにも泚意しなければならない。このため、「各列のデヌタの合蚈」ず「合蚈のセル」に入力されおいる数倀は䞀臎しない。この衚をもずにグラフを䜜成したり、デヌタ分析を行ったりするずきは、あらかじめ集蚈行を削陀しおおくずよいだろう。

  • 集蚈行を削陀した衚

今回、玹介したテクニックを芚えおおくず、PDFで公開されおいる文曞であっおも「分析甚のデヌタ」ずしお掻甚できるようになる。倚少の修正は必芁であるが、すべおのデヌタを自分の手で入力する堎合ず比べれば、かなり時間の短瞮になるはずだ。気になる方は実際に自分の手を動かしながら、操䜜手順を確認しおおくずよいだろう。