Visual Studio Code拡張機能でPythonでデータ分析入門 その10
Visual Studio Code拡張機能でPythonでデータ分析入門 その10今までのリストが、「Google Coraboratory」でも動くか挑戦してみました。とりあえず、リスト1の分だけ、以下に掲載しますが、「ma03000.csv」ファイルの位置を設定することで、リスト2~7も動きました。#====================================================================## 「Google Coraboratory」でのPython開発環境に挑戦!!## 参考にしたURLは次のとおり。## https://blog.kikagaku.co.jp/google-colab-howto## 最初、なかなかうまく動かず、原因が分かりませんでした。# どうも、読み込むべきファイル(ma030000.csv)が読み込めていないよう# なのですが、どこに置けば良いのかが、分かりませんでした。# 次のURLに、ファイルを読み込み方が書いてあり、参考になりました。## https://www.ushiji.online/colab-file-upload## Google Coraboratoryでファイルを読み込む場合、いろいろなやり方がある# ようですが、Google Drive(グーグルドライブ)を接続する(マウント)# 方法を採用しました。## ①「Google Coraboratory」を起動する。# ②左のファイルアイコンをクリックして開き、上に3つ並んでいるアイコンの# 一番右側のアイコンをクリックして、Google Drive(グーグルドライブ)を# 接続(マウント)する。# ③読み込みたいファイル(ここでは、「ma030000.csv」)を「MyDrive」の直下# 置く。# ④これで、'/content/drive/MyDrive/ma030000.csv'とすることで、ファイルに# アクセスできるようになる。##=====================================================================## 特集1 Visual Studio Code拡張機能でPythonでデータ分析入門##『日経ソフトウエア』2022年03月号(p.06~p.23)## 準備編 「開発環境を構築する」# ① Pythonのインストール# ② VSCodeのセットアップ# ③ 拡張機能「Python」# ④ Pythonインタプリタの設定# ステップ1「データを確認する」# ① オープンデータを利用する# ② 拡張機能「Edit csv」# ③ 拡張機能「Jupyter」# ④ 変数を可視化する# ステップ2「データを整形する」# ① 表の列名(カラム名)を整形する# ② 数値ではないデータを置き換える# ステップ3「グラフを描画する」# ① グラフを作成する# ② 分析データをCSVで書き出す# 応用編 「コードを整理する」# ① 拡張機能「Gather」## この記事では、# VSCodeのバージョンは、1.62.0# Python3.9.7(conda4.10.3)# 環境で動作確認を行ったとのこと。## プログラムコのサンプルードは、こちらから入手可能のようです。## ここで利用するCSVファイルには、欠損値などが含まれており、# そのままではPythonで読み込んでグラフの作成処理ができない。## ① オープンデータを利用する# まず、オープンデータの「日本の人口統計データ」のCSVファイルをダウンロードする。# 「オープンデータ」とは、営利・非営利目的を問わず、2次利用が可能で、かつ無償で# 利用できる、公開されているデータ。# ここでは、デジタル庁が整備、運営する「データカタログサイト」からデータをダウン# ロードする。サイトには、次のURLからアクセスできる。# https://www.data.go.jp/# 日本の各都道府県の人口についてのデータ(厚生労働省の「人口動態調査_人口動態統計# _確定数_総覧_年次_2020年」というデータセットを検索し、「上巻_3-3-1_都道府県# (特別区-指定都市再掲)別に見た人口動態総覧」というCSVファイル)をダウンロード# する。# ダウンロードしたファイル「ma030000.csv」は、デスクトップに「VSCode_data」と# いう作業用のフォルダーを作り、そこに格納する。# このCSVファイルをVSCodeで開いて、内容を確認する。# 画面左側の「エクスプローラー」→「フォルダーを開く」から「VSCode_data」フォルダー# を開く。# ② 拡張機能「Edit csv」# このままでは、見にくいので、拡張機能「Edit csv」を導入する。# 拡張機能「Edit csv」は、CSVデータを表形式で表示し、編集も可能な拡張機能。# VSCodeで、「拡張機能」アイコンをクリックし、「Edit csv」を検索し、インストール# する。# インストール後、再度「ma030000.csv」ファイルを読み込み、右上の「Edit csv」を# クリックすると、表形式で表示される。# 明らかに必要のない1~4行目を削除する。# 「Apply changes to file and save」ボタンを押して、保存する。## ③ 拡張機能「Jupyter」# 保存した「ma030000.csv」データをPythonで読み込めるかどうかを確認する。# ここから先のPythonコードの入力と実行には、VSCodeの拡張機能「Jupyter」# を使用する。# ノートブック形式で、先ほどデスクトップに作った「VSCode_data」フォルダに# 新しくファイル(ファイル名「demographics.jpynb」)を作る。## ④ 変数を可視化する# ノートブックにPythonのコードを記述し、Pythonで処理できるデータとして、CSV# ファイルを読み込めるかどうかを確認する。# データ処理には、[pandas」というモジュールを使用する。# [pandas」では、「DataFrame」という形式でデータを保持して、処理するので、ここでは# CSVファイルを読み込んで、「DataFrame」形式に変換する。## リスト1●CSVファイルを「DataFrame」形式で読み込むコード## (1)「pandas」モジュールを「pd」という名前でインポートする。import pandas as pd# (2)CSVファイルの読み込みは、「pd.read_csv()」で行う。# 「ma030000.csv」ファイルを読み込み、「data」という「DataFrame」形式の変数に代入する。# 「ma030000.csv」ファイルは、日本語を含むCSVファイルなので、もじばけしないように# 「"Shift-jis"」の文字コードを指定している。# 「pd.read_csv()」では、デフォルトで、先頭1行目が自動的に表の列名として読み込まれてしまう# ので、列名を設定しないように、「header=None」を指定している。data = pd.read_csv('/content/drive/MyDrive/ma030000.csv', encoding="Shift-jis", header=None)# (3)「data.head()」は、変数「data」の先頭5行分を表示するコード。data.head()