close
プログラミング クラウド Microsoft Azure 情報処理資格 基本情報技術者 IT基礎 応用情報技術者 開発・設計方法 オブジェクト指向 内定者・新人研修 プログラミング基礎 アルゴリズム コンピュータ数学 内定者研修 新人研修 ヒューマンスキル プロジェクトマネジメント プレゼンテーション リーダーシップ 組織マネジメント ネゴシエーション ロジカルシンキング Java UI/UX HTTP JavaScript基礎 情報処理資格 ネットワークスペシャリスト ネットワーク インターネットルーティング応用 IPアドレス データベース応用 SQL応用 パフォーマンスチューニング データベース設計 ER図 概念設計(データベース) 論理設計(データベース) IT資格 Linux基礎 OS・システム基盤 セキュリティ TCP/IP OSI参照モデル データベースセキュリティ ファイアウォール 標的型攻撃 SQLインジェクション ネットワーク基本設計 CCNA Cisco プロジェクトマネジメント資格 情報処理資格プロジェクトマネージャ 情報処理安全確保支援士 人事給与 財務会計 管理会計 簿記 生産管理 在庫管理 ERP バランススコアカード 情報処理資格 ITアーキテクト 情報処理資格 ITストラテジスト 情報処理資格 ITサービスマネジメント 情報処理資格 システム監査 PMBOK® PMP® プロジェクト計画 WBS リスクコントロール ITIL ITサービスマネジメント 要求定義 要件定義 見積手法 ビジネスインダストリ 業種・業界知識 業務知識 提案力 ソフトウェアテスト基礎 情報処理資格 データベーススペシャリスト ハードウェア基礎 外部設計(基本設計) 内部設計(詳細設計) データベース基礎 SQL基礎 RDBMS 物理設計(データベース) C++ Ruby MVC基礎 Webアプリケーション開発 JavaEE Javaプログラミング応用 フレームワーク MVC応用 Spring フレームワーク ソフトウェアテスト応用 テスト手法 JUnit スマートフォンアプリ開発 Androidアプリ開発 C# 基礎 C# 応用 負荷テスト Javaプログラミング基礎 ソフトウェアテスト コーチング メンタリング HTML/CSS サーバー構築 仮想化技術 KVS (NoSQL) アジャイル スクラム ファシリテーション C言語 ITパスポート JSTQB データサイエンス 単体テスト ユニットテスト キャリアアップ インターネットルーティング基礎 パケット解析 LAN構築 データベース データサイエンティスト トレンド 障害対応 インフラ監視 HTTP/2.0 コンピュータサイエンス VPN ネットワーク物理設計 データベース障害 JavaScript モダンJS (Modern JavaScript) 応用 MVS応用 バックアップ/リカバリ 分散処理 Hadoop Hive Python AI 深層学習(DeepLearning) CentOS Linux応用 Zabbix シェルスクリプト Infrastructure as Code Windowsサーバー基礎 内部設計 Docker DevOps Windowsサーバー応用 NginX chef Ainsible ロジカルライティング R テスト自動化 Jenkins Git 継続的インテグレーション (CI) バージョン管理 Vagrant 要求分析 Redmine 継続的インテグレーション(CI) 継続的デリバリー (CD) ヒューマンリソース管理 Web API マイクロサービス コミュニケーション 業務知識/業界知識 マーケティング 語学 AWS 法務 IoT ビジネスマナー OJT 業務効率化 表計算ソフト オフィスソフト コンプライアンス フロントエンド Subversion PHP 関数型プログラミング Laravel モダンJS (Modern JavaScript) 基礎 Android Studio 機械学習 iOSアプリ開発 ぷプログラミング React 次世代高度IT人材 共創 IPA Raspberry Pi Xamarin スクリプト言語 GoF CUI VBA 資格 ビジネス文書 jQuery 研修参加レポート マネジメント OSPF テーブル設計 アンガーマネジメント クリティカル・シンキング PDU 経営改善 Pマーク 問題解決技法 サイバー攻撃 エンジニア 参加してみた エンゲージメントマネジメント 労働関連法 新人育成 ネットワーク構築 情報セキュリティマネジメント デザインパターン リファクタリング マルチスレッドプログラミング ベンダーコントロール Modern JavaScript 冗長化 VLAN インフラエンジニア チームビルディング テストケース リーダブルコード セキュリティ入門 ネットワーク入門 Node.js npm gulp ビルドツール Python入門 冗長化入門 インフラ実機演習 プロジェクト管理 Active Directory ネットワーク管理 コンテナ 正規化理論 Haskell 品質管理 OpenStack シンギュラリティ DBA中級 プロトコル UX 基本設計 FinTech トラブルシューティング 並列処理 見える化 PMO ロジカルコミュニケーション Deep Learning インデックス設計 超上流工程 BGP Excel C-CENT Selenide プライベートクラウド アセンブラ コンピュータ基礎 工数見積 CCENT 法律知識 失敗から学ぶ プロジェクト失敗事例 PDCA プログラミング入門 非エンジニア向け 4Biz DNS セルフマネジメント 片付け術 サーバーダウン サーバー タイムマネジメント GO言語 プロダクトマネジメント プロダクトマネージャ LVS ロードバランサー 負荷分散 仮想通過 犯罪心理学 情報漏えい SEカレッジ導入事例 IT研修制度を聞いてみた CentOS7 開発環境構築 数字力 財務 IT人材 UI Machine Learning Go言語 (golang) データマイニング 統計学 新人教育 やり直し数学 RDB つながる工場 モチベーション WebSocket WebWorker HTML5 CSS3 Bootstrap 微分・積分 システム設計 決断力 LAMP環境 教育研修担当者向け ルーティング Linux入門 図解術 目標設定 試験対策 インタビュー技法 Vue.js ブロックチェーン DHCP 仕掛け学 BSC 財務諸表 自己分析 RIP スタティックルート バッファオーバーフロー DoS攻撃 システム開発 Wireshark パケットキャプチャ 管理職研修 部下育成 文章力 情報システム部門向け プロジェクトリーダー プロジェクトマネージャ 塗り絵 リスク管理 法改定 会社の仕組み Chainer AI人材 会話術 テスト技法 会社規模199名まで 会社規模49名まで 会社規模99名まで アプリ開発 サーバサイドJava 営業知識 Cloud 栄養学 基本コマンド ウォーターフォールモデル ヘルスケア 論理設計 ニューラルネットワーク ハンズオン UML 顧客ヒアリング マウスで学ぶ Apache EC2 Lightsail M5Stack DevSecOps プロジェクト成果 画像認識 チャットポット コマンド レビュー 基本用語 自動構築 LPIC-1 サーバーサイドJavascript キャリア形成 ワークライフバランス インバスケット テック用語 GitHub Windows エディタ 教養 令和時代 RESTful API 物理設計 会社規模300名以上 データモデリング サーバーサイドJava Webサーバー基礎 Webサーバー応用 Watson IBMWatson Learning Topics OS モバイル コンテスト トレーニング手法 アーキテクチャ 人材モデル インフラ CI/CD Infrastructure as a Code チーム開発 制度づくり Special_Intro AI市場分析 研修ロードマップ 仕事術 デジタルトランスフォーメーション 財務分析手法 情報整理 PowerPoint 新しい研修 オンライン研修 見どころ紹介 統計分析 ディープラーニング G検定 情報処理技術者試験 販売管理 C# テスト計画 Linuxサーバー WEBサーバ構築 http/2 Postfix イーサリアム プロジェクト・メンバ 正規化 パケット実験 作業分解 トラブル調査 ネットワーク設計 Windows server 2016 ネットワーク機器 DX 管理職 最新動向 ポストコロナ時代 IoTデバイス マイコンボード センサ サーバー仮想化 仮想ルータ WAN インターネットVPN 若手エンジニア ITプロジェクト 人事面談 DX人材育成 Java基礎 ZAP 脆弱性診断 NWサービス構築 イノベーション・マネジメント ネットワークセキュリティ ストレッチ Google Cloud Platform 不動産業界 テレワーク(WFH) ドリル GCP ( Google Cloud Platform ) システム業界 PMS テレワーク ビッグデータ NoSQL OWASP CentOS8 ネットワーク技術 データ分析 デザインシンキング 保険業界 会議リーダー システムエンジニア 段取り術 プロジェクト原論 文章書き換え術 ノーコード No Code MongoDB Redis Cassandra 運用管理 Windows10 仮想マシン リモートワーク 働き方 生産性 IPSec Office セキュリティマナー ソフトウェア・レビュー ライフハック 新しい働き方 エクササイズ ビジネスモデルキャンバス 状況認識 ストレス 必須コマンド Web 今日わかる きほん 状況把握 意思決定 心の健康 IT書籍 書籍紹介 営業マン 類推法 クラス プロセス指向 PdM 共用 ウェビナーレポート 地方創生 GraphQL CSS OWASP ZAP セキュリティマネジメント 問題解決 ソフトウェア 新技術 雑談力 テスト見積もり Scala Go Rust Relay Cloud AI Kaggle ITエンジニア フレッシャーズ 経営戦略 事業戦略 マインドフルネス 基本情報技術者試験 ニューノーマル プロジェクト会議 メソドロジ 講師インタビュー システム障害 販売管理システム VMware セキュリティ事例 ケーススタディ インターネット通信 ビジネスマン 品質向上 提案 ロジック図解術 バーチャルマシン 対策事例 アスリート 国の動向 アンチパターン リモートアクセス 脳ヨガ 自律神経 整え方 組み立て方 コミュニケーション術 リーダー 新人 知っておきたいこと 対人能力 洞察力 一文作成 サッカー業界 グループワーク マネジメント手法 IT業界 Octave セキュリティ管理 IT ネットワーク機器の特徴 ネットワーク機器の仕組み 基本のキ プレゼンテーションの組み立て方 伝え力 試験合格後 時短術 作成のコツ 導入事例 メンタルマネジメント メンタルヘルスケア DXプロジェクト プログラミング教育 プログラミング的思考 子供向けプログラミング データ定義言語 DDL モダンWebアプリケーション ドキュメント作成 Docker Compose Docker Hub AR VBAエキスパート試験 Azure メディア掲載 サーバーアーキテクチャ データ操作言語 DML NewSQL ソフトウェアセキュリティ 数学 VR アパレル業界 Kubernetes Power BI Android プロダクトオーナーシップ プロダクトオーナー 内製化 情報システム部門 Z世代 クラウドネイティブ 技術教育 Windows server 2019 XSS CSRF クリックジャッキング ビジネスパーソン VPC IAM AWS Fargete ECS 問題発見力 問題分析力編 Access 流通業界 金融業界 ネットワーク設定 トラブル対応 評価 ソフトウェア品質 クレーム対応 呼吸法 戦国武将 エンジニアリング 組織論 SpreadSheet GAS ゼロトラスト Express 3D Arduino 業務分析法 業務構造 経営者 ストレングスファインダー 発注者視点 情報セキュリティ 顧客体験 エンターテインメント お笑い オンライン学習 オンライン教育 学校教育 情報化社会 スポーツ デジタル戦略 ITフェスティバル2022 GoogleSpreadSheet GoogleAppsScript(GAS) SQL 問題分析力 メタバース NFT 資産形成 資産運用 Typescript WebXR 講師が注目する技術 プラクティス ローコード ホワイトハッカーに学ぶ Google Cloud LinuC レイヤ3スイッチ ホワイトハッカー ハッキング 脆弱性 ビジネススキル キャリア戦略 NFTアート リテンションマネジメント ゲーム制作 トラブル防止 システム外注 食事メソッド コード ソフトウェア設計 ドメイン駆動設計 人事評価制度 報告書 稟議書 契約書 Rails 業務自動化 価値 原則 睡眠 IT用語 DBA 炎上対策 2022年版 パフォーマンス パフォーマンス向上 Kubernetes入門 実践 チューニング 2020年代 2010年代 リモートアクセスVPN VPN構築 Railsの教科書 CCNA試験 ウェビナー 老後 人生設計 OSPF入門 Ruby on Rails 脆弱性対策 説明上手 説明力 システム障害報告 システム障害解決 いまさら聞けない 仕掛けから考える ネットワーク基礎 社会人 基礎知識 今日から変わる 睡眠マネジメント 仕事の成果を上げる 出るとこだけ 情報セキュリティマネジメント試験 狩野モデル 独学 若手向け 若手に受けてほしい ルーティング基礎 ルーティング実践 ネットワークエンジニア はじめての サイバー攻撃対策 2022 機械学習エンジニア 実演 AI基礎 Java開発 HTML Web基礎 JavaScriptフレームワーク Vue.js入門 明日から使える 最新テクノロジー 生産性向上 組織開発 PMBOK®第6版 リスクマネジメント 結合 副問合わせ Linux 実践演習 シェルスクリプト入門 マネジメント変革 押さえておきたい DHCPサーバー DNSサーバー VLANスイッチ レイヤ3 LAN NW技術 ローカルエリアネットワーク 知っておきたい 基本文法 Windowsプログラミング ネットワーク全体像 Git入門 GitHub入門 Pyhtonライブラリ プロジェクト QCD管理 Ruby入門 オブジェクト指向言語経験者向け PMBOK®ガイド第7版 ディープラーニング入門 グラフデータベース LinuC入門 サーバサイドJava入門 基礎編 応用編 AWS入門 AWSサービス ファイアウォール構築 Docker入門 データベース設計技術 オンプレミス オンプレ オンプレAD Windows Admin Centre データベース概念設計 Javaプログラミング 1日プログラミング特訓 AI開発 微分 線形代数 行列 統計検定 統計検定準拠 MySQL データベースメンテナンス データベース論理設計 ファイアウォール入門 副問合せ 顧客の売上アップ 売上アップ Azure入門 自分でつくる Docker実行環境 午後アルゴリズム問題 解き方のコツ FE シェルスクリプト実践 仮題で学ぶ 課題で学ぶ 現場 コミュニケーション管理 DX最新動向 DX推進人材 DX人材 Windows server Django データベース連携 インフラエンジニア最新動向 なんとなくわかるからもう一歩 アルゴリズム入門 アルゴリズム基礎 プログラム ハードウェア Javaアルゴリズム 1日特訓 現場でよく使う Rails入門 データベース障害復旧 Google Cloud Vision AI Dialogflow Cloud Functions Pythonプログラミング 社内資格制度 今日から使える 「仕掛け」から考える ITベンダー 診断ツール Webセキュリティ Webセキュリティ基礎 新任PM 新任PL テスト NW機器 独学できる Windows Admin Center プログラミング体験 Java開発者のための C#開発 RPA RPA入門 NWエンジニア NFT入門 だれにでもわかる サーバサイドJavq サーバサイドJava基礎 サーバサイドJava応用 炎上しないための AWSサーバ プログラム基礎 アセンブラ基礎 人工知能 ICT 課題解決 自律性 システム開発基礎 プロジェクト基礎 Webアプリ パターン別 アプリケーション開発 エンジニア初級 2022年からの 実用的な 発注 受け入れ Microsoft Office AI最新動向 良いSQL 悪いSQL データベース管理 インデックス Webの基本 NW管理 C#開発者のための ルータ TCP/IP通信 積分 数学基礎 NWセキュリティ 基本パターン JavaScriptでつくる DX時代 デザインシンキング入門 データ構造 PHPフレームワーク Linuxで学ぶ 速習 VLAN基礎 ゼロからはじめる jQuery入門 JavaScriptドリル Ruby on rails基礎 テストツール リレーショナルデータベース はじめて学ぶ データベースのしくみ 人生100年時代 令和 デザイン デザイン入門 現場ですぐに使える テーブル設計実践 情シス 外部設計 外部設計基礎 小規模ネットワーク Linux必須コマンド 違いを知ろう AWS CLI AWS CLI入門 CloudFormation NW設計 親子で作る メタバースプログラミング サーバー仮想化入門 DNSサーバー構築 秋冬版 IoT基礎 新人PM マネジメント研修 人を動かす 仕組みづくり イノベーション・マネジメント入門 心理的安全性 チーム チーム運営 3時間で学ぶ OS基礎 サーバー基礎 情報漏えい対策 プロジェクトマネジメント入門 組織改革 やさしいチームのつくりかた 簿記から学ぶ ビジネス基礎 データベースマネジメント 乃木坂46 乃木坂46に学ぶ マーケティング論 なっとく! LinuCレベル1 101試験 LinuCレベル1 101試験 ファイルシステム ディスク管理 データ分析基礎 一発OKを引き出す 資料作成術 プレゼン資料 クラウドサービス NW NW構築 SQL入門 目標達成マネジメント マネジメント基礎 目標管理 行動分析学 人の動かし方 組織の動かし方 科学的な Tableau MongoDB基礎 IoT実践 データ収集 データ自動収集 データ管理 技術者 SEのための 論理的思考 PM PL アルゴリズム再入門 GoFデザインパターン オブジェクト指向未経験者向け 令和版 失敗事例から学ぶ データベース構築 原価管理 業務連動 Access基本操作 クエリ活用 フォーム作成 レポート作成 実務事例で学ぶ 実務 知識活用 ネットワーク管理コマンド PCスキル 最強の習慣 ストレスフリー 作業効率化 Windows 11 webサーバ カラダとココロ ハワイアンストレッチ 身体のケア ストレス解消 パワーアップ リフレッシュ 1日で習得する ユーザ視点で考える 今知っておきたい UX向上 ユーザエクスペリエンス ユーザ体験 比べて学ぶ 仮想化 仮想マシンとコンテナ データサイエンスプログラミング データ視覚化 オリンピックコーチが伝える セルフマネジメントメソッド セルフイメージ 仮想環境 仮想環境で学ぶ セキュリティ実践 サーバーセキュリティ オンライン攻撃事例 質問技法 SE JavaScriptだけでつくる バッチ処理 テストデータ作成 ストアドプロシージャ バッチ テストデータ 実践編 デザイン力 テレワーク時代 収納術 インテリア術 サイバーセキュリティ 無線LAN Wi-FI 人事 BGP入門 ルーティングプロトコル 文系でもわかる 統計学入門 IPv6 IPv6入門 IPv4 人材育成 人が育つ仕組み 売れる仕組み マーケティング入門 セールスパーソン セールスマネージャー セキュリティ対策 計画の立て方 脱TCP HTTP/3 HTTP/3時代 AWS認定資格 Amazon Web Services 作業自動化 顧客折衝 Webサーバー自動構築 JavaScriptコーディング JavaScriptコーダーのための エンジニアのための ここが危ない テレワークセキュリティ サイバー攻撃事例 相手が理解し納得できる プレゼン 図解活用術 図解活用 Webアプリケーション Webアプリケーションセキュリティ クロスサイトスクリプティング OSコマンドインジェクション PowerPointで作る 資料デザイン 見やすい資料 IT業界人 知っておくべき 目の疲れ 眼精疲労 新習慣 習慣 栄養 運動習慣 イノベーション IMS ISO56000 イノベーション・マネジメントシステム 顧客視点 デザイン思考 Excel初級編 オブジェクト指向基礎 Javaでオブジェクト指向 Vue3 Vueアプリケーション FE試験 リーン開発 情報システム 情報システム開発 開発手法 C#プログラミング 応用情報技術者試験 AP AP試験 情報漏えい事例 心理学 E-R図 PMBOKから学ぶ 新人エンジニア 0年目エンジニア Webサービス Webサービス基礎 スコープ・ベースライン スコープ記述書 WBS辞書 ステークホルダ 3Dオブジェクト 3Dプログラミング canvas WebGL Three.js 3D描画 Pythonによる ローコードAI開発 Pandas scikit-learn Pycaret データ前処理 AIエンジニア Windows server基礎 攻撃対策 攻撃手段 マルウェア マルウェア対策 攻撃監視 Power BI Desktop BI ERD

Python で業務を自動化しよう ~ファイル操作から Excel まで~|研修コースに参加してみた

calendar_month2022-07-22 公開 update2022-08-30 更新

今回参加したコースは Python で業務を自動化しよう~ファイル操作から Excel まで~ です。

仕事でコンピュータを使うときには、単純作業を繰り返すことがよくあります。 たとえば、条件にあうデータを探してコピーしたり、いくつもの Excel ファイルを開いてコピーしたりといったことです。

そういった作業は Python で自動化して効率的に済ませてしまいましょう。 Python なら仕事を効率化するプログラムを短いコードで記述できます。

このコースは、複雑な定例業務でも自動化したいと思っている人に向けて、 Python によるファイル操作や Excel ファイルの操作などを解説します。 また Python プログラミングを始めたばかりの方には、プログラミングに慣れる、うってつけの材料でした。

 

では、どんなコースだったのか、レポートします!

コース情報

想定している受講者 Python の基本文法を理解している
受講目標 ファイル操作や Excel ファイルからのデータ読み込みという、多くの職場で応用できる技術を習得する

講師紹介

この “参加してみた” レポートでは初めての登場となる 廣瀬 豪さんが登壇されました。

講師紹介

廣瀬 豪

ゲーム制作をはじめとしたプログラミング技術をやさしく・楽しく教えるベテラン講師
早稲田大学理工学部卒。 ワールドワイドソフトウェア(有)取締役。 ナムコでプランナー、任天堂とコナミの合弁会社でプログラマーとディレクターを務めた後に独立。
携帯電話や家庭用ゲーム機向けに 100 タイトル以上の公式アプリを開発、総ダウンロード数は 2000 万ダウンロードを超える。
会社経営のかたわら、教育機関でプログラミングを指導したり、本を執筆している。
プログラミング歴は約 40 年で、 C / C++ 、 Java 、 JavaScript 、 Python など多くの言語を使いこなす。

    主な著書

  • いちばんやさしい Java 入門教室(ソーテック社 刊)
  • Python でつくる ゲーム開発 入門講座(ソーテック社 刊)
  • Python で学ぶ アルゴリズムの教科書(インプレス 刊)
  • 野田クリスタルのこんなゲームが作りたい! Scratch3.0 対応(共著 インプレス 刊)
  • 7 大ゲームの作り方を完全マスター! ゲームアルゴリズムまるごと図鑑(技術評論社 刊)
    など著書多数

早速、コースがスタートし、業務の自動化の現状を紹介いただきました。

  • 自動化ができるノーコード/ローコードツールが広がる
  • 廣瀬さんも実際使ってみたが、高度な自動化にはプログラミングの基礎が必要と感じた
    • 変数や分岐、繰り返しなどの知識
  • Python を使えば、手早く自動化プログラムを書ける

ここからはその業務の自動化でよく使う処理、ファイル操作、テキストファイルや文字列操作、 Excel や CSV の操作を取り上げ、仕上げとして最後に様々な自動化プログラムを紹介いただきました。

なお、このコースは Python の基本文法、制御構文や print() などよく使う関数を知っていることが前提で進みます。 また、開発環境は Python 3 で、私はクラウド IDE の JupyterLab を使いました。

Python でのファイル処理 shutil と os ライブラリを使ってみよう

では、基本となるファイル処理をやってみましょう。 コースでは使用するファイルを格納したフォルダが用意されていました。

フォルダ内のファイルのコピー

ファイルの操作には shutil というライブラリを使用します。

import shutil
ORIGINAL = "コピー元"
NEWFOLDER = "コピー先"
shutil.copytree(ORIGINAL, NEWFOLDER)

“コピー元” というフォルダと格納されているファイルが、新しくできた “コピー先” というフォルダにすべてコピーされました。


フォルダの作成

フォルダの操作には os というライブラリを使用します。

import os
FOLDER = "新しいフォルダ"
if not os.path.exists(FOLDER): # フォルダの存在チェック
    os.mkdir(FOLDER)
else:
    print("フォルダが既に存在します")

フォルダ内のファイルを調べて表示する

引き続き、その os ライブラリを使って、フォルダにあるファイルをすべて表示します。

import os
FOLDER = "コピー元"
for f in os.listdir(FOLDER): # listdir() で引数のフォルダにあるフォルダとファイルをすべて取得
    print(f)
実行結果
フォルダ内のフォルダ
ワード文書2.docx
テキストファイル.txt
エクセルデータ.xlsx
画像.png
ワード文書.docx

特定の拡張子のファイルだけコピーする

os と shutil の両方のライブラリとこれまでに使った関数を組み合わせて、特定のファイルをコピーします。 ここでは Word が対象です。

import os
import shutil

FOLDER = "ワード文書だけ保存"
if not os.path.exists(FOLDER):
    os.mkdir(FOLDER)

ORIGINAL = "コピー元"
for f in os.listdir(ORIGINAL):
    if f.endswith(".docx"): # endwith() で文字列の終わりを調べる
        shutil.copy(ORIGINAL + "/" + f, FOLDER + "/" + f) # コピー元/ファイル を ワード文書だけ保存/ファイル にコピー
        print(f, "をコピーしました")

実行してみましょう!

ワード文書2.docx をコピーしました
ワード文書.docx をコピーしました

自動化するときは、フォルダとファイル操作は必須ですが、だいたいのことはこれでできますね。 また、同様のことはシェルスクリプトでもよくやりますが、それよりわかりいいです。

テキストデータの処理

操作したいファイルを抜き出したところで、今度はそのファイルにある情報を読んだり書いたりします。

  • テキストデータの処理にライブラリは不要で標準ライブラリを使えば OK
  • open() と close() と read() と write() をよく使う
  • 文字コードに注意
    • Shift-JIS と UTF-8

最後の文字コードは本当に厄介です。 UTF-8 で統一できない … ですよねぇ。

ファイルを読み込んで見る

では、ファイルの中身を呼んでみましょう。

    f = open("予定表.txt", 'r', encoding = "UTF-8") 
    txt = f.read()
    f.close()
    print(txt)
  • open() の引数
    • 引数 1: 開きたいファイル
    • 引数 2: 'r' オプションで読み込みを指定
    • 引数 3: エンコーディングを指定
実行結果
2022年4月〇日 講座A
2022年5月〇日 講座B
2022年6月〇日 講座A
2022年7月〇日 講座B
2022年8月〇日 講座A
2022年9月〇日 講座B

では、文字コードが混在しているときにはどうするのでしょうか。

try:
    f = open("予定表2.txt", 'r', encoding = "utf_8")
    txt = f.read()
except:
    print("Shift-JIS形式のファイルです")
    f = open("予定表2.txt", 'r', encoding = "Shift-JIS")
    txt = f.read()
f.close() # with open() as f: を使うと省略できる
print(txt)
実行結果
Shift-JIS形式のファイルです
2022年4月〇日 講座A
2022年5月〇日 講座B
2022年6月〇日 講座A
2022年7月〇日 講座B
2022年8月〇日 講座A
2022年9月〇日 講座B
※SHIFT-JIS(ANSI)で保存されたファイル

なるほど、例外処理を使えば、なんてことはなく片付きますね。

読み込んだデータをリストにする

先程はそのまま読み取ったテキストをそのまま出力しましたが、それをリスト(配列)にして後で処理しやすくできます。

f = open("予定表.txt", 'r', encoding = "UTF-8")
txt = f.readlines() # readlines() で読んでリストにする
f.close()
print(txt)
実行結果
['2022年4月〇日\u3000講座A\n', '2022年5月〇日\u3000講座B\n', '2022年6月〇日\u3000講座A\n', '2022年7月〇日\u3000講座B\n', '2022年8月〇日\u3000講座A\n', '2022年9月〇日\u3000講座B']

ただし余計な改行コード '\n' が入ってしまっています( '\u3000' は全角スペースを表す文字コードなのでこれはそのままで OK )。

これを除きましょう。

  • 特定のキーワードでリストを分割する
    • split() を使う
    • f = open("予定表.txt", 'r', encoding = "UTF-8")
      txt = f.read()
      f.close()
      ary = txt.split("\n") # 改行コードで分割
      print(ary)
実行結果
['2022年4月〇日\u3000講座A', '2022年5月〇日\u3000講座B', '2022年6月〇日\u3000講座A', '2022年7月〇日\u3000講座B', '2022年8月〇日\u3000講座A', '2022年9月〇日\u3000講座B']

新規にテキストファイルを保存

これまではファイルの中身を読む処理でしたが、今度は書き込みをしてみましょう。

f = open("新規ファイル.txt", 'w', encoding = "UTF-8") # w オプションで書き込みを指定して "新規ファイル" を作成
for i in range(20):
    f.write(str(i) + "行\n") # str() は引数を文字列に変換
f.close()
実行結果

0行
1行
(中略)
18行
19行

文字列操作

ファイルの中身、文字列を編集してみましょう。

  • 文字列の操作には replace() を使う( str 型の関数)
    • 他によく使う大文字小文字の変換には upper() / lower() を使う
    • 文字列の検索やカウントには find() / count() を使う

ここで使用する 旧文書.txt の中身はこちらです。

①朝礼
②午前の業務
③昼休み
④午後の業務
⑤業務報告

この環境既存する丸括弧の SHIFT-JIS の文字を変換し、先程の書き込み処理を加え、新文書.txt を作ります。

OLD = ["①", "②", "③", "④", "⑤"]
NEW = ["(1)", "(2)", "(3)", "(4)", "(5)"]

with open("旧文書.txt", 'r', encoding = "shift_jisx0213") as f: # テキストでは encoding = "ANSI" でしたが decode error になったため変更
    txt = f.read()

for i in range(5):
    txt = txt.replace(OLD[i], NEW[i]) # OLD から要素を 1 つずつ取り出して NEW の要素に書き換える

with open("新文書.txt", 'w', encoding = "UTF-8") as f:
    f.write(txt)
実行結果

(1)朝礼
(2)午前の業務
(3)昼休み
(4)午後の業務
(5)業務報告

コースでは他に upper() や lower() についても試してみました。

エクセルや CSV のデータを読む

業務の自動化で使うファイルといえば、 Excel や CSV です。 自動化で一番やりたいことですね。

まずは CSV を扱いましょう。

標準ライブラリの open() / read() でも OK だが csv というライブラリを使うとよい

csv ライブラリで CSV ファイルのデータを読み取る

まずは CSV ファイルのデータを読んでみましょう。

csv の read() と標準ライブラリの list() をセットに使うと便利
import csv
f = open("Book1.csv", 'r', encoding = "UTF-8") # "UTF 8 sig" を指定すると、 list のヘッダの \ufeff という BOM を取り除ける
cr = csv.reader(f) # ファイルを読み込みオブジェクトにする
txt = list(cr) # list() の引数はオブジェクトでリストにする
f.close()
for i in txt: print(i)
実行結果
['\ufeff氏名', '住所', '電話番号']
['廣瀬 豪', '〒111-1111 栃木県〇〇市電脳町2', '080-1111-1111']
['山田 花子', '〒222-2222 東京都〇〇区末広町888', '090-2222-2222']
['佐藤 太郎', '〒333-3333 北海道札幌市〇〇777', '070-3333-3333']

CSV ファイルに書き込む

今度は書き込んでみましょう。

  • writer() でオブジェクトを生成して、 writerows() で二次元リストを書き込む
    • writerow() なら一次元リストを書き込む
    • import csv
      
      data = [
          ["氏名1", "生年月日1", "TEL1", "住所1"],
          ["氏名2", "生年月日2", "TEL2", "住所2"],
          ["氏名3", "生年月日3", "TEL3", "住所3"]
      ]
      
      f = open("Book_new.csv", 'w', newline='')
      cw = csv.writer(f)
      cw.writerows(data)
      f.close()
      print("cvsファイルに書き込みました")
    • open() の引数に newline をつけると、生成したファイルを Excel で開いた際、余計な空行が入らない
実行結果


このあと、 CSV ファイルをもとに、これまでのファイル操作と CSV の操作を組み合わせたプログラムも試してみました。

エクセルデータを使う openpyxl ライブラリを使う

今度は本命の Excel です。

  • openpyxl を使う
    • 外部ライブラリなので、 pip インストールが必要
    • $ pip3 install openpyxl # JupyterLab の場合は !pip3 install --upgrade openpyxl
      Collecting openpyxl
        Downloading openpyxl-3.0.10-py2.py3-none-any.whl (242 kB)
           |████████████████████████████████| 242 kB 4.7 MB/s eta 0:00:01
      Collecting et-xmlfile
        Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
      Installing collected packages: et-xmlfile, openpyxl
      Successfully installed et-xmlfile-1.1.0 openpyxl-3.0.10

Excel ファイルのデータを読み取る

読み取る Excel ファイルのデータは以下のようなものです。


import openpyxl

wb = openpyxl.load_workbook("過去3年度分の売上.xlsx") # Excel ファイルを読み込み(オブジェクト)
SHEET = 0 # シートを指定
sh = wb[wb.sheetnames[SHEET]] # wb.sheetnames でファイルのシート名をすべて取得し、先頭のシートを取得
add = 0

print(wb.sheetnames, len(wb.sheetnames)) # len() でシート名の配列から要素数を出力
print("シート", SHEET + 1, "行数", sh.max_row)
print("シート", SHEET + 1, "列数", sh.max_column)

# 二重ループで行と列の値を出力。 1 行ごとに複数列の値を出力し合計
for y in range(1, sh.max_row): # max_row で最終行まで繰り返し
    for x in range(1, sh.max_column + 1): # sh.max_column + 1 で最終列まで繰り返し
        print(sh.cell(y, x).value, end = ",") # sh.cell(y, x).value でセルの値を取得
        if y > 1 and x > 1: add += sh.cell(y, x).value # 変数 add に取得した値を加算
    print("\n----------------------------")

print("合計額", add)
実行結果
['18期', '19期', '20期'] 3
シート 1 行数 14
シート 1 列数 6
月/店舗,A支店,B支店,C支店,D支店,本店,
----------------------------
4,120,440,647,464,405,
----------------------------
5,145,526,563,475,442,
----------------------------
6,98,395,411,410,380,
----------------------------
7,102,403,438,351,445,
----------------------------
8,90,825,480,559,501,
----------------------------
9,88,614,652,340,399,
----------------------------
10,89,568,520,382,412,
----------------------------
11,101,446,450,417,405,
----------------------------
12,140,770,601,765,978,
----------------------------
1,90,485,344,366,621,
----------------------------
2,67,671,623,282,489,
----------------------------
3,128,631,538,485,676,
----------------------------
合計額 25748

今回は先頭のシートだけを行いましたが、 SHEET をループすると、すべてのシートをまとめて処理できます。

廣瀬さんからは openpyxl にはクセがあり、 wb[wb.sheetnames[SHEET]] などの書き方や、行と列が 1 から始まるところなどを注意いただきました。 教えてもらわないとハマってしまうところですね。

 

コースではこのあと openpyxl の BarChart() を使ってグラフを描きました。 クセはあっても万能すぎるライブラリです。 同じような自動化は Google App Script ( GAS ) でもできますが、ライブラリの豊富さが断然違いますね。

様々な自動化処理

今まで学んだことをもとに、様々な自動化に取り組んでみます。 廣瀬さんから以下のような自動化を挙げられました。

  • Python で日時を扱う
  • 決められた時間になったら、何らかのプログラムを起動する
  • インターネットからデータを自動収集する(スクレイピング)
  • ワード文書を読み込む
  • メールの自動送信
  • クライアントからサーバへデータを送信する( Web への転記の基礎)

いずれも使いたい処理ばかりですね!

コースではこの中から複数試してみましたが、このレポートではスクレイピングを取り上げます。

Python でスクレイピング

スクレイピングができる標準ライブラリは無いので、 requests ライブラリをインストールします。

$ pip3 install requests # !pip3 install --upgrade requests
Requirement already satisfied: requests in /srv/conda/envs/notebook/lib/python3.7/site-packages (2.26.0)
Collecting requests
  Downloading requests-2.27.1-py2.py3-none-any.whl (63 kB)
     |████████████████████████████████| 63 kB 1.9 MB/s eta 0:00:011
# 中略
Successfully installed requests-2.27.1

ただし、スクレイピングは拒否しているサイトも多いので注意が必要です。 今回は廣瀬さんの会社ホームページ https://www.wwsft.com/ で試してみます。

    import requests
    url = "https://www.wwsft.com/"
    html = requests.get(url) # ページを取得
    html.encoding = html.apparent_encoding # 重要!! 文字化けの解消
    print(html.text)
  • apparent_encoding で HTML から文字コードを推定して変換
    • apparent_encoding なしで print(html.encoring) とすると ISO-8859-1 と判定していた
実行結果
<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="utf-8">
<meta name="description" content="ゲームクリエイターを目指す方を支援します">
<meta name="keywords" content="Python,JavaScript,Scratch,C#,Java,プログラミング,ゲーム開発">
<meta name="viewport" content="width=device-width, initial-scale=1.0, minimum-scale=1.0, maximum-scale=10.0, user-scalable=yes">
<link rel="stylesheet" href="style.css" type="text/css">
<title>ワールドワイドソフトウェア</title>

# 中略
<footer><p><small>©WorldWideSoftware</small></p></footer> 

</body>
</html>

無事に取得できました! ラクすぎる!

画像のみをスクレイピング

さらに、応用して先程の廣瀬さんの会社ホームページから画像のみを取得してみましょう!

    import requests
    import time
    
    url = "https://www.wwsft.com/"
    html = requests.get(url)
    html.encoding = html.apparent_encoding
    
    cnt = 0
    pos = 0
    while True:
        p = html.text.find("img src=", pos) # 画像の位置を習得
        if p == -1 : break # img src= の存在チェック ≒ 画像の存在チェック
        n = html.text.find(".png", p + 1) # 取得した位置から .png が始まる位置を取得
        if n > 0:
            img_url = url + html.text[p + 9: n] + ".png" # 画像のパスを生成
            img = requests.get(img_url).content # 画像ファイルを取得
            print(img_url)
            with open("image" + str(cnt).zfill(3) + ".png", "wb") as f: # 画像ファイルを生成
                f.write(img)
            cnt += 1
            time.sleep(1)
        pos = p + 1
  • html.text でテキストで取得
  • find() で文字列を検索
    • 見つかった場合は最初の位置を返す
    • 見つからなかった場合は -1 を返す
    • 2 つめの引数で開始位置を指定
実行結果
https://www.wwsft.com/img/wws.png
# 中略
https://www.wwsft.com/img/bn_sotech.png

まだまだ未熟な私からすると find() の使い方に目が覚める思いでした!

 

最後の画像のスクレイピングが終わったところで、このコースは修了しました。

まとめ

Python で業務を自動化するときによく使う、ファイル操作、テキスト操作、 Excel / CSV の操作するプログラムを中心に解説いただき、最後には様々な自動化を試してみました。

Python は「短いプログラムで書ける」とはよく聞きますが、本当に短く書けて、直感的に何をしているのかがわかりやすかったです! また使えるライブラリが豊富なことも魅力的でした。

またプログラミングにまだ慣れない私には、 while の使い方やパスなどの記述、様々な書き方がとても刺激的でした。 これは練習台として取り組むのに非常に良いですね!

ノーコード/ローコードによる自動化では満足できない方や、私のように Python プログラミングにもっと慣れたいという方には、とてもオススメのコースでした!

 


SEカレッジについて

label SEカレッジを詳しく知りたいという方はこちらから !!

SEcollege logo
SEカレッジ
IT専門の定額制研修 月額 28,000 円 ~/ 1社 で IT研修 制度を導入できます。
年間 670 講座をほぼ毎日開催中!!

午前免除 FAQ

タグ一覧