close
プログラミング クラウド Microsoft Azure 情報処理資格 基本情報技術者 IT基礎 応用情報技術者 開発・設計方法 オブジェクト指向 内定者・新人研修 プログラミング基礎 アルゴリズム コンピュータ数学 内定者研修 新人研修 ヒューマンスキル プロジェクトマネジメント プレゼンテーション リーダーシップ 組織マネジメント ネゴシエーション ロジカルシンキング Java UI/UX HTTP JavaScript基礎 情報処理資格 ネットワークスペシャリスト ネットワーク インターネットルーティング応用 IPアドレス データベース応用 SQL応用 パフォーマンスチューニング データベース設計 ER図 概念設計(データベース) 論理設計(データベース) IT資格 Linux基礎 OS・システム基盤 セキュリティ TCP/IP OSI参照モデル データベースセキュリティ ファイアウォール 標的型攻撃 SQLインジェクション ネットワーク基本設計 CCNA Cisco プロジェクトマネジメント資格 情報処理資格プロジェクトマネージャ 情報処理安全確保支援士 人事給与 財務会計 管理会計 簿記 生産管理 在庫管理 ERP バランススコアカード 情報処理資格 ITアーキテクト 情報処理資格 ITストラテジスト 情報処理資格 ITサービスマネジメント 情報処理資格 システム監査 PMBOK® PMP® プロジェクト計画 WBS リスクコントロール ITIL ITサービスマネジメント 要求定義 要件定義 見積手法 ビジネスインダストリ 業種・業界知識 業務知識 提案力 ソフトウェアテスト基礎 情報処理資格 データベーススペシャリスト ハードウェア基礎 外部設計(基本設計) 内部設計(詳細設計) データベース基礎 SQL基礎 RDBMS 物理設計(データベース) C++ Ruby MVC基礎 Webアプリケーション開発 JavaEE Javaプログラミング応用 フレームワーク MVC応用 Spring フレームワーク ソフトウェアテスト応用 テスト手法 Junit スマートフォンアプリ開発 Androidアプリ開発 C# 基礎 C# 応用 負荷テスト Javaプログラミング基礎 ソフトウェアテスト コーチング メンタリング HTML/CSS サーバー構築 仮想化技術 KVS (NoSQL) アジャイル スクラム ファシリテーション C言語 ITパスポート JSTQB データサイエンス 単体テスト ユニットテスト キャリアアップ インターネットルーティング基礎 パケット解析 LAN構築 データベース データサイエンティスト トレンド 障害対応 インフラ監視 HTTP/2.0 コンピュータサイエンス VPN ネットワーク物理設計 データベース障害 JavaScript モダンJS (Modern JavaScript) 応用 MVS応用 バックアップ/リカバリ 分散処理 Hadoop Hive Python AI 深層学習(DeepLearning) CentOS Linux応用 Zabbix シェルスクリプト Infrastructure as Code Windowsサーバー基礎 内部設計 Docker DevOps Windowsサーバー応用 NginX chef Ainsible ロジカルライティング R テスト自動化 Jenkins Git 継続的インテグレーション (CI) バージョン管理 Vagrant 要求分析 Redmine 継続的インテグレーション(CI) 継続的デリバリー (CD) ヒューマンリソース管理 Web API マイクロサービス コミュニケーション 業務知識/業界知識 マーケティング 語学 AWS 法務 IoT ビジネスマナー OJT 業務効率化 表計算ソフト オフィスソフト コンプライアンス フロントエンド Subversion PHP 関数型プログラミング Laravel モダンJS (Modern JavaScript) 基礎 Android Studio 機械学習 iOSアプリ開発 ぷプログラミング React 次世代高度IT人材 共創 IPA Raspberry Pi Xamarin スクリプト言語 GoF CUI VBA 資格 ビジネス文書 jQuery 研修参加レポート マネジメント OSPF テーブル設計 アンガーマネジメント クリティカル・シンキング PDU 経営改善 Pマーク 問題解決技法 サイバー攻撃 エンジニア 参加してみた エンゲージメントマネジメント 労働関連法 新人育成 ネットワーク構築 情報セキュリティマネジメント デザインパターン リファクタリング マルチスレッドプログラミング ベンダーコントロール Modern JavaScript 冗長化 VLAN インフラエンジニア チームビルディング テストケース リーダブルコード セキュリティ入門 ネットワーク入門 Node.js npm gulp ビルドツール Python入門 冗長化入門 インフラ実機演習 プロジェクト管理 Active Directory ネットワーク管理 コンテナ 正規化理論 Haskell 品質管理 OpenStack シンギュラリティ DBA中級 プロトコル UX 基本設計 FinTech トラブルシューティング 並列処理 見える化 PMO ロジカルコミュニケーション Deep Learning インデックス設計 超上流工程 BGP Excel C-CENT Selenide プライベートクラウド アセンブラ コンピュータ基礎 工数見積 CCENT 法律知識 失敗から学ぶ プロジェクト失敗事例 PDCA プログラミング入門 非エンジニア向け 4Biz DNS セルフマネジメント 片付け術 サーバーダウン サーバー タイムマネジメント GO言語 プロダクトマネジメント プロダクトマネージャ LVS ロードバランサー 負荷分散 仮想通過 犯罪心理学 情報漏えい SEカレッジ導入事例 IT研修を聞いてみた 会社規模 (100~300名) IT研修制度を聞いてみた CentOS7 開発環境構築 数字力 財務 IT人材 UI Machine Learning Go言語 (golang) データマイニング 統計学 新人教育 やり直し数学 RDB つながる工場 モチベーション WebSocket WebWorker HTML5 CSS3 Bootstrap 微分・積分 システム設計 決断力 LAMP環境 トレ担 教育研修担当者向け ルーティング Linux入門 図解術 目標設定 試験対策 インタビュー技法 Vue.js ブロックチェーン 会社規模 (~50名) DHCP 仕掛け学 BSC 財務諸表 自己分析 RIP スタティックルート バッファオーバーフロー DoS攻撃 システム開発 会社規模 (~99名) Wireshark パケットキャプチャ 管理職研修 部下育成 ワークあり 文章力 情報システム部門向け プロジェクトリーダー プロジェクトマネージャ 塗り絵 リスク管理 法改定 会社の仕組み Chainer AI人材 会話術 会社規模 (~25名) テスト技法 組織規模 51名~99名 組織規模:~199名 [組織規模]199名まで 組織規模 199名まで 組織規模199名まで 会社規模199名まで 会社規模49名まで 会社規模99名まで アプリ開発 サーバサイドJava 営業知識 Cloud 栄養学 基本コマンド ウォーターフォールモデル ヘルスケア 論理設計 ニューラルネットワーク ハンズオン UML 顧客ヒアリング マウスで学ぶ Apache EC2 Lightsail

ハンズオンで学ぶデータベース障害のパターンと復旧 研修コースに参加してみた

今回参加した研修コースは ハンズオンで学ぶデータベース障害のパターンと復旧 です。

受講していると、ちょっと耳が痛い、どこからともなく頭痛がしてくる内容で、ちゃんと対策せねばという気持ちになりましたが、とはいえ、やらなきゃダメ、絶対、という高圧な口調ではなく、あくまでDBエンジニアとして誇りある仕事をしましょう、とソフトながら説得力のあるお話でした。

さすがです、林さん。

内容は、なぜその障害が起こるのか、アーキテクチャから解説いただいたので、ただの設定Tipsではない知識が理解できました!

データベースの運用に携わる方であれば、ぜひ一度参加いただきたい内容です。

では、どんなコースだったのかレポートします!

 

想定している受講者

  • SQLによるリレーショナルデータベース操作ができる

 

受講目標

  • 障害のパターンとその対応方法を理解する

 

講師紹介

この参加してみたレポートでは初登場ですね。林 優子さん が登壇されました。講座では自己紹介もそこそこにコースをスタートされましたが、ここではもうちょっと詳しくご紹介します。

 

林 優子

林さんと言うと、 オラクルマスター教科書シリーズ の執筆や Oracle University が毎年表彰している Excellent Instructor を5回も受賞した講師です。

SEカレッジでもデータベース分野で数多く登壇いただいていて、参加満足度がとても高い人気の講師です。

まず講座の前提から説明です。

 

  • 事前アンケートには目を通していますが、期待した内容でなければ、いつでも言ってください
  • RDBMSによってリカバリー方法が異なるので、考え方を学んでもえるとうれしいです
  • Oracle から PostgreSQL など一通りできますので、お使いのもので教えてもらってもよいでしょうか?
    • 手が挙がった内訳 (複数回答OK)
    • Oracle・・・5
    • SQL Server・・・5
    • MySQL・・・2
    • DB2・・・1

 

起こりうる障害の種類

まずはデータベースにどのような障害が起こるのか分類です。

 

  • 文障害~メディア障害までは、どのリカバリ系の研修コースでもやってます
  • そこに含まれない、セキュリティ障害とパフォーマンス障害はDBAの実務上、とても影響が大きかったのでこれを中心にやります

 

 

セキュリティ障害

  • SQLインジェクション
  • Webサイトの何らかのフォームから where 句や order_by 句などが渡される
  • 例えば :id という文字列が渡されるとどうなるのか
  • WHERE 句の FALSE を利用する

  • これがTRUEになって全レコードが指定されてしまう

 

対策

 

  • バインド機構の使用
    • プレイスホルダを使うのがオススメ

 

起こってしまったリカバリというより、障害を予防するという観点で必要です。

それ以外にも方法があるので、詳しく知りたい方はSEカレッジで開催しているSQLインジェクション対策の講座に参加して下さい、とのことでした。

 

SQLインジェクション対策の心得

 

パフォーマンス障害

  • パフォーマンスも悪くなると止まる = ユーザーには障害 (トラブル) と同意
  • CPU高負荷が起こると止めたくないので、経過観察してしまう
  • そうすると1時間ぐらい使ってしまう

 

対策

詳しく知りたい方は同じようにSEカレッジでパフォーマンスの講座があるので、ぜひそちらに、とのことで、ここではポイントだけ解説されました。

 

  • 全件検索をやめましょう…
    • 例えば SELECT でもロックが掛かる
    • なのでユーザーの SELECT が終わらないと共有メモリは空かず、ロック待ちが増える
    • ディスクI/Oが無くてもCPUが高負荷になってしまう
    • 索引検索にしよう

 

障害の可能性を低くする

  • DB稼働を監視
    • 例えば、アラートを出すCPU使用率のしきい値
    • 平常 -> アラート -> 警告 -> クリティカルなどで設定
    • 例えばディスク障害は突然に起こったように見えるが、実は1週間前から兆候がでていたりする
    • かつアクションプランも用意しておく
  • RDBMSのバグレポートのチェック
    • 毎日来るから見なくなるけど、1週間など定期で斜め読むなど習慣をつけましょう
    • 林さんが遭ったツライやつ: 275日たつと落ちるというOSのバグに遭った
  • RDBMSのアーキテクチャを知りましょう // 後述
  • 障害対応の訓練
    • 1年に1回はやりましょう
    • 訓練内容
      • 影響範囲の見極め 全ユーザーなのか一部なのか
        • ユーザーには誰が連絡する?
        • トラブルシュートしていない人がやること
      • 障害レポートの掲載は誰が行うのか?
        • 予め文章を用意しておくとよいです
        • クライアントによって怒られる表現もあるので
        • 例えば、金融機関向けには “緊急停止” という言葉を使うのはNGなど
      • RDBMSベンダーの対応はだれ?
        • 海外のサポートがいるので語学堪能な人がよい
        • 日頃の付き合いの中で、ベンダーの上の人をおさえておくとよいです
      • 障害対応するのは? インフラ? アプリ?
      • 誰が指揮するの?
        • 上司ですよね
        • 再起動するぞ、というジャッジは上司じゃないと出来ません
      • 回復->動作確認までで、どれぐらいの時間になるのか計測しましょう
  • その他
    • Oracleにはログマイナーというユーティリティがあってログを見るだけなら出来ます
      • 設定していないと見れない
      • 技術的ではないけれど、重要です

 

ここは伺っていて、ちょっと頭が痛くなりました。。とはいえ、林さんから 「DBにあるのはお客様の大切なデータなので、DBエンジニアとして誇りある仕事をしたいものですね」 とおっしゃっていたのが、とても刺さりました。

また、サポートのお話を伺っていると、OSSやフリーソフトウェアを使用していると、最後の砦はベンダーではなく自分たちになるので、コミュニティとの接点がとても重要と感じました。

 

RDBMSのアーキテクチャ

  • データファイルはRDBMSごとにデータフォーマットが違う
  • ログはRDBMSでは差はないです
  • データファイルの I/O の最小単位は 8kb

 

SQL実行のしくみ

 

  • SELECT * FROM CUST WHERE id = 123;
    1. ワーカープロセスが動く
    2. 解析(コンパイル)する
    3. 実行計画を最適化する // 全件 or インデックス
    4. 実行する
      1. まずデータバッファを探す on キャッシュ
      2. 無ければ、ディスクを見に行く
      3. ディスクから取る
        1. シーケンシャルサーチで連続したブロック、1エクステント (だいたい64kb) を取りに行く
  • UPDATE emp SET sal = sal*2 WHERE id = 123;
    1. SELECT と同じ動きで 123 をメモリにロードする
      • 該当のレコードをロック
    2. (Oracle) ログバッファに変更前(=10)と変更後(=20)の値を書き込み
      • 他RDBMSの場合、SQL文を保持する (そのときに AND で変更前のデータを残して DELETE するものまで含んでいる)
    3. UNDO データを生成し保持
      • ROLLBACKできるように
    4. データを更新する
    5. コミットする
      • LGWR (Log Writer)
      • 実はログバッファに書き込んでいる
      • ディスクに書き込んでない
      • 「え,障害を起こったらメモリにあがっているものが消えちゃうじゃない?」
      • 実は再起動したときにディスクのタイムスタンプとログファイルのタイムスタンプを見て、差分を書き込んでいる
    6.  (いつディスクに書くのか) DBWR が自動で3秒に1回書いている
      • なぜ自動で?
        • 空きバッファが無くならないようにやっている
      • どういうこと?
        • メモリ <-> ディスク の差分を確認
          • 値が一致 -> 空きバッファとみなして使う
          • 値が不一致 <-> 使用済みバッファとして使わない
        • それでも空きバッファが埋まる
      • DBWRがコミットしてない場合でもディスクに書く
        • 同時にログバッファにDBWR前のデータを書く

 

こういうアーキテクチャを知ると、ログファイルはとっても大事ですね。

 

障害の種類の原因と対応

今までセキュリティやパフォーマンスを中心にしてきましたが、ここからはその他の障害を取り上げます。

 

  • リカバリ方法がRDBMSによって違う
    • 例えばブロックで障害が起こったら、Oracle や SQL Server ならブロックだけをリカバリする
    • 他のRBMSは全部リストアする
  • クライアント障害
    • トランザクション処理が途中で止まって障害になること
    • RDBMSが勝手にロールバック復旧するので対策しておかなくてよい
  • ユーザー障害
    • 誤った操作で書き込んでしまった
      • 多分ユーザーが改めて書き込む -> 対策必要ない
    • 誤って削除した
      • 対策は論理バックアップしておく (エクスポート・インポートで回復)
      • でも慣れた方法が良いので、SQL文でレコードを保存しておいたほうがよいですよ

 

参考

バックアップのSQLは下のように書くのがオススメです、ということで紹介頂きました。

  • バックアップ用のSQL

  • バックアップからデータ復旧

 

メディア障害

  • ログファイル
    • (Oracleの場合) LGWRはログファイルがいっぱいになったら切り替えてる
      • このタイミングでCKPT(CheckPoint)を作成
      • ここでディスクにログファイル内容を書き込む
    • もし更新せずに永続化したいときはそのように設定しましょう
      • ログバックアップが取るように設定しましょう
      • そうするとファイルを切り替えたタイミングでアーカイブを作っている
    • (SQL Serverの場合) ログファイルがいっぱいになったら拡張している
      • この場合、バックアップは時間単位 (間隔) でやっている
    • なのでログファイルは冗長化するよう設定しましょう

 

バックアップとリカバリ

バックアップ

  • DBを止めて バックアップするということは難しい
    • なぜ止めたいのか?
      • DBは8kb単位でブロックに書き込む
      • OSは書き込む単位が違う
      • DBとOSとの差分が発生する
    • なので、 begin backup のようなコマンドを打って、タイムスタンプつきでその差分をログファイルに書き込んで、その間の差分も持つようにしている
      • end backup で止めることも忘れずに
    • これがオンラインバックアップ
  • RDBMSごとに↑をまとめたバックアップコマンドがある

 

復旧

復旧には大きく分けて2つのやり方がある

  • リストア
    • バックアップデータで復元する
  • リカバリ
    • ログファイルなどを使ってバックアップからの差分も回復する
    • バックアップデータより過去に戻ってしまうこともある (?)

 

バックアップデータより過去に戻ってしまうこともある (?)

 

なぜ、それが起こるのか、解説いただきました。

 

ログの適用のタイミングによって、生成されたバックアップより過去に戻ってしまうことがあることが理解できました。

ここまで解説頂いたところで、残念ながら、タイムアップとなりました。

 

まとめ

データベースで発生する障害のパターンと林さんの経験上、障害とも言えるセキュリティやパフォーマンスについても、その原因と対応策を解説いただきました。

特にRDBMSのアーキテクチャを交えて、わかりやすく解説頂けたので、例えば、ログファイルがなぜ重要なのか気づけました。

一方、そのアーキテクチャを厚く説明頂いたので、逆に演習時間が無くなってしまったのが残念でした。なかなか講座のバランスは難しいですね。林さんからもお詫びと、次回はしっかりと演習時間を確保することをコミットしてらっしゃったので、今後はブラッシュアップした内容になりそうです。

トラブルシュートはアプリケーションの性質やDBMSのアーキテクチャまで幅広くケアするものになるので、DBAの総仕上げとも言えそうです。DBAとして一人前になるという方にはとてもオススメの内容でした !

 

 


SEカレッジが気になった方はこちらからお気軽にお問合わせください!!

お問い合わせフォーム

SEカレッジの詳細をご覧になりたい方はこちら!!

SEカレッジ

特集・キャンペーン

よくある質問集

タグ一覧

参加してみた研修参加レポートJavaセキュリティLinux基礎基本情報技術者プロジェクトマネジメントPythonプログラミングオブジェクト指向AIプログラミング基礎SQL基礎ネットワークコミュニケーションデータベースヒューマンスキルマネジメント資格JavaScriptC# 基礎アルゴリズムテーブル設計エンジニアファイアウォールIoTソフトウェアテストSQL応用仮想化技術デザインパターンビジネスマナーパケット解析ビジネス文書jQueryDockerPMBOK®問題解決技法Linux入門プログラミング入門Linux応用教育研修担当者向けプレゼンテーションLAN構築工数見積Raspberry Piテスト自動化RDBMS単体テストJavaプログラミング基礎トレンド情報処理資格障害対応データベース基礎ネットワーク入門インフラエンジニアコンテナWindowsサーバー基礎IT研修制度を聞いてみたJavaプログラミング応用データサイエンスAWSロジカルシンキングデータベース設計SEカレッジ導入事例GoFアジャイルVLANサーバサイドJavaコーチング要求定義マルチスレッドプログラミングロジカルライティングアンガーマネジメントプロジェクトマネージャWBS新人研修インフラ実機演習パフォーマンスチューニングC# 応用テストケースModern JavaScript簿記Active DirectoryER図シェルスクリプトDNSPマークリファクタリングCCNAExcelHTML/CSS新人育成JavaScript基礎ベンダーコントロールVPNプロトコルデータベースセキュリティ非エンジニア向けインデックス設計プロジェクト管理ZabbixITIL品質管理RDBOSPFSQLインジェクションスクラムPython入門財務JavaEEITパスポート統計学Deep Learning応用情報技術者Vue.jsサイバー攻撃CentOSクラウドCloudサーバー構築ネットワーク構築データサイエンティスト物理設計(データベース)LVS機械学習データベース障害DHCP経営改善エンゲージメントマネジメント試験対策UI/UXCentOS7Webアプリケーション開発ロジカルコミュニケーションヘルスケアIT基礎TCP/IP営業知識内定者研修トラブルシューティングCisco要件定義片付け術業務効率化DBA中級マーケティング正規化理論リスク管理プロダクトマネージャUIクリティカル・シンキングブロックチェーン図解術フレームワーク決断力法律知識見える化情報セキュリティマネジメント会社の仕組み法改定UXOS・システム基盤冗長化次世代高度IT人材会社規模99名までソフトウェアテスト基礎BGPセキュリティ入門ウォーターフォールモデルプロジェクト失敗事例関数型プログラミングデータベース応用JunitルーティングPDCAリーダーシップ仮想通過IPA論理設計(データベース)プロダクトマネジメントIT人材HTTP/2.0論理設計OSI参照モデル犯罪心理学CCENT表計算ソフト塗り絵開発環境構築管理職研修情報漏えい栄養学会社規模199名までMachine LearningHTML5ビジネスインダストリサーバーインターネットルーティング応用インターネットルーティング基礎基本コマンドLAMP環境MVC基礎ロードバランサーPMOCSS3Windowsサーバー応用財務諸表PHPIPアドレスITサービスマネジメントテスト手法システム開発自己分析GO言語インタビュー技法セルフマネジメントOJTHTTP会社規模49名までプロジェクト計画業務知識/業界知識Wiresharkマウスで学ぶ微分・積分RIP冗長化入門Laravel会話術WebSocketC-CENTNode.jsチームビルディングネゴシエーションパケットキャプチャIT資格新人教育Apacheシステム設計スタティックルートモダンJS (Modern JavaScript) 基礎テスト技法並列処理財務会計ニューラルネットワークWebWorkerSelenide内部設計見積手法サーバーダウンnpmリスクコントロールMicrosoft AzureHaskellスクリプト言語やり直し数学EC2継続的インテグレーション (CI)バッファオーバーフローPDUハンズオンプライベートクラウドgulpフロントエンド超上流工程目標設定4Bizリーダブルコードソフトウェアテスト応用アプリ開発Lightsail失敗から学ぶ継続的インテグレーション(CI)DoS攻撃Go言語 (golang)UMLアセンブラタイムマネジメントビルドツールChainer数字力基本設計つながる工場情報システム部門向けOpenStackPMP®負荷分散ネットワーク管理共創概念設計(データベース)データマイニング顧客ヒアリングBootstrapコンピュータ基礎chefコンピュータ数学AI人材FinTechインフラ監視モチベーション労働関連法Infrastructure as Codeプロジェクトリーダーシンギュラリティ

過去の記事