close
プログラミング クラウド Microsoft Azure 情報処理資格 基本情報技術者 IT基礎 応用情報技術者 開発・設計方法 オブジェクト指向 内定者・新人研修 プログラミング基礎 アルゴリズム コンピュータ数学 内定者研修 新人研修 ヒューマンスキル プロジェクトマネジメント プレゼンテーション リーダーシップ 組織マネジメント ネゴシエーション ロジカルシンキング Java UI/UX HTTP JavaScript基礎 情報処理資格 ネットワークスペシャリスト ネットワーク インターネットルーティング応用 IPアドレス データベース応用 SQL応用 パフォーマンスチューニング データベース設計 ER図 概念設計(データベース) 論理設計(データベース) IT資格 Linux基礎 OS・システム基盤 セキュリティ TCP/IP OSI参照モデル データベースセキュリティ ファイアウォール 標的型攻撃 SQLインジェクション ネットワーク基本設計 CCNA Cisco プロジェクトマネジメント資格 情報処理資格プロジェクトマネージャ 情報処理安全確保支援士 人事給与 財務会計 管理会計 簿記 生産管理 在庫管理 ERP バランススコアカード 情報処理資格 ITアーキテクト 情報処理資格 ITストラテジスト 情報処理資格 ITサービスマネジメント 情報処理資格 システム監査 PMBOK® PMP® プロジェクト計画 WBS リスクコントロール ITIL ITサービスマネジメント 要求定義 要件定義 見積手法 ビジネスインダストリ 業種・業界知識 業務知識 提案力 ソフトウェアテスト基礎 情報処理資格 データベーススペシャリスト ハードウェア基礎 外部設計(基本設計) 内部設計(詳細設計) データベース基礎 SQL基礎 RDBMS 物理設計(データベース) C++ Ruby MVC基礎 Webアプリケーション開発 JavaEE Javaプログラミング応用 フレームワーク MVC応用 Spring フレームワーク ソフトウェアテスト応用 テスト手法 JUnit スマートフォンアプリ開発 Androidアプリ開発 C# 基礎 C# 応用 負荷テスト Javaプログラミング基礎 ソフトウェアテスト コーチング メンタリング HTML/CSS サーバー構築 仮想化技術 KVS (NoSQL) アジャイル スクラム ファシリテーション C言語 ITパスポート JSTQB データサイエンス 単体テスト ユニットテスト キャリアアップ インターネットルーティング基礎 パケット解析 LAN構築 データベース データサイエンティスト トレンド 障害対応 インフラ監視 HTTP/2.0 コンピュータサイエンス VPN ネットワーク物理設計 データベース障害 JavaScript モダンJS (Modern JavaScript) 応用 MVS応用 バックアップ/リカバリ 分散処理 Hadoop Hive Python AI 深層学習(DeepLearning) CentOS Linux応用 Zabbix シェルスクリプト Infrastructure as Code Windowsサーバー基礎 内部設計 Docker DevOps Windowsサーバー応用 NginX chef Ainsible ロジカルライティング R テスト自動化 Jenkins Git 継続的インテグレーション (CI) バージョン管理 Vagrant 要求分析 Redmine 継続的インテグレーション(CI) 継続的デリバリー (CD) ヒューマンリソース管理 Web API マイクロサービス コミュニケーション 業務知識/業界知識 マーケティング 語学 AWS 法務 IoT ビジネスマナー OJT 業務効率化 表計算ソフト オフィスソフト コンプライアンス フロントエンド Subversion PHP 関数型プログラミング Laravel モダンJS (Modern JavaScript) 基礎 Android Studio 機械学習 iOSアプリ開発 ぷプログラミング React 次世代高度IT人材 共創 IPA Raspberry Pi Xamarin スクリプト言語 GoF CUI VBA 資格 ビジネス文書 jQuery 研修参加レポート マネジメント OSPF テーブル設計 アンガーマネジメント クリティカル・シンキング PDU 経営改善 Pマーク 問題解決技法 サイバー攻撃 エンジニア 参加してみた エンゲージメントマネジメント 労働関連法 新人育成 ネットワーク構築 情報セキュリティマネジメント デザインパターン リファクタリング マルチスレッドプログラミング ベンダーコントロール Modern JavaScript 冗長化 VLAN インフラエンジニア チームビルディング テストケース リーダブルコード セキュリティ入門 ネットワーク入門 Node.js npm gulp ビルドツール Python入門 冗長化入門 インフラ実機演習 プロジェクト管理 Active Directory ネットワーク管理 コンテナ 正規化理論 Haskell 品質管理 OpenStack シンギュラリティ DBA中級 プロトコル UX 基本設計 FinTech トラブルシューティング 並列処理 見える化 PMO ロジカルコミュニケーション Deep Learning インデックス設計 超上流工程 BGP Excel C-CENT Selenide プライベートクラウド アセンブラ コンピュータ基礎 工数見積 CCENT 法律知識 失敗から学ぶ プロジェクト失敗事例 PDCA プログラミング入門 非エンジニア向け 4Biz DNS セルフマネジメント 片付け術 サーバーダウン サーバー タイムマネジメント GO言語 プロダクトマネジメント プロダクトマネージャ LVS ロードバランサー 負荷分散 仮想通過 犯罪心理学 情報漏えい SEカレッジ導入事例 IT研修制度を聞いてみた CentOS7 開発環境構築 数字力 財務 IT人材 UI Machine Learning Go言語 (golang) データマイニング 統計学 新人教育 やり直し数学 RDB つながる工場 モチベーション WebSocket WebWorker HTML5 CSS3 Bootstrap 微分・積分 システム設計 決断力 LAMP環境 教育研修担当者向け ルーティング Linux入門 図解術 目標設定 試験対策 インタビュー技法 Vue.js ブロックチェーン DHCP 仕掛け学 BSC 財務諸表 自己分析 RIP スタティックルート バッファオーバーフロー DoS攻撃 システム開発 Wireshark パケットキャプチャ 管理職研修 部下育成 文章力 情報システム部門向け プロジェクトリーダー プロジェクトマネージャ 塗り絵 リスク管理 法改定 会社の仕組み Chainer AI人材 会話術 テスト技法 会社規模199名まで 会社規模49名まで 会社規模99名まで アプリ開発 サーバサイドJava 営業知識 Cloud 栄養学 基本コマンド ウォーターフォールモデル ヘルスケア 論理設計 ニューラルネットワーク ハンズオン UML 顧客ヒアリング マウスで学ぶ Apache EC2 Lightsail M5Stack DevSecOps プロジェクト成果 画像認識 チャットポット コマンド レビュー 基本用語 自動構築 LPIC-1 サーバーサイドJavascript キャリア形成 ワークライフバランス インバスケット テック用語 GitHub Windows エディタ 教養 令和時代 RESTful API 物理設計 会社規模300名以上 データモデリング サーバーサイドJava Webサーバー基礎 Webサーバー応用 Watson IBMWatson Learning Topics OS モバイル コンテスト トレーニング手法 アーキテクチャ 人材モデル インフラ CI/CD Infrastructure as a Code チーム開発 制度づくり Special_Intro AI市場分析 研修ロードマップ 仕事術 デジタルトランスフォーメーション 財務分析手法 情報整理 PowerPoint 新しい研修 オンライン研修 見どころ紹介 統計分析 ディープラーニング G検定 情報処理技術者試験 販売管理 C# テスト計画 Linuxサーバー WEBサーバ構築 http/2 Postfix イーサリアム プロジェクト・メンバ 正規化 パケット実験 作業分解 トラブル調査 ネットワーク設計 Windows server 2016 ネットワーク機器 DX 管理職 最新動向 ポストコロナ時代 IoTデバイス マイコンボード センサ サーバー仮想化 仮想ルータ WAN インターネットVPN 若手エンジニア ITプロジェクト 人事面談 DX人材育成 Java基礎 ZAP 脆弱性診断 NWサービス構築 イノベーション・マネジメント ネットワークセキュリティ ストレッチ Google Cloud Platform 不動産業界 テレワーク(WFH) ドリル GCP ( Google Cloud Platform ) システム業界 PMS テレワーク ビッグデータ NoSQL OWASP CentOS8 ネットワーク技術 データ分析 デザインシンキング 保険業界 会議リーダー システムエンジニア 段取り術 プロジェクト原論 文章書き換え術 ノーコード No Code MongoDB Redis Cassandra 運用管理 Windows10 仮想マシン リモートワーク 働き方 生産性 IPSec Office セキュリティマナー ソフトウェア・レビュー ライフハック 新しい働き方 エクササイズ ビジネスモデルキャンバス 状況認識 ストレス 必須コマンド Web 今日わかる きほん 状況把握 意思決定 心の健康 IT書籍 書籍紹介 営業マン 類推法 クラス プロセス指向 PdM 共用 ウェビナーレポート 地方創生 GraphQL CSS OWASP ZAP セキュリティマネジメント 問題解決 ソフトウェア 新技術 雑談力 テスト見積もり Scala Go Rust Relay Cloud AI Kaggle ITエンジニア フレッシャーズ 経営戦略 事業戦略 マインドフルネス 基本情報技術者試験 ニューノーマル プロジェクト会議 メソドロジ 講師インタビュー システム障害 販売管理システム VMware セキュリティ事例 ケーススタディ インターネット通信 ビジネスマン 品質向上 提案 ロジック図解術 バーチャルマシン 対策事例 アスリート 国の動向 アンチパターン リモートアクセス 脳ヨガ 自律神経 整え方 組み立て方 コミュニケーション術 リーダー 新人 知っておきたいこと 対人能力 洞察力 一文作成 サッカー業界 グループワーク マネジメント手法 IT業界 Octave セキュリティ管理 IT ネットワーク機器の特徴 ネットワーク機器の仕組み 基本のキ プレゼンテーションの組み立て方 伝え力 試験合格後 時短術 作成のコツ 導入事例 メンタルマネジメント メンタルヘルスケア DXプロジェクト プログラミング教育 プログラミング的思考 子供向けプログラミング データ定義言語 DDL モダンWebアプリケーション ドキュメント作成 Docker Compose Docker Hub AR VBAエキスパート試験 Azure メディア掲載 サーバーアーキテクチャ データ操作言語 DML NewSQL ソフトウェアセキュリティ 数学 VR アパレル業界 Kubernetes Power BI Android プロダクトオーナーシップ プロダクトオーナー 内製化 情報システム部門

ハンズオンで学ぶデータベース障害のパターンと復旧 研修コースに参加してみた


2020-11-25 更新

今回参加した研修コースは ハンズオンで学ぶデータベース障害のパターンと復旧 です。

受講していると、ちょっと耳が痛い、どこからともなく頭痛がしてくる内容で、ちゃんと対策せねばという気持ちになりましたが、とはいえ、やらなきゃダメ、絶対、という高圧な口調ではなく、あくまで DB エンジニアとして誇りある仕事をしましょう、とソフトながら説得力のあるお話でした。

さすがです、林さん。

内容は、なぜその障害が起こるのか、アーキテクチャから解説いただいたので、ただの設定 Tips ではない知識が理解できました!

データベースの運用に携わる方であれば、ぜひ一度参加いただきたい内容です。

では、どんなコースだったのかレポートします!

コース情報

想定している受講者 SQL によるリレーショナルデータベース操作ができる
受講目標 障害のパターンとその対応方法を理解する

講師紹介

この参加してみたレポートでは初登場ですね。林 優子さん が登壇されました。講座では自己紹介もそこそこにコースをスタートされましたが、ここではもうちょっと詳しくご紹介します。

林 優子
林 優子
Oracle をはじめとしたデータベースのスペシャリスト。 資格書と対策研修で圧倒的な人気を誇る。 Oracle 認定講師を表彰する Excellent Instructor を連続受賞。

林さんと言うと、 オラクルマスター教科書シリーズ の執筆や Oracle University が毎年表彰している Excellent Instructor を 5 回も受賞した講師です。

SEカレッジでもデータベース分野で数多く登壇いただいていて、参加満足度がとても高い人気の講師です。

まず講座の前提から説明です。

  • 事前アンケートには目を通していますが、期待した内容でなければ、いつでも言ってください
  • RDBMS によってリカバリー方法が異なるので、考え方を学んでもえるとうれしいです
  • Oracle から PostgreSQL など一通りできますので、お使いのもので教えてもらってもよいでしょうか?
    • 手が挙がった内訳 (複数回答OK)
    • Oracle ・・・5
    • SQL Server ・・・5
    • MySQL ・・・2
    • DB2 ・・・1

起こりうるデータベース障害の種類

まずはデータベースにどのような障害が起こるのか分類です。

  • 文障害~メディア障害までは、どのリカバリ系の研修コースでもやってます
  • そこに含まれない、セキュリティ障害とパフォーマンス障害は DBA の実務上、とても影響が大きかったのでこれを中心にやります

セキュリティ障害

  • SQLインジェクション
  • Web サイトの何らかのフォームから where 句や order_by 句などが渡される
  • 例えば :id という文字列が渡されるとどうなるのか
  • WHERE 句の FALSE を利用する
    WHERE
    emp_id = ' ' OR 'x'='x' /* employees という従業員テーブルがある想定 */
  • これが TRUE になって全レコードが指定されてしまう

対策

  • バインド機構の使用
    • プレイスホルダを使うのがオススメ

起こってしまったリカバリというより、障害を予防するという観点で必要です。

それ以外にも方法があるので、詳しく知りたい方はSEカレッジで開催している SQL インジェクション対策の講座に参加して下さい、とのことでした。

SQL インジェクション対策の心得

パフォーマンス障害

  • パフォーマンスも悪くなると止まる = ユーザーには障害 (トラブル) と同意
  • CPU高負荷が起こると止めたくないので、経過観察してしまう
  • そうすると1時間ぐらい使ってしまう

対策

詳しく知りたい方は同じようにSEカレッジでパフォーマンスの講座があるので、ぜひそちらに、とのことで、ここではポイントだけ解説されました。

  • 全件検索をやめましょう…
    • 例えば SELECT でもロックが掛かる
    • なのでユーザーの SELECT が終わらないと共有メモリは空かず、ロック待ちが増える
    • ディスク I / O が無くても CPU が高負荷になってしまう
    • 索引検索にしよう

障害の可能性を低くする

  • DB 稼働を監視
    • 例えば、アラートを出す CPU 使用率のしきい値
    • 平常 -> アラート -> 警告 -> クリティカルなどで設定
    • 例えばディスク障害は突然に起こったように見えるが、実は 1 週間前から兆候がでていたりする
    • かつアクションプランも用意しておく
  • RDBMS のバグレポートのチェック
    • 毎日来るから見なくなるけど、 1 週間など定期で斜め読むなど習慣をつけましょう
    • 林さんが遭ったツライやつ: 275 日たつと落ちるという OS のバグに遭った
  • RDBMS のアーキテクチャを知りましょう // 後述
  • 障害対応の訓練
    • 1 年に 1 回はやりましょう
    • 訓練内容
      • 影響範囲の見極め 全ユーザーなのか一部なのか
        • ユーザーには誰が連絡する?
        • トラブルシュートしていない人がやること
      • 障害レポートの掲載は誰が行うのか?
        • 予め文章を用意しておくとよいです
        • クライアントによって怒られる表現もあるので
        • 例えば、金融機関向けには “緊急停止” という言葉を使うのは NG など
      • RDBMS ベンダーの対応はだれ?
        • 海外のサポートがいるので語学堪能な人がよい
        • 日頃の付き合いの中で、ベンダーの上の人をおさえておくとよいです
      • 障害対応するのは? インフラ? アプリ?
      • 誰が指揮するの?
        • 上司ですよね
        • 再起動するぞ、というジャッジは上司じゃないと出来ません
      • 回復->動作確認までで、どれぐらいの時間になるのか計測しましょう
  • その他
    • Oracle にはログマイナーというユーティリティがあってログを見るだけなら出来ます
      • 設定していないと見れない
      • 技術的ではないけれど、重要です

ここは伺っていて、ちょっと頭が痛くなりました。。とはいえ、林さんから 「 DB にあるのはお客様の大切なデータなので、 DB エンジニアとして誇りある仕事をしたいものですね」 とおっしゃっていたのが、とても刺さりました。

また、サポートのお話を伺っていると、 OSS やフリーソフトウェアを使用していると、最後の砦はベンダーではなく自分たちになるので、コミュニティとの接点がとても重要と感じました。

RDBMSのアーキテクチャ

  • データファイルは RDBMS ごとにデータフォーマットが違う
  • ログは RDBMS で差はないです
  • データファイルの I/O の最小単位は 8 KB

SQL実行のしくみ

    SELECT * FROM CUST WHERE id = 123;
  1. ワーカープロセスが動く
  2. 解析(コンパイル)する
  3. 実行計画を最適化する // 全件 or インデックス
  4. 実行する
    1. まずデータバッファを探す on キャッシュ
    2. 無ければ、ディスクを見に行く
    3. ディスクから取る
      • シーケンシャルサーチで連続したブロック、 1 エクステント (だいたい 64 KB ) を取りに行く
    UPDATE emp SET sal = sal*2 WHERE id = 123;
  1. SELECT と同じ動きで 123 をメモリにロードする
    • 該当のレコードをロック
  2. ( Oracle ) ログバッファに変更前( = 10 )と変更後( = 20 )の値を書き込み
    • 他 RDBMSの場合、SQL文を保持する (そのときに AND で変更前のデータを残して DELETE するものまで含んでいる)
  3. UNDO データを生成し保持
    • ROLLBACK できるように
  4. データを更新する
  5. コミットする
    • LGWR (Log Writer)
    • 実はログバッファに書き込んでいる
    • ディスクに書き込んでない
    • 「え,障害を起こったらメモリにあがっているものが消えちゃうじゃない?」
    • 実は再起動したときにディスクのタイムスタンプとログファイルのタイムスタンプを見て、差分を書き込んでいる
  6. (いつディスクに書くのか) DBWR が自動で 3 秒に 1 回書いている
    • なぜ自動で?
      • 空きバッファが無くならないようにやっている
    • どういうこと?
      • メモリ <-> ディスク の差分を確認
        • 値が一致 -> 空きバッファとみなして使う
        • 値が不一致 <-> 使用済みバッファとして使わない
      • それでも空きバッファが埋まる
    • DBWR がコミットしてない場合でもディスクに書く
      • 同時にログバッファに DBWR 前のデータを書く

こういうアーキテクチャを知ると、ログファイルはとっても大事ですね。

障害の種類の原因と対応

今までセキュリティやパフォーマンスを中心にしてきましたが、ここからはその他の障害を取り上げます。

  • リカバリ方法が RDBMS によって違う
    • 例えばブロックで障害が起こったら、Oracle や SQL Server ならブロックだけをリカバリする
    • 他の RBMS は全部リストアする
  • クライアント障害
    • トランザクション処理が途中で止まって障害になること
    • RDBMS が勝手にロールバック復旧するので対策しておかなくてよい
  • ユーザー障害
    • 誤った操作で書き込んでしまった
      • 多分ユーザーが改めて書き込む -> 対策必要ない
    • 誤って削除した
      • 対策は論理バックアップしておく (エクスポート・インポートで回復)
      • でも慣れた方法が良いので、 SQL 文でレコードを保存しておいたほうがよいですよ

参考

バックアップの SQL は下のように書くのがオススメです、ということで紹介頂きました。

codeバックアップ用の SQL
CREATE TABLE emp2 AS SELECT * FROM EMP;
codeバックアップからデータ復旧
INSRET INTO emp
SELECT * FROM emp2
WHERE ID = hoge;

メディア障害

  • ログファイル
    • ( Oracle の場合) LGWRはログファイルがいっぱいになったら切り替えてる
      • このタイミングで CKPT( CheckPoint ) を作成
      • ここでディスクにログファイル内容を書き込む
    • もし更新せずに永続化したいときはそのように設定しましょう
      • ログバックアップが取るように設定しましょう
      • そうするとファイルを切り替えたタイミングでアーカイブを作っている
    • ( SQL Server の場合) ログファイルがいっぱいになったら拡張している
      • この場合、バックアップは時間単位 (間隔) でやっている
    • なのでログファイルは冗長化するよう設定しましょう

バックアップとリカバリ

バックアップ

  • DB を止めて バックアップするということは難しい
    • なぜ止めたいのか?
      • DB は 8 KB 単位でブロックに書き込む
      • OS は書き込む単位が違う
      • DB と OS との差分が発生する
    • なので、 begin backup のようなコマンドを打って、タイムスタンプつきでその差分をログファイルに書き込んで、その間の差分も持つようにしている
      • end backup で止めることも忘れずに
    • これがオンラインバックアップ
  • RDBMS ごとに ↑ をまとめたバックアップコマンドがある

復旧 (リカバリ)

復旧には大きく分けて 2 つのやり方がある

  • リストア
    • バックアップデータで復元する
  • リカバリ
    • ログファイルなどを使ってバックアップからの差分も回復する
    • バックアップデータより過去に戻ってしまうこともある (?)

バックアップデータより過去に戻ってしまうこともある (?)

なぜ、それが起こるのか、解説いただきました。

ログの適用のタイミングによって、生成されたバックアップより過去に戻ってしまうことがあることが理解できました。

ここまで解説頂いたところで、残念ながら、タイムアップとなりました。

まとめ

データベースで発生する障害のパターンと林さんの経験上、障害とも言えるセキュリティやパフォーマンスについても、その原因と対応策を解説いただきました。

特にRDBMSのアーキテクチャを交えて、わかりやすく解説頂けたので、例えば、ログファイルがなぜ重要なのか気づけました。

一方、そのアーキテクチャを厚く説明頂いたので、逆に演習時間が無くなってしまったのが残念でした。なかなか講座のバランスは難しいですね。林さんからもお詫びと、次回はしっかりと演習時間を確保することをコミットしてらっしゃったので、今後はブラッシュアップした内容になりそうです。

トラブルシュートはアプリケーションの性質や DBMS のアーキテクチャまで幅広くケアするものになるので、 DBA の総仕上げとも言えそうです。 DBA として一人前になるという方にはとてもオススメの内容でした !


SEカレッジについて

午前免除 FAQ

タグ一覧