close
プログラミング クラウド Microsoft Azure 情報処理資格 基本情報技術者 IT基礎 応用情報技術者 開発・設計方法 オブジェクト指向 内定者・新人研修 プログラミング基礎 アルゴリズム コンピュータ数学 内定者研修 新人研修 ヒューマンスキル プロジェクトマネジメント プレゼンテーション リーダーシップ 組織マネジメント ネゴシエーション ロジカルシンキング Java UI/UX HTTP JavaScript基礎 情報処理資格 ネットワークスペシャリスト ネットワーク インターネットルーティング応用 IPアドレス データベース応用 SQL応用 パフォーマンスチューニング データベース設計 ER図 概念設計(データベース) 論理設計(データベース) IT資格 Linux基礎 OS・システム基盤 セキュリティ TCP/IP OSI参照モデル データベースセキュリティ ファイアウォール 標的型攻撃 SQLインジェクション ネットワーク基本設計 CCNA Cisco プロジェクトマネジメント資格 情報処理資格プロジェクトマネージャ 情報処理安全確保支援士 人事給与 財務会計 管理会計 簿記 生産管理 在庫管理 ERP バランススコアカード 情報処理資格 ITアーキテクト 情報処理資格 ITストラテジスト 情報処理資格 ITサービスマネジメント 情報処理資格 システム監査 PMBOK® PMP® プロジェクト計画 WBS リスクコントロール ITIL ITサービスマネジメント 要求定義 要件定義 見積手法 ビジネスインダストリ 業種・業界知識 業務知識 提案力 ソフトウェアテスト基礎 情報処理資格 データベーススペシャリスト ハードウェア基礎 外部設計(基本設計) 内部設計(詳細設計) データベース基礎 SQL基礎 RDBMS 物理設計(データベース) C++ Ruby MVC基礎 Webアプリケーション開発 JavaEE Javaプログラミング応用 フレームワーク MVC応用 Spring フレームワーク ソフトウェアテスト応用 テスト手法 JUnit スマートフォンアプリ開発 Androidアプリ開発 C# 基礎 C# 応用 負荷テスト Javaプログラミング基礎 ソフトウェアテスト コーチング メンタリング HTML/CSS サーバー構築 仮想化技術 KVS (NoSQL) アジャイル スクラム ファシリテーション C言語 ITパスポート JSTQB データサイエンス 単体テスト ユニットテスト キャリアアップ インターネットルーティング基礎 パケット解析 LAN構築 データベース データサイエンティスト トレンド 障害対応 インフラ監視 HTTP/2.0 コンピュータサイエンス VPN ネットワーク物理設計 データベース障害 JavaScript モダンJS (Modern JavaScript) 応用 MVS応用 バックアップ/リカバリ 分散処理 Hadoop Hive Python AI 深層学習(DeepLearning) CentOS Linux応用 Zabbix シェルスクリプト Infrastructure as Code Windowsサーバー基礎 内部設計 Docker DevOps Windowsサーバー応用 NginX chef Ainsible ロジカルライティング R テスト自動化 Jenkins Git 継続的インテグレーション (CI) バージョン管理 Vagrant 要求分析 Redmine 継続的インテグレーション(CI) 継続的デリバリー (CD) ヒューマンリソース管理 Web API マイクロサービス コミュニケーション 業務知識/業界知識 マーケティング 語学 AWS 法務 IoT ビジネスマナー OJT 業務効率化 表計算ソフト オフィスソフト コンプライアンス フロントエンド Subversion PHP 関数型プログラミング Laravel モダンJS (Modern JavaScript) 基礎 Android Studio 機械学習 iOSアプリ開発 ぷプログラミング React 次世代高度IT人材 共創 IPA Raspberry Pi Xamarin スクリプト言語 GoF CUI VBA 資格 ビジネス文書 jQuery 研修参加レポート マネジメント OSPF テーブル設計 アンガーマネジメント クリティカル・シンキング PDU 経営改善 Pマーク 問題解決技法 サイバー攻撃 エンジニア 参加してみた エンゲージメントマネジメント 労働関連法 新人育成 ネットワーク構築 情報セキュリティマネジメント デザインパターン リファクタリング マルチスレッドプログラミング ベンダーコントロール Modern JavaScript 冗長化 VLAN インフラエンジニア チームビルディング テストケース リーダブルコード セキュリティ入門 ネットワーク入門 Node.js npm gulp ビルドツール Python入門 冗長化入門 インフラ実機演習 プロジェクト管理 Active Directory ネットワーク管理 コンテナ 正規化理論 Haskell 品質管理 OpenStack シンギュラリティ DBA中級 プロトコル UX 基本設計 FinTech トラブルシューティング 並列処理 見える化 PMO ロジカルコミュニケーション Deep Learning インデックス設計 超上流工程 BGP Excel C-CENT Selenide プライベートクラウド アセンブラ コンピュータ基礎 工数見積 CCENT 法律知識 失敗から学ぶ プロジェクト失敗事例 PDCA プログラミング入門 非エンジニア向け 4Biz DNS セルフマネジメント 片付け術 サーバーダウン サーバー タイムマネジメント GO言語 プロダクトマネジメント プロダクトマネージャ LVS ロードバランサー 負荷分散 仮想通過 犯罪心理学 情報漏えい SEカレッジ導入事例 IT研修制度を聞いてみた CentOS7 開発環境構築 数字力 財務 IT人材 UI Machine Learning Go言語 (golang) データマイニング 統計学 新人教育 やり直し数学 RDB つながる工場 モチベーション WebSocket WebWorker HTML5 CSS3 Bootstrap 微分・積分 システム設計 決断力 LAMP環境 教育研修担当者向け ルーティング Linux入門 図解術 目標設定 試験対策 インタビュー技法 Vue.js ブロックチェーン DHCP 仕掛け学 BSC 財務諸表 自己分析 RIP スタティックルート バッファオーバーフロー DoS攻撃 システム開発 Wireshark パケットキャプチャ 管理職研修 部下育成 文章力 情報システム部門向け プロジェクトリーダー プロジェクトマネージャ 塗り絵 リスク管理 法改定 会社の仕組み Chainer AI人材 会話術 テスト技法 会社規模199名まで 会社規模49名まで 会社規模99名まで アプリ開発 サーバサイドJava 営業知識 Cloud 栄養学 基本コマンド ウォーターフォールモデル ヘルスケア 論理設計 ニューラルネットワーク ハンズオン UML 顧客ヒアリング マウスで学ぶ Apache EC2 Lightsail M5Stack DevSecOps プロジェクト成果 画像認識 チャットポット コマンド レビュー 基本用語 自動構築 LPIC-1 サーバーサイドJavascript キャリア形成 ワークライフバランス インバスケット テック用語 GitHub Windows エディタ 教養 令和時代 RESTful API 物理設計 会社規模300名以上 データモデリング サーバーサイドJava Webサーバー基礎 Webサーバー応用 Watson IBMWatson Learning Topics OS モバイル コンテスト トレーニング手法 アーキテクチャ 人材モデル インフラ CI/CD Infrastructure as a Code チーム開発 制度づくり Special_Intro AI市場分析 研修ロードマップ 仕事術 デジタルトランスフォーメーション 財務分析手法 情報整理 PowerPoint 新しい研修 オンライン研修 見どころ紹介 統計分析 ディープラーニング G検定 情報処理技術者試験 販売管理 C# テスト計画 Linuxサーバー WEBサーバ構築 http/2 Postfix イーサリアム プロジェクト・メンバ 正規化 パケット実験 作業分解 トラブル調査 ネットワーク設計 Windows server 2016 ネットワーク機器 DX 管理職 最新動向 ポストコロナ時代 IoTデバイス マイコンボード センサ サーバー仮想化 仮想ルータ WAN インターネットVPN 若手エンジニア ITプロジェクト 人事面談 DX人材育成 Java基礎 ZAP 脆弱性診断 NWサービス構築 イノベーション・マネジメント ネットワークセキュリティ ストレッチ Google Cloud Platform 不動産業界 テレワーク(WFH) ドリル GCP ( Google Cloud Platform ) システム業界 PMS テレワーク ビッグデータ NoSQL OWASP CentOS8 ネットワーク技術 データ分析 デザインシンキング 保険業界 会議リーダー システムエンジニア 段取り術 プロジェクト原論 文章書き換え術 ノーコード No Code MongoDB Redis Cassandra 運用管理 Windows10 仮想マシン リモートワーク 働き方 生産性 IPSec Office セキュリティマナー ソフトウェア・レビュー ライフハック 新しい働き方 エクササイズ ビジネスモデルキャンバス 状況認識 ストレス 必須コマンド Web 今日わかる きほん 状況把握 意思決定 心の健康 IT書籍 書籍紹介 営業マン 類推法 クラス プロセス指向 PdM 共用 ウェビナーレポート 地方創生 GraphQL CSS OWASP ZAP セキュリティマネジメント 問題解決 ソフトウェア 新技術 雑談力 テスト見積もり Scala Go Rust Relay Cloud AI Kaggle ITエンジニア フレッシャーズ 経営戦略 事業戦略 マインドフルネス 基本情報技術者試験 ニューノーマル プロジェクト会議 メソドロジ 講師インタビュー システム障害 販売管理システム VMware セキュリティ事例 ケーススタディ インターネット通信 ビジネスマン 品質向上 提案 ロジック図解術 バーチャルマシン 対策事例 アスリート 国の動向 アンチパターン リモートアクセス 脳ヨガ 自律神経 整え方 組み立て方 コミュニケーション術 リーダー 新人 知っておきたいこと 対人能力 洞察力 一文作成 サッカー業界 グループワーク マネジメント手法 IT業界 Octave セキュリティ管理 IT ネットワーク機器の特徴 ネットワーク機器の仕組み 基本のキ プレゼンテーションの組み立て方 伝え力 試験合格後 時短術 作成のコツ 導入事例 メンタルマネジメント メンタルヘルスケア DXプロジェクト プログラミング教育 プログラミング的思考 子供向けプログラミング データ定義言語 DDL モダンWebアプリケーション ドキュメント作成 Docker Compose Docker Hub AR VBAエキスパート試験 Azure メディア掲載 サーバーアーキテクチャ データ操作言語 DML NewSQL ソフトウェアセキュリティ 数学 VR アパレル業界 Kubernetes Power BI Android プロダクトオーナーシップ プロダクトオーナー 内製化 情報システム部門 Z世代 クラウドネイティブ 技術教育 Windows server 2019 XSS CSRF クリックジャッキング ビジネスパーソン VPC IAM AWS Fargete ECS 問題発見力 問題分析力編 Access 流通業界 金融業界 ネットワーク設定 トラブル対応 評価 ソフトウェア品質 クレーム対応 呼吸法 戦国武将 エンジニアリング 組織論 SpreadSheet GAS ゼロトラスト Express 3D Arduino 業務分析法 業務構造 経営者 ストレングスファインダー 発注者視点

NoSQL 入門 ~ RDB の限界と NoSQL データベースの種類|研修コースに参加してみた


2021-11-10 更新

今回参加したコースは NoSQL 入門 ~ RDB の限界と NoSQL データベースの種類 です。

NoSQL という言葉の登場以来、 10 年以上が過ぎ、ベストプラクティスが見え、成熟化しました。一方で、 GAFA など一部の巨大サービス企業で使われるものという認識も変わり、一般的なサービスでもデータストアに RDB だけでなく様々な NoSQL データベースを利用することが増えました。

このコースでは改めて、その RDB では難しかったことを Twitter をサンプルとして考え、 NoSQL で出来ることや、数多くの NoSQL データベースの特徴や SQL との違いが学びました。

 

なお、このレポートはいつもの講座 / リアルタイム配信のスタイルではなく、動画契約企業がいつでも視聴できる「いつでも動画」に収録されている、「 NoSQL とは何か? (1) 」「 NoSQL とは何か? (2) 」の 2 コースをまとめたものです。動画では、1 コース 1 時間程度で、トピックごとに分けられた短い動画を見て学習できます。分かりにくかったところや聞き逃したところなどを繰り返し再生できるのが便利ですね。

 

では、どのような内容だったのか、レポートします!

コース情報

想定している受講者 SQL を学習済であることが望ましい
受講目標
  • NoSQL の基本を理解する
  • 操作を見て NoSQL データベースごとの違いがわかる

講師紹介

講師は AI / IoT だけでなく JS 、 DB など幅広い分野で登壇される 植田崇靖 さんです。

講師インタビュー 植田 崇靖「電子回路から機械学習まで、学ぶことが楽しい!」

植田さんのコースは以前にも他のコースでレポートしていますので、ぜひご覧ください。

機械学習 モデル の作り方と必要な基礎知識|研修コースに参加してみた
JavaScript 練習 ドリル 研修コースに参加してみた

NoSQL とは

まず NoSQL の概要を紹介いただきました。

  • 諸説あるが、 Not Only SQL の略と言われている
    • RDBMS 以外という大きな括り
  • ただし NoSQL の中には SQL が使えるものもある
  • ビッグデータとともに注目されている

NoSQL が使われるようになった背景には、 3 つの V があります。

  • Volume:データ量の増加
    • 従来の DB は大きくても限られていた
    • Twitter は 1 日に 10 TB
    • 分散 DB になった
  • Velocity:処理速度の増加
    • たとえば 12 TB を格納しようとしたとき、転送速度を考えると、 1 日では足りない
    • 複数台で同時並行で処理
  • Variety:多様性の増加
    • 既存の DB に格納されるのは、数値と文字列ぐらい
    • SNS のように画像や動画など、いままで扱わなかったデータをストアする必要がある
    • 構造を持っていないデータ、あるいは JSON のような半構造データを格納

RDB の限界

RDB が既に使われているところでは無くなることはないが、限界も見えてきているとのことでした。

    RDB の限界

  • 大量データ
    • 1 PB のデータを格納するには 1 TB の HDD が 1000 個必要
    • 処理速度:毎秒数万件のクエリを 1 つのハードウェアで処理するのは無理
    • スケールアウトによる分散処理の必要
      • RDB ではあまり得意ではない
  • 半構造データ
    • 構造はあってもスキーマがない
      • RDB では納めきれない
    • 例えるなら、データを 1 つのセルにたくさん入れなくてはいけない
    • RDB のメリットが生かせない、向いていない

たとえば、 Twitter API を使ってツイートを RDB にストアして、好きな属性で検索できるようにしたい場合には、次のような問題があります。

  • 約 90 のキーと値のペア
  • テーブル設計が困難
    • 動画も写真もある
    • キーの名前もひんぱんに変わる
  • 列の定義が難しい
    • 列名も、そのデータ型も変わる
  • パフォーマンスがでない
  • API の変更

RDB では無理ゲーですね … 。

そこで Twitter の API から取得できるデータは JSON なので、それが得意な “ドキュメント DB ( NoSQL )” を使うと良さそうです。

  • JSON のデータをそのまま格納できる
  • JSON のデータからキーで絞り込める
  • 負荷によるスケールアウトができる
  • データ構造が変わっていても JSON をそのまま格納しているのでデータロスの危険性がない

NoSQL のよくある勘違い

一方で、 NoSQL にはよく勘違いされているケースがあるとのことでした。

  • バッチは高速にはならない
    • バッチ処理をするものは基本的にない
  • トランザクションが高速にはならない
    • トランザクションは ACID 特性を担保にしている
    • NoSQL の多くは ACID 特性をトレードオフにして、スケールアウト (並列処理) を志向している
  • ビッグデータの分析に特化しているものばかりではない
    • 分析機能に特化したものは少ない
  • RDB から置き換えると必ずしも処理が速くなるとは限らない
    • 置き換えるものではなく、新しいものを追加するという考え方がよい
  • 「オープンソースしかない」は誤り
    • 商用プロダクトも商用ライセンスもある
  • 「スキーマがない」は誤り
    • スキーマがないわけではない
  • SQL が使えないは誤り
    • Cassandra は SQL に似た CQL を使う

NoSQL データベースの特徴

NoSQL はただの括りなので、さまざまな種類のデータベースが含まれます。一概には言えませんが、大枠で次のように分けられます。

  • KVS (キーバリューストア)
  • ドキュメント DB
  • グラフ DB
  • etc.

KVS

ここからそれぞれの NoSQL データベースの特徴を見ていきます。

まずは KVS の特徴です。

  • 短いターンアラウンドタイムで応答できる
  • データ構造
    • キーバリューストア
      • キーに対して値が 1 つ
    • ワイドカラムストア
      • キーに対して複数の値を格納できる
      • 複数の値が必ず入っている必要はない
    • この 2 つでどのソフトかが変わるので注意
  • データ間は疎結合
    • 結合が強くない
  • Redis などが有名

キーバリューストアとワイドカラムストア

データ構造の違いを深堀りします。

    キーバリューストア

  • 1 つのキーに対して 1 つの値をとる
  • いままでの DB との違い:バリューに型の定義がない
    • いろいろな型が入る
  • どういう値がストアできるかはデータベースによって違うので注意
  • プログラミング言語のドライバが、プログラミング言語のデータ型に置き換える
  • ワイドカラムストア

  • 1 つのキーに対して複数の列 ( ex. 多次元配列のキー ) もとることができる
  • 列の型は固定されておらず、列の数も自由
    • 使わない列は RDB では明示的に NULL などにする必要があった
  • サイズ
    • RDB は空欄を含めたデータ容量が必要
    • ワイドカラムでは空欄はデータ容量を消費しない

ドキュメント DB

次にドキュメント DB の特徴です。

  • JSON のような階層構造があるデータに特化した機能
    • 一次元のキーと値だけでなく、ネストしたキーと値も扱う
  • 半構造データにおける開発生産性が高い
  • MondoDB などが有名

ちなみに MySQL 8.0 / PostgreSQL 9.2 から JSON を扱えるようになったので、 RDB も進化していますね。

 

このほか、 KVS 、ドキュメント DB に続き、グラフ DB についても紹介いただきました。

CAP の定理

NoSQL データベースの多くに共通する分散アーキテクチャの場合、 CAP の定理を意識する必要があります。

  • 分散システムにおいて以下の 3 つのうち最大 2 つまでしか満たすことはできないという定理
    • C (整合性)
      • すべてのノードで同時に同じデータが見える
    • A (可用性)
      • 単一障害の一部のノードで起きた障害で処理の継続性が失われない
    • P (分断耐性)
      • ノード群のネットワークが分断されても正しく動作する
  • どの 2 つを重視するのか、目的によって異なる
    • CA 特性
      • RDB(OLTP)
    • CP 特性
      • Redis 、 MongoDB
    • AP 特性
      • Cassandra

NoSQL のメリット、デメリット

NoSQL にも、もちろんメリットとデメリットがあります。そこから判断するには、誰にとってのメリット・デメリットなのかが重要です。

  • アプリケーション開発者にとって
    • メリット
      • データモデルを選択できる
      • スキーマを定義せずにデータを格納できる
      • ドキュメント DB ならば高速な開発が可能
    • デメリット
      • 各種機能が乏しい(特に KVS とドキュメント DB )
      • トランザクションや整合性を保つ機能が使えない(特に KVS とドキュメント DB )
      • スキーマ管理をしないとデータの中身がわからない
  • データベース管理者にとって
    • メリット
      • 性能増強が容易(特に KVS とドキュメント DB )
      • 高可用構成を簡単に構築できる(特に KVS とドキュメント DB )
    • デメリット
      • トラブルシューティングが難しい
      • 運用に関する機能が乏しい

 

ここまでの分類をまとめると、次の図のようになります。

データベース比較表

MongoDB を操作してみる ( ドキュメント DB )

ここからは実際に NoSQL データベースを操作する時間です。比較として MySQL の操作を見たあと、データモデルごとに代表的な NoSQL データベースを操作します。

まず、ドキュメント DB の代表格である MongoDB です。

MongoDB では、 RDB のテーブルの代わりに、コレクションを作ります。

  • コレクション作成
    > db.createCollection('coltest')
    { "ok" : 1 }

続いて、簡単な CRUD 処理をやってみます。

  • POST データの追加
    > db.coltest.insert({
        name: 'suzuki',
        age: 45,
        blood: 'O'
        })
    WriteResult({ "nInserted" : 1 })
    // もう 1 つ追加。前のデータとキーが同じである必要はない
    > db.coltest.insert({
        name: 'yamada',
        age: 30,
        tel: '090-0000-0000'
        })
    WriteResult({ "nInserted" : 1 })
  • GET データの参照
    > db.coltest.find()
    { "_id" : ObjectId("60068c6d9855db4d1205dbd5"), "name" : 'suzuki', "age" : 45, "blood" : 'O' }
    { "_id" : ObjectId("60068c6d9855db4d1205dbd6"), "name" : 'yamada', "age" : 30, "tel" : '090-0000-0000' }
    // ObjectId が主キーのような役割
    // 検索条件は find の引数に JSON で指定
    > db.coltest.find({ name: "suzuki" })
    { "_id" : ObjectId("60068c6d9855db4d1205dbd5"), "name" : 'suzuki', "age" : 45, "blood" : 'O' }
  • UPDATE データの更新
    > db.coltest.update(
        { name: 'suzuki' }, // SQL の WHERE に相当
        { $set: { blood: 'A' }} // 更新する Key, Value
        )
    WriteResult({ "nMatched" : 1, "nUpdated" : 0, "nModified" : 1 })
  • DELETE データの削除
    > db.coltest.remove(
        { name: 'suzuki' }
        )
    WriteResult({ "nRemoved" : 1 })

どちらかというとプログラミングに近いクエリの書き方ですね。

またテーブルとカラムの定義のようなものがなく、コレクションにそのまま投入できるのは面白い特徴です。

なお MondoDB には Web 上で試せる playground が幾つかあります。その中でも下記はデータが既にあり、サポートしているクエリが豊富だったため、試してみたい方にはオススメです!

MongoDB Playground – Principles of Database Management

Redis を操作してみる ( KVS )

次に、 KVS の Redis です。 Redis はキャッシュのデータストアとして使うことが多いものですね。

Redis では、テーブルやコレクションではなく、データベースがそれにあたり、その中に直接キーと値を入れていきます。

デフォルトで、 1 〜 15 という名前のデータベースが作られています。データベースを使うには SELECT でこの番号を指定します。

> SELECT 15
OK

 

同じく CRUD 処理を見てみましょう。 Redis にも Web で実行できるサンドボックスがあるので、ぜひ以下のコマンドはご自身でも試してみてください。

Try Redis

  • POST データの追加
    • SET を使う
    • KVS なので、キーと値をセットで指定
    • 下記では test がキー
    > SET test "HELLO, World!!"
    OK
  • GET データの参照
    • GET を使う
    > GET test
    "HELLO, World!!"
  • DELETE キーの削除
    > DEL test
    (integer) 1
    > GET test
    (nil)

また、キーの有無や、どのキーを使っていたのか、確認するときは KEYS を使います(全件は * 。ただし件数が多いときには注意)。

> KEYS foo
1) "foo"
> KEYS *
1) "hoge"
2) "foo"
> KEYS bar
(empty list or set)

 

このあとグラフ DB の Neo4j でも同じような操作を行い、このコースは修了しました。

まとめ

このコースでは NoSQL の登場の背景、 NoSQL の種類、 NoSQL データベースごとの特徴や、実際の操作で SQL との違いを学びました。

システムが大規模化するのに合わせて RDB の限界があるのは、先日の Slack のテックブログで生々しく書かれており、そこには NoSQL / NewSQL への移行・併用は非常に抵抗が強いことも伺えました (結局、 Slack は Vitess という MySQL 向けのクラスタリングソフトを採用 [シャーディング用途]) 。この苦悩はどんなアプリケーション開発者や DBA も悩まされるものです。

Scaling Datastores at Slack with Vitess – Slack Engineering

NoSQL という言葉が登場して以来、長く時間が経過しましたが、モバイルネイティブ、スタートアップの急成長、コロナ禍などによりインターネットで圧倒的なトラフィックが生まれ、システムの大規模化が進む中、改めて NoSQL には何が出来て、何が不得意なのか、学べたのは貴重でした。

今度は Redis や MongoDB をどこで使うのか、構成例などをもとに学びたいですね!

 


SEカレッジについて

label SEカレッジを詳しく知りたいという方はこちらから !!

SEcollege logo
SEカレッジ
IT専門の定額制研修 月額28,000円 ~/ 1社 で IT研修 制度を導入できます。
年間 670 コースをほぼ毎日開催中!!

午前免除 FAQ

タグ一覧