データ処理 †
3V †
- Volume(膨大な量)
- Velocity(処理に必要な速度)
- Variety(多様性)
RDB †
行指向型 †
- データの追加修正やデータ検索のレスポンスが早く、トランザクションにも対応している
- 処理結果をすぐに返す必要がある業務システムや機器の制御などに向いている
- Oracle
- SQL Server
- MySQL
- PostgreSQL
- AWS Aurora
- Google Cloud Spanner
列指向型 †
- 列方向でデータを圧縮して格納することで大量のデータを扱うことができ、集計や分析に特化している
- Oracle Exadata
- Snowflake
- Amazon Redshift
- Google BigQuery?
NoSQL †
キーバリュー型 †
ワイドカラム型 †
- キーバリュー型を拡張したもので、キーに対して複数のカラムを持つことができる
- データごとに異なるカラムを持つことができるので、複数の種類のセンサデータの格納などに向いている
- 列方向の集計が得意
- Cassandra
- Hbase
- Google BigTable?
- Amazon DynamoDB
ドキュメント型 †
- XMLやJSONといった複雑なドキュメントをそのまま格納できるデータベース
- スキーマが不要で、個々のドキュメントのデータ構造が自由なことから、ニュースサイトやブログなどのWebアプリケーションで使用されている
- MongoDB
- CouchDB
- ElasticSearch?
グラフ型 †
- SNSなどで人と人の関係をあらわす用途や経路検索において最短経路を導き出す用途に利用される
バッチ処理 †
Hadoop †
ストリーミング処理 †
リアルタイムメッセージシステム †
- データの送信者(Publisher/Producer)と受信者(Subscriber/Consumer)を仲介者(Broker)が仲介し、送信者からのリアルタイムデータをその都度処理し、その処理結果を必要とする複数の受信者に効率的に送信する
- Apache Kafka
- Amazon Kinesis
CEP (Complex Event processing) †
- 複数のデータ元から時系列に生み出されるデータをリアルタイムに処理、解析して出力する処理方式
- 適用例としては、株価、SNSのテキスト、センサデータなど、様々な定型・非定型のデータを取り扱う
- Apache Storm
- Apache Flink
データ分析 †
データ前処理 †
データクレンジング †
データ加工・データ整形 †
データ水増し †
- 変形による水増し
- データ混合による水増し
- シミュレーションや生成による水増し
統計解析 †
- 統計解析は既知のデータの特性を「説明」することを主な目的としている
- データの背景にある現象の数理モデルが明確であるため、分析結果の因果関係を人間が理解しやすいという特徴がある
予測 †
分類 †
機械学習 †
- 機械学習は既知のデータから未知のデータを「予測」することを主な目的としている
- 機械学習は、まず機械が「学習」するところから始まる
- 機械の「学習」目的は学習モデルを作ることにある
- 学習モデルは訓練用のデータにより学習器を用いて作る
- 訓練データには正解データ(教師データ)がセットで提供される
- 学習器は入力されたデータに対して正解を参照しながら、データの規則性やパターンなどを見つけ出す仕組みを持っている
- 直接学習モデルに未知のデータを入力すれば、学習モデルが分析結果を出力する
- 学習のためには大量のデータと、そのデータを高速に処理する演算能力が必要となり、学習モデルを完成させるには多くの時間がかかる
- 学習が終了した学習済みモデルによる実行(推論)フェーズでは、学習フェーズと比べるとそれほど処理能力は必要ではなく、分析処理にかかる時間も短くなり、エッジデバイスなどの比較的非力な環境でも実行が可能である
教師あり学習 †
- モデル化したい現象の要因を表すデータ(説明変数)と、結果を表すデータ(目的変数)の対を大量に学習させることで、予測モデルや識別モデルなどの学習モデルを構築する
- ベイジアンモデル
- サポートベクターマシン
- ランダムフォレスト
- アンサンブル学習(複数の学習モデルを統合して学習モデルを作成する手法)の1つ
教師なし学習 †
- モデル化したい現象の要因を表すデータ(説明変数)のみを大量に学習させ、この入力データをもとに特徴を自ら抽出して学習モデルを構築する
半教師あり学習 †
強化学習 †
- 行動に対して得られる報酬を最大にするために、どのような行動をとったら良いかを相互作用により学習する問題のフレームワーク
深層学習 †
- 多層構造のニューラルネットワークを基本とした機械学習
- 畳み込みニューラルネットワーク(CNN)
- 再起型ニューラルネットワーク(RNN)
- オートエンコーダ
- 深層強化学習
分析結果の評価 †
データ活用技術 †
IoTプラットフォーム †