データ処理 †
3V †
- Volume(膨大な量)
- Velocity(処理に必要な速度)
- Variety(多様性)
RDB †
行指向型 †
- データの追加修正やデータ検索のレスポンスが早く、トランザクションにも対応している
- 処理結果をすぐに返す必要がある業務システムや機器の制御などに向いている
- Oracle
- SQL Server
- MySQL
- PostgreSQL
- AWS Aurora
- Google Cloud Spanner
列指向型 †
- 列方向でデータを圧縮して格納することで大量のデータを扱うことができ、集計や分析に特化している
- Oracle Exadata
- Snowflake
- Amazon Redshift
- Google BigQuery?
NoSQL †
キーバリュー型 †
ワイドカラム型 †
- キーバリュー型を拡張したもので、キーに対して複数のカラムを持つことができる
- データごとに異なるカラムを持つことができるので、複数の種類のセンサデータの格納などに向いている
- 列方向の集計が得意
- Cassandra
- Hbase
- Google BigTable?
- Amazon DynamoDB
ドキュメント型 †
- XMLやJSONといった複雑なドキュメントをそのまま格納できるデータベース
- スキーマが不要で、個々のドキュメントのデータ構造が自由なことから、ニュースサイトやブログなどのWebアプリケーションで使用されている
- MongoDB
- CouchDB
- ElasticSearch?
グラフ型 †
- SNSなどで人と人の関係をあらわす用途や経路検索において最短経路を導き出す用途に利用される
バッチ処理 †
Hadoop †
ストリーミング処理 †
リアルタイムメッセージシステム †
- データの送信者(Publisher/Producer)と受信者(Subscriber/Consumer)を仲介者(Broker)が仲介し、送信者からのリアルタイムデータをその都度処理し、その処理結果を必要とする複数の受信者に効率的に送信する
- Apache Kafka
- Amazon Kinesis
CEP (Complex Event processing) †
- 複数のデータ元から時系列に生み出されるデータをリアルタイムに処理、解析して出力する処理方式
- 適用例としては、株価、SNSのテキスト、センサデータなど、様々な定型・非定型のデータを取り扱う
- Apache Storm
- Apache Flink
データ分析 †
データ前処理 †
データクレンジング †
データ加工・データ整形 †
データ水増し †
- 変形による水増し
- データ混合による水増し
- シミュレーションや生成による水増し
統計解析 †
- 統計解析は既知のデータの特性を「説明」することを主な目的としている
- データの背景にある現象の数理モデルが明確であるため、分析結果の因果関係を人間が理解しやすいという特徴がある
予測 †
分類 †
機械学習 †
- 機械学習は既知のデータから未知のデータを「予測」することを主な目的としている
教師あり学習 †
教師なし学習・半教師あり学習 †
強化学習 †
深層学習 †
分析結果の評価 †
データ活用技術 †
IoTプラットフォーム †