Azure Synapse Analyticsは、Microsoftが提供するスケーラブルなクラウドベースのデータウェアハウスソリューションです。また、Azure SQL Data Warehouseの次の製品でもあります。SQL Data Warehouseのすべての技術と機能を提供するだけでなく、Azure Synapseには、リレーショナルデータと非リレーショナルデータの両方に対応するビジネスインテリジェンス、データ分析、機械学習ツールも組み込まれています。
この最先端のデータウェアハウスとビジネス分析システムの素晴らしいパワーと機能をよりよく理解していただくため、またIntegrate.ioのAzure Synapse Analyticsネイティブコネクターのリリースに際し、このガイドはAzure Synapse Analyticsとは何か、そしてどのようにデータ目標をサポートすることができるかを理解していただくのにお役立てください。
Azure Synapse Analytics 概要
Azure SQL Data Warehouseに精通している方は、Synapse Analytics のコア機能をすでにご存知でしょう。例えば、Synapse は、クラウドベースのリレーショナルデータウェアハウスサービス、大規模並列処理(MPP)スケールアウト技術、ペタバイトのデータを効率的に管理するのに十分な計算能力を提供しています(SQL Data Warehouse と同様に)。
これらの SQL Data Warehouse の機能に加えて、Synapse Analytics には以下のような新機能が追加されています。
- 非リレーショナルデータの取り込み、保存、クエリ、および処理機能
- マイクロソフトの技術との統合を強化
- ビジネスインテリジェンスの統合
- 機械学習の統合
- 大容量データの取り込み、変換、管理、処理をより効率的に行うことができます。
また、Azure Synapse Analyticsは、「オンデマンド サーバーレス」モデル(必要なときに必要な分だけスケールアップまたはスケールダウンし、必要な分だけ支払うことができます)で運用することもできますし、事前にプロビジョニングされたサーバーリソースで運用することもできます(予算と用途に応じてどちらが良いかを選択)。
運用コンポーネントに関しては、Synapseは4つの基本的な部分で構成されています。
- SQL 解析:Synapse は、SQL Cluster (計算単位での支払い) と SQL on-demand (処理されたテラバイト数での支払い) を通じて、リレーショナルデータと非リレーショナルデータの T-SQL 解析を提供します。
- Apache Spark:Apache Sparkは、大規模データストア上のSQLクエリ、バッチ処理、ストリーム処理、機械学習分析を管理するための主要なプラットフォームです。
- Synapse Analytics Studio:Synapse Analytics Studioは、AI、ML、IoT、BIに関連するすべてのアナリティクスツールを1つの場所で使用できる統一されたワークスペースを提供します。
- データソースからデータをインジェスト/統合するためのコネクター: Synapse には、最も一般的なデータ ソースを統合するための 85 のネイティブ コネクタが搭載されているため、多様なシステムからのすべてのデータを素早くデータウェアハウスに取り込むことができます。
以下は、Azure Synapse Analyticsの一般的な機能を他のデータ管理ソリューションと比較する簡単なマトリックスです。
INSERT TABLE HERE
Azure Synapse Analyticsの機能
Azure Synapse Analyticsの機能をおさらいしておきましょう。
クラウドデータウェアハウス、マシンラーニング、 ビジネスインテリジェンス
幅広いMicrosoft Azureテクノロジーとの密接な統合により、Azure Synapseは、クラウドデータウェアハウス、機械学習分析、ダッシュボードを単一のワークスペースで提供します。これにより、すべてのデータを迅速にインジェストし、SQLで変換してクエリし、高度な機械学習アルゴリズムでデータを分析し、Microsoft Power BIで可視化することができます。
構造化データと非構造化データの両方のインジェストおよびクエリ
Azure Synapse は、リレーショナル(データウェアハウス)データと非リレーショナル(データレイク)データを含むあらゆるタイプのデータを取り込み、SQL を使用してこのデータを探索することができます。このようにして、Synapseは構造化データと非構造化データ(LOB、CRM、グラフ、画像、ソーシャル、IoTなど)をすべて同じ屋根の下に持ってきて、簡単にアクセスして分析することができます。
Azure Data Lake Storage Gen2
Azure Synapse は、大容量データ分析をサポートするネクストレベルのデータストレージソリューションとしてAzure Data Lake Storage Gen2 (ADLS Gen2)を使用しています。ADLS Gen2は、ADLS Gen1の機能(ファイルレベルのセキュリティ、スケーリング、ファイルシステムのセマンティクスなど)と、階層型ストレージ、ディザスタリカバリ、ハイアベイラビリティなどのAzure Blob Storageの機能を組み合わせたものです。
Massively Parallel Processing (MPP)
Azure Synapse は MPP (Massively Parallel Processing) データベース技術を使用しており、分析ワークロードを管理し、大量のデータを効率的に集約して処理することができます。テーブル内の行をオブジェクトとして格納するトランザクション データベースとは対照的に、MPP データベースは各列をオブジェクトとして格納します。MPPデータベースはまた、クエリの異なる部分を処理するために並列で動作する多数のノードにデータを分散させます。このデータベースアーキテクチャは、複雑で長期にわたる分析プロセスを容易にします。
クラウドネイティブのHybrid Transaction/Analytical Processing (HTAP) 実装
Azure Synapse Analyticsは、「Synapse Link”」とHTAP実装技術を使用して、オペレーショナルデータベースインフラストラクチャを構成するAzureデータベースとのリアルタイムデータ統合を実現します。その結果、オペレーショナルシステムに影響を与えることなく、ライブのオペレーショナルデータからリアルタイムで機械学習やビジネスインテリジェンスの洞察を引き出すことができます。
ガートナーによると、「HTAPは、ビジネスリーダーが業務プロセスのコンテキストで、従来のアーキテクチャよりもはるかに高度で洗練されたビジネスデータのリアルタイム分析を実行できるようにします。大量の複雑なビジネスデータを、データマートやデータウェアハウスにデータをオフロードするレイテンシなしに、直感的なデータ探査と分析を使用してリアルタイムで分析することができます。これにより、ビジネスユーザーは、より多くの情報に基づいた運用上および戦術上の意思決定を行うことができるようになります。」とのことです。
オンデマンドサーバーレスによる処理、またはプロビジョニングされたリソースを利用した処理
Synapse は、オンデマンドのサーバーレスデプロイメント(処理や負荷を処理するために必要に応じて自動的にスケーリングする)またはプロビジョニングされたリソースを使用して、大規模なデータストアにクエリを実行する機能を提供します。これにより、企業は必要なときに必要な分を支払うか、または事前にプロビジョニングされた処理とストレージ機能を設定しておくことができます。
プログラミング言語
Azure Synapseは、Scala、Python、.Net、Java、R、SQL、T-SQL、Spark SQLなど、幅広いスクリプト言語と互換性があります。Synapseは非常に多くの言語と互換性があるため、幅広い分析タスクやデータエンジニアリングに適しています。
Microsoftソリューションとの簡単な統合
Microsoft Azure 製品として、Synapse は、Azure Blob Storage、Azure Data Lake、Azure Active Directory、Azure Machine Learning、Power BI などのお気に入りの Microsoft および Azure ソリューションとネイティブに統合されています。
Open Data Initiative Compatibility
Azure Synapseは、Adobe、Microsoft、SAPのテクノロジー間のデータ統合や互換性を促進するOpen Data Initiativeに準拠したソリューションと容易に統合することができます。Open Data Initiativeのソリューションには、Microsoft Dynamics 365、Microsoft Office、Adobe Customer Experience Platformなどの製品が含まれます。
ワークロード最適化と管理機能
Synapse は無制限の同時実行、ワークロードの分離、ワークロード管理により、クエリのパフォーマンスチューニングと最適化を促進します。ワークロード管理の例としては、CEO のような重要なユーザーのクエリをより重要視することが挙げられます。次の図は、 "キューイング中" から "実行中" にCEO のクエリが自動的に昇格したことを表しています。
ワークロードの最適化の観点からSynapseで実現できることの詳細については、Microsoftのビデオをご覧ください。
セキュリティとプライバシー
Synapseは、リアルタイムデータマスキング、ダイナミックデータマスキング、常時暗号化、Azure Active Directory認証、シングルサインオン認証、自動脅威検知など、最新のセキュリティとプライバシー技術を搭載しています。また、このプラットフォームでは、カラムレベルと行レベルのセキュリティで機密データへのアクセスを制御することができます。
以下は、Synapse Analyticsと他のソリューションのセキュリティ機能をマトリクスで比較したものです。
Security Feature/Capability | Azure Synapse | Azure SQL Database | SQL Server (hosted on VM) | Apache Hive (hosted on HDInsight) | Hive LLAP (hosted on HDInsight) |
What types of authentication? | SQL, Azure Active Directory | SQL, Azure Active Directory | SQL, Azure Active Directory | Local and Azure Active Directory | Local and Azure Active Directory |
Is there row-level security? | √ | √ | √ | X | √ |
Is there support for firewalls? | √ | √ | √ | √ | √ |
Is there dynamic data masking? | √ | √ | √ | X | √ |
Is there authorization? | √ | √ | √ | √ | √ |
Is there auditing? | √ | √ | √ | √ | √ |
Is there data encryption at rest? | √ | √ | √ | √ | √ |
(Source)
コンプライアンス認証
Azureは、他のどのクラウドサービスプロバイダよりも多くのコンプライアンス認証を取得しています。これらのコンプライアンス認証により、お客様の組織は最も厳しい政府および業界のコンプライアンス基準を遵守することができます。
Global | US Government | Industry | Regional | ||
CIS Benchmark | CJIS | 23 NYCRR Part 500 | HIPAA / HITECH | BIR 2012 (Netherlands) | LOPD (Spain) |
CSA-STAR attestation | CNSSI 1253 | AFM + DNB (Netherlands) | HITRUST | C5 (Germany) | MeitY (India) |
CSA-STAR certification | DFARS | APRA (Australia) | KNF (Poland) | CCPA (US-California) | MTCS (Singapore) |
CSA-STAR self assessment | DoD DISA L2, L4, L5 | AMF and ACPR (France) | MARS-E | IRAP / CCSL (Australia) | My Number (Japan) |
ISO 20000-1:2011 | DoE 10 CFR Part 810 | CDSA | MAS + ABS (Singapore) | CS Mark Gold (Japan) | NZ CC Framework (New Zealand) |
ISO 22301 | EAR (US Export Adm. Reg.) | CFTC 1.31 (US) | MPAA | Cyber Essentials Plus (UK) | PASF (UK) |
ISO 27001 | FedRAMP | DPP (UK) | NBB + FSMA (Belgium) | Canadian Privacy Laws | PDPA (Argentina) |
ISO 27017 | FIPS 140-2 | EBA (EU) | NEN-7510 (Netherlands) | DJCP (China) | Personal Data Localization (Russia) |
ISO 27018 | IRS 1075 | FACT (UK) | NERC | EN 301 549 (EU) | TRUCS (China) |
ISO 27701 | ITAR | FCA (UK) | OSFI (Canada) | ENS (Spain) | |
ISO 9001 | NIST 800-171 | FDA CFR Title 21 Part 11 | PCI DSS | ENISA IAF (EU) | |
SOC | NIST CSF | FERPA | RBI + IRDAI (India) | EU Model Clauses | |
WCAG | Section 508 VPATS | FFIEC (US) | SEC 17a-4 | EU-US Privacy Shield | |
FINMA (Switzerland) | SEC Regulation SCI | GB 18030 (China) | |||
FINRA 4511 | Shared assessments | GDPR (EU) | |||
FISC (Japan) | SOX | G-Cloud (UK) | |||
FSA (Denmark) | TISAX (Germany) | IDW PS 951 (Germany) | |||
GLBA | TruSight | ISMS (Korea) | |||
GxP | HDS (France) | IT Grundschutz Workbook (Germany) |
(Source)
Azure Synapse Analyticsが役立つケース
Azure Synapse Analyticsが役立つ一般的なユースケースシナリオを以下です。
- マネージドサービスの必要性: Azure Synapse は、オンサイトのデータウェアハウスを自分でメンテナンスする代わりに、マネージドクラウドベースのデータウェアハウスとして機能します。
-
大規模なデータセットと複雑なクエリ: Azure Synapse AnalyticsはMPPアーキテクチャ(上記参照)を使用しており、複雑な読み取りやデータ分析操作を実行しながら大規模なデータセットを管理するのに優れています。
- 構造化データセットと非構造化データセットの管理: 非構造化データ、または構造化データと非構造化データが混在したデータを扱う場合、Azure SynapseはAzure Data Analyticsと統合されており、Spark、Azure Databricks、Hive LLAP、Azure Data Lakes Analyticsで非構造化データを処理することができます。また、Azure Synapseは、構造化データに対する高速で計算量の多い読み取り操作をサポートしています。
- データパイプラインのオーケストレーション:Azure Synapse Analyticsでは、データパイプラインをオーケストレーションして、履歴データを(高速読み取り操作に最適化されたデータウェアハウスに)リアルタイムオペレーショナルデータベースから分離することができます。
- リアルタイムオペレーショナルデータでのアナリティクス:Azure Synapse Analyticsでは、「Synapse Link」とHTAP実装技術を使用することで、オペレーショナルシステムに悪影響を与えることなく、リアルタイムのオペレーショナルデータを分析することができます。
- 多くのMicrosoftやAzureのサービスを利用:すでに Microsoft や Azure のエコシステム内のサービスを利用している場合、Synapse がこれらのサービスと簡単に統合できるという事実を楽しむことができます。
Integrate.io: Azure Synapse AnalyticsにETLで簡単にデータを取り込む
データウェアハウス、分析、ビジネスインテリジェンスのニーズにAzure Synapse Analyticsの利用を計画している場合、多様なシステムからデータを素早く簡単にサービスに移動させる方法が必要になります。そこでIntegrate.ioの使いやすいAzure Synapse Analyticsコネクターが役立ちます。
強力なETL機能と使いやすさを融合させた唯一のデータ統合ツールであるIntegrate.ioは、技術に詳しくないチームメンバーから経験豊富なデータエンジニアまで、複数のシステムから安全にデータを抽出、結合、集約、マスク、暗号化する洗練されたワークフローを素早く設計し、(最も重要なデータコンプライアンス基準を遵守しながら)Azure Synapse Analyticsにデータをロードすることを可能にします。
Integrate.ioのAzure Synapse Analytics用のネイティブコネクターが新しくリリースされたことで、データエンジニアリングのスキルレベルに関係なく、チームの誰もがAzure Synapse Analyticsデータウェアハウスへの強力なETLパイプラインを開発することができます。Integrate.ioがどれだけ簡単に使えるか見てみたいと思いませんか?無料トライアルを試したい方は、オンラインデモをご予約ください。