データ取り込み:定義、ツール、パイプライン

価値のあるデータ戦略は、良好でクリーンなデータを持つことから始まります。データ取り込みが何であるか、それがどのように機能するのか、考慮すべき問題について学び、成功するデータ戦略の基盤を築きましょう。

データ取り込みとは何ですか?

データ取り込みは、複数のソースからデータにアクセスし、インポートし、必要に応じて保存および分析できる単一の場所に転送するプロセスです。

様々なビジネスの利害関係者が、さまざまな要求に応じてデータにアクセスする必要があります。このニーズはデータオペレーションの中心にあります。サプライチェーンの幹部がデータ駆動の購入決定を下すために必要とする場合、オペレーションマネージャーが最適化のために製造プロセスを優先する必要がある場合、またはマーケティングの専門家が今後の購買シーズンのためにより良い予測を行いたい場合、さまざまなデータソースへの可視性は現代ビジネスにとって重要になっています。

課題は、さまざまなソースと形式からのデータを単一の データベースに取得することです。この課題を解決することがデータ取り込みの中心にあります。

データ取り込みの利点





データ取り込みの主な種類は何ですか?

バッチ処理

このアプローチでは、データ取り込み層がデータソースから段階的に収集し、保存するシステムにデータをバッチで送信します。データのバッチは、分や時間、さらには週単位で送信できます。データは、スケジュールや特定の条件が満たされたとき、または特定の条件がトリガーされたときなどの基準に基づいて優先されます。

これは、最も一般的なデータ取り込みの種類です。比較的単純で安価であり、定期的な詳細分析のための特定のデータポイントを収集するのに適しています。ただし、リアルタイムのデータ更新を必要とするシナリオには不十分です。

リアルタイム処理

リアルタイムまたはストリーミング取り込みでは、データはソースで作成されるとすぐに中央システムに処理されます。このアプローチは高価ですが、データ取り込みソリューションが新しいデータを継続的に監視しなければならないため、時間に敏感なアクセスが必要なシナリオには非常に役立ちます。

ハイブリッド処理

このアプローチは、リアルタイム処理とバッチ処理の要素を組み合わせます。問題のシナリオによっては、マイクロバッチと呼ばれるハイブリッドアプローチが適用されることがあります。これは、通常使用されるよりもはるかに早いペースでのバッチ処理です(インターバルはミリ秒単位で測定されることがあります)。

別のハイブリッドメソッドは、ラムダアーキテクチャベースのデータ取り込みです。このアプローチは、次の3つの異なる層を含みます:

  • バッチ層は、古典的なバッチモードで処理され、データの全体像を提供します。
  • スピード層は、特定のデータのリアルタイムの可視性を提供し、即座に処理および分析される必要があります。
  • サービング層は、バッチ層とスピード層の結果を組み合わせ、時間に敏感な情報とより完全なデータの両方の統一されたビューを提供します。

比較と対比




データ取り込みに関して考慮すべき事項






データ取り込みの課題







データ取り込みの改善に興味がありますか?

データ取り込みのベストプラクティス

データサービスレベル合意(SLA)を作成する

最適な取り込みアプローチを決定するために最初に行うべきことは、データ消費者から使用ケースの要件を集め、それをもとにデータSLAを開発して、次のような問題に対処することです:

  • ビジネスのニーズは何ですか?
  • データに対する期待は何で、データはいつそれに応える必要がありますか?
  • SLAが満たされたことをどうやって知り、そのSLAが満たされなかった場合の対応はどうなりますか?

これに加え、開発された使用ケースによる課題を概説し、それに応じて計画を立てることを目指します。利用可能な特定のソースシステムを特定し、それらからデータを抽出する方法を確認してください。

自動データ取り込み

データのボリュームと複雑さが拡大する中で、膨大な量の非構造化データをキュレーションするために手動の取り込みソリューションに依存する時代は終わりました。自動データ取り込みソリューションは、時間を節約し、生産性を向上させ、データ取り込みプロセスでの手動ステップを減らすことが証明されています。

さらに、自動化は、アーキテクチャの一貫性、統合管理、安全性、およびエラーマネジメントの追加の利点を提供します。これらすべては、データ処理時間の短縮につながります。

取り込み時にデータ品質チェックを実行するが注意深く

品質管理の問題があるかどうかを判断する最良のタイミングは、取り込み時です。パイプライン全体でデータ破損の可能性があるすべてのインスタンスに対してテストを作成するスケーラブルな方法はありませんが、一部の組織は、データが特定の品質チェックに合格しない場合にデータ取り込みプロセスを停止するデータ回路ブレーカーを実装しています。しかし、ここには固有のトレードオフがあります。データ品質の閾値を高く設定しすぎると、データアクセスが不必要に妨げられる可能性があります。逆に、低く設定しすぎると、全体のデータウェアハウスが危険にさらされる可能性があります。

ここで回路ブレーカーの展開においてバランスを取るよう最善を尽くしてください。また、データの可視化と可観測性を活用して、プロセスの早い段階でデータ品質の問題を検出し、それらが広がる前に解決できるようにしてください。

エキスパートに問い合わせる。

All fields are required except where noted.

私の連絡先情報を提供することで、私はを読み、同意したことを確認します。

ありがとうございます!

私たちの専門家の一人がすぐにご連絡いたします。