紹介
Doctor Droidは、プラットフォームおよびインフラストラクチャチーム向けに開発されたスマートアシスタントです。インシデントの優先度判定を迅速化し、根本原因の解析を自動的に実施します。各種監視ツールやアラート、デプロイメントシステムと緊密に連携し、アラート情報、ログデータ、パフォーマンス指標、直近の変更履歴を総合的に分析。状況に応じた調査計画と実践可能な解決策を自動生成します。日々の診断作業を自動化し、不要なアラートを削減することで、チームは既存の業務フローを変更することなく、素早い対応と信頼性の高い運用を実現し、重要な意思決定に専念できます。
主な機能
自律型インシデント調査: アラートとシステム情報を自動解析し、環境特性や過去の事例に基づいた段階的な問題解決プランを作成
幅広い連携機能: Datadog、Grafana、ArgoCD、Kubernetes、New Relic、GitHubなど主要なツール群と接続し、包括的な可観測性データを収集
プレイブック自動実行: 手動操作を必要としない日常的なIT業務やインシデント対応の自動ワークフローを構築・実行する機能を提供
アラート情報の最適化: 動的しきい値設定とパターン分析により誤検知を除外し、関連するアラートをグループ化。アラートの精度向上と負担軽減を実現
継続的文書管理と原因分析: インシデント記録を自動更新し、根本原因分析レポートを作成。ナレッジの最新化と事後検証を効率化
柔軟な導入形態とセキュリティ: 自社ホスティングとクラウド導入の両方をサポート。読み取り専用モードや制御された変更操作など、堅牢なセキュリティ体制を整備
ユースケース
インシデント対応の自動化: アラート調査と初動段階の問題解決を自動化し、平均検知時間(MTTA)と平均解決時間(MTTR)の短縮を支援
アラート管理と負荷軽減: 不要な通知をフィルタリングし、重要なアラートに優先順位を付けることで、チームが本質的な課題に集中できる環境を整備
プレイブック活用と業務自動化: サービス再起動、ログ削除、指標照会などの定型的な作業を自動化し、手作業の負担を軽減
継続的なインシデント記録: インシデントレポートと根本原因分析を自動的に最新化し、知識の共有と問題再発防止に貢献
クラウドインフラ監視: Kubernetesクラスタやデプロイメント状況、クラウドサービスを継続的に監視。統合的な診断機能により根本原因を迅速に特定