<p>C’est une question très très ouverte, mais voici quelques pistes que vous pourriez considérer :</p>
<ul>
<li>
<p>Utiliser Amazon SQS : c’est une file d’attente distribuée, et c’est très utile pour la gestion des workflows. Vous pouvez avoir un processus qui écrit dans la file dès qu’un journal est disponible, et un autre qui lit depuis celle-ci, traite le journal décrit dans le message de la file, et le supprime quand le traitement est terminé. Cela garantirait que les journaux ne sont traités qu’une seule fois.</p>
</li>
<li>
<p>Apache Flume, comme vous l’avez mentionné, est très utile pour l’agrégation de journaux. C’est quelque chose que vous devriez considérer, même si vous n’avez pas besoin du temps réel, car cela vous donne au minimum un processus d’agrégation standardisé.</p>
</li>
<li>
<p>Amazon a récemment lancé SimpleWorkFlow. Je viens de commencer à l’examiner, mais cela semble prometteur pour gérer chaque étape de votre pipeline de données.</p>
</li>
</ul>
<p>J’espère que cela vous donne quelques pistes.</p>