Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

Quelle base de données graphe (en mémoire) choisir si la modélisation des données est la priorité

ayi

Je suis à court d’idées et j’espère obtenir des retours utiles. J’utilise cette question pour compresser mes expériences et les partager, en espérant inspirer certains distributeurs à franchir la prochaine étape avec la modélisation des bases de données graphes comme question/approche de premier plan.
J’ai validé certaines solutions de bases de données graphes utilisables par Node.js pendant quelques semaines. Mon cas d’utilisation est de sauvegarder les interactions de différents comptes de réseaux sociaux. Le besoin est d’utiliser le CPU et la mémoire de la manière la plus efficace possible.
Mes exigences les plus importantes sont :
<ul>
<li>
en mémoire (au moins pour l’indexation)
</li>
<li>
open source (et libre d’utilisation)
</li>
<li>
même performance JavaScript/Node.js en tant que citoyen de premier plan
</li>
<li>
langage de requête et de modélisation confortable
</li>
</ul>
Neo4J
J’aime vraiment <a href="http://neo4j.com/developer/cypher-query-language/" rel="noopener nofollow ugc">cypher</a> donc mon meilleur choix serait Neo4j. 
Mais le problème majeur de Neo4j est que l’accès JavaScript n’est pas natif. Il utilise l’API REST qui est <a href="https://groups.google.com/forum/#!topic/neo4j/uLV-EmlCsdc" rel="noopener nofollow ugc">environ dix fois (10x) plus lente</a> que l’accès Java direct. J’ai donc regardé <a href="https://github.com/joewhite86/node-neo4j-embedded" rel="noopener nofollow ugc">node-neo4j-embedded</a>, mais il est inactif depuis plus de deux ans. Il semble que son <a href="https://github.com/joewhite86" rel="noopener nofollow ugc">auteur</a> ne soit plus du tout actif (mauvais signe).
ArangoDB
Les développeurs principaux vraiment sympathiques d’ArangoDB ont répondu à <a href="https://stackoverflow.com/questions/31534200/what-parts-of-arangodb-are-done-with-node-gyp" rel="noopener nofollow ugc">ma question</a> sur les composants internes. Finalement, cela signifie que <a href="https://github.com/arangodb/arangojs" rel="noopener nofollow ugc">JavaScript</a> est un citoyen de premier plan car les requêtes natives peuvent être exécutées depuis JS. En regardant les benchmarks open source, je pense que c’est équitable. Mais je crains qu’ils n’aient pas utilisé <a href="https://github.com/joewhite86/node-neo4j-embedded" rel="noopener nofollow ugc">node-neo4j-embedded</a> pour leur benchmark. Les benchmarks comparent les API REST (modifié suite au commentaire de @weinberger). J’aurais souhaité qu’ils comparent les API natives (peut-être que quelqu’un est assez curieux pour essayer ! - faites-nous savoir !). Mise à jour : Comme je l’ai remarqué maintenant, OrientDB a <a href="http://orientdb.com/orientdb-performance-challenge/" rel="noopener nofollow ugc">répondu au benchmark</a> avec un nouveau pilote Node.js (utilisant le <a href="http://orientdb.com/docs/last/Command-Cache.html" rel="noopener nofollow ugc">Command Cache</a> en démarrant le serveur avec -Dcommand.cache.enabled=true -Dcommand.cache.minExecutionTime=3, ce qui n’est pas équitable, car ce n’était pas un benchmark de cache de requêtes !)
Comme j’aime utiliser ArangoDB comme base de données graphe, j’aurais 3 choix (source : <a href="https://www.arangodb.com/faq/" rel="noopener nofollow ugc">FAQ</a>) :
<ul>
<li>
traverser des <a href="https://docs.arangodb.com/General-Graphs/FluentAQLInterface.html" rel="noopener nofollow ugc">objets JS</a>
</li>
<li>
utiliser les <a href="https://docs.arangodb.com/Aql/GraphOperations.html" rel="noopener nofollow ugc">fonctions graphes d’AQL</a>
</li>
<li>
utiliser l’<a href="https://docs.arangodb.com/HttpGharial/Management.html" rel="noopener nofollow ugc">API REST</a>
</li>
</ul>
En général, ce n’est pas aussi confortable que Cypher. Et je ne suis pas sûr de comment comparer et quelle est la bonne façon de modéliser les données (comme <a href="http://neo4j.com/developer/data-modeling/" rel="noopener nofollow ugc">Neo4J l’explique très bien</a>). J’adorerais avoir quelque chose comme ça pour les graphes ArangoDB. On a l’impression qu’ArangoDB est focalisé sur les opérations graphes et que Neo4J correspond davantage aux besoins d’utilisation des graphes quand vous avez plus de relations que de lignes (<a href="http://de.slideshare.net/lvca/why-relationships-are-cool-but-join-sucks-28997951" rel="noopener nofollow ugc">la raison d’utiliser les graphes au lieu de relations avec des jointures</a>).
MongoDB
Le MongoDB basé sur les documents n’est pas optimisé pour les opérations graphes mais <a href="https://www.mongodb.com/blog/post/whats-new-mongodb-30-part-3-performance-efficiency-gains-new-storage-architecture" rel="noopener nofollow ugc">a récemment obtenu un moteur de stockage en mémoire expérimental</a>. Il existe aussi des projets soit en mémoire soit liés aux graphes, mais rien n’est vraiment convaincant. Et dans <a href="https://stackoverflow.com/questions/26704134/mongodb-neo4j-vs-orientdb-vs-arangodb" rel="noopener nofollow ugc">cette discussion</a>, il semble que MongoDB ne soit pas ce que je souhaite utiliser.
OrientDB
Comme il existe une comparaison entre <a href="http://orientdb.com/orientdb-vs-mongodb/" rel="noopener nofollow ugc">OrientDB et MongoDB</a> (de la part d’OrientDB), j’ai pensé à utiliser celui-ci. “OrientDB a un moteur hybride Document-Graphe” utilisant SQL. Je suis un ancien expert PHP/MySQL. Mais où est la partie modélisation ? Leur chapitre <a href="http://orientdb.com/docs/last/Tutorial-Working-with-graphs.html" rel="noopener nofollow ugc">travailler avec les graphes</a> n’est pas comparable à Cypher. C’est comme utiliser SQL pour les graphes. Il n’y a rien de mal à cela, mais après avoir utilisé Cypher, le sentiment de modélisation me manque. 
Si quelqu’un a effectué un processus de modélisation avec OrientDB et les graphes, peut-être pourriez-vous écrire un tutoriel comme <a href="http://neo4j.com/developer/data-modeling/" rel="noopener nofollow ugc">Neo4J l’a fait</a>.
Mise à jour : Concernant l’accès JavaScript en tant que citoyen de premier plan, <a href="http://orientdb.com/welcome-to-orientjs/" rel="noopener nofollow ugc">il y a des nouveautés</a> : 
“Dans la prochaine version, la vitesse de ce pilote sera comparable à celle du pilote Java natif” Le pilote Node.js forké <a href="https://github.com/orientechnologies/orientdb/issues?q=is%3Aissue%20milestone%3A2.1-rc5%20is%3Aclosed" rel="noopener nofollow ugc">a été corrigé ces derniers jours</a>.
Mise à jour : Avant de choisir OrientDB, on pourrait vouloir lire <a href="http://orientdbleaks.blogspot.com/2015/06/the-orientdb-issues-that-made-us-give-up.html" rel="noopener nofollow ugc">un article sur certains problèmes</a> et les discussions qui y sont liées. L’article touche un sujet sensible et devrait être abordé avec un esprit critique. Note de l’auteur de cette mise à jour : je suis nouveau dans l’édition sur SO et n’ai pas assez de réputation pour mettre ceci en commentaire. Je crois que cette information est un point valide pour la discussion, je ne suis pas sûr de comment la placer ici selon les règles de SO.
LokiJS
Avant de regarder Neo4J, ArangoDB et MongoDB, j’ai joué avec cette base de données en mémoire basée sur JavaScript appelée <a href="http://lokijs.org" rel="noopener nofollow ugc">LokiJS</a>, qui semble suivre la stratégie d’ignorer tout ce qui ralentit les performances et l’efficacité. LokiJS essaie de compléter le style Mongo (feuille de route). Le problème majeur est la <a href="https://github.com/techfort/LokiJS/issues/185" rel="noopener nofollow ugc">mauvaise capacité à monter en charge</a>. Bien sûr ce n’est pas une base de données graphe mais c’était une solution intéressante au début de mon projet. Ce n’était pas non plus un sentiment parfait de trouver toute la documentation dispersée (peut-être devraient-ils redémarrer avec GitBook). 
Finalement, LokiJS est un projet très intéressant et j’espère qu’ils continueront à avancer !
LevelDB
Précédemment, lorsque j’ai écrit mon mémoire de diplôme, j’ai regardé LevelDB. En me souvenant de cela en écrivant cet article, j’ai cherché LevelDB en mémoire et j’ai obtenu un résultat prometteur appelé <a href="https://github.com/Level/memdown" rel="noopener nofollow ugc">MemDown</a> (voir <a href="http://nodejsconfit.levelgraph.io/#13" rel="noopener nofollow ugc">aussi</a>). Je n’ai pas testé cette trouvaille, mais peut-être que quelqu’un a de l’expérience avec cette solution. Peut-être que ce serait le moyen le plus efficace si tous les autres ne conviennent pas, car j’écrirais simplement un clone léger de Cypher avec l’objectif de rester aussi léger que possible.
Modification : Suite à un commentaire, voici un lien vers <a href="https://www.npmjs.com/package/levelgraph" rel="noopener nofollow ugc">LevelGraph</a>. Comme idée pour implémenter un analyseur CYPHER pour LevelGraph/LevelDB, votre point de départ serait de comparer
<a href="http://neo4j.com/developer/cypher-query-language/" rel="noopener nofollow ugc">Cypher</a> :
<pre><code class="lang-auto">CREATE (SUBJECT:"a") - [b😛REDICATE] -> (OBJECT:"c")
RETURN, subject, predicate, object

</code></pre>
<a href="https://www.npmjs.com/package/levelgraph" rel="noopener nofollow ugc">LevelGraph</a> :
<pre><code class="lang-auto">var RETURN = { SUBJECT: "a", PREDICATE: "b", OBJECT: "c" };
db.put(RETURN, function(err) {
// ..
});

</code></pre>
Conclusion
Comme vous l’avez probablement remarqué, je ne suis pas le super héros des graphes. Mais c’est ma première plongée dans le sujet et j’essaie d’avoir une vue d’ensemble. Je suppose qu’il y a beaucoup de gens là-bas qui veulent poser les mêmes questions que moi mais n’ont pas le temps. J’espère que cet article aidera beaucoup de personnes et évoluera grâce aux commentaires et réponses pour devenir un bon aperçu de comment modéliser les données pour les graphes.
@éditeurs : Vous êtes les bienvenus.
@commentateurs : Ceci est le résultat de ma recherche personnelle - si vous avez aussi fait un parcours comme le mien, veuillez répondre avec un court résumé comme je l’ai fait pour chaque base de données que j’ai évaluée (n’oubliez pas de cibler mes 4 objectifs).

ayi_2

L’idée de combiner les performances de style Node via l’une des fonctionnalités natives (par exemple les streams) et un langage de requête de haut niveau comme <code>CYPHER</code> est en fait assez élégante.
Ce que vous n’obtiendrez probablement pas, c’est un quelconque type d’API de bas niveau, car c’est plutôt rare chez les auteurs de bases de données et, supposément, non souhaité dans leurs patrons de conception. Donc, des connexions <code>tcp</code> de longue durée devraient convenir parfaitement.
<a href="https://github.com/brian-gates/cypher-stream">cypher-stream</a> semble incorporer tout cela, tout en maintenant (jugé superficiellement) un bon style.
Puisque vous n’irez probablement pas plus loin dans la recherche, je suggérerais de lui envoyer une pull request si d’autres fonctionnalités sont nécessaires <img src="//forum-microsoft.fr/images/emoji/twitter/slight_smile.png?v=15" title=":slight_smile:" class="emoji" alt=":slight_smile:" loading="lazy" width="20" height="20">