Ask’n’Read : Usine à crawler le web en masse

Ask’n’Read est le DataCenter web de QWAM. C’est un système de captation de l’information pertinente du web, simplifiant son filtrage par une catégorisation à de multiples niveaux. Ask’n’Read dispose d’un moteur de recherche puissant afin de récupérer des résultats pertinents. Installé en mode SaaS (Logiciel en tant que Service), il est entièrement géré par les équipes QWAM afin d’être en constante évolution pour satisfaire aux besoins des clients.

Une interface simple, mais puissante

Paramétrage optimal et facile

Ask’n’Read permet de réaliser des requêtes simples et/ou avancées.

En fonction de vos compétences, envies et besoins, vous pouvez naviguer facilement d’un mode à l’autre et ce même d’un dossier à l’autre. 

Le mode Simplifié vous permet d’utiliser intuitivement les opérateurs booléens standards (ET, OU, SAUF) et d’ajuster vos périmètres de veille par simple clics.

Le mode Expert vous permet d’utiliser les opérateurs booléens, des indicateurs de proximité, de condition d’apparition multiples et d’ajuster vos périmètres toujours par simples clics.

Tous les utilisateurs bénéficient d’une formation leur permettant d’être totalement autonomes dans la création de leur requête de veille. 

QWAM vous propose également des prestations d’administration déléguée.

Sémantique et datavisualisation

Bénéficiez d’une reconnaissance sémantique intégrée (option) pour vous aider dans l’analyse et le traitement de vos informations de veille. 

Générez des statistiques facilement.

Profitez de datavisualisation

Ask’n’Read propose également des portails de lecture exportables

Diffusion, collaboration et mobilité

Ask’n’Read propose des fonctions collaboratives telles que le partage de dossiers, les favoris, les comptes affiliés qui permettent aux équipes de travailler à plusieurs.

Adaptez facilement vos livrables en fonction de votre auditoire, grâce aux différents services proposés par Ask’n’Read.

  • Alertes mails
  • Newsletters
  • Portail de lecture personnalisables
  • Export de widgets de lectures
  • Graphiques
  • RSS/ API 

Ask’n’Read est « mobile friendly », il s’adapte parfaitement à tous vos supports nomades. 

Un crawler web performant

Crawler « temps-réel »

Ask’n’Read priorise la récupération de données web. Les critères de cette priorisation sont basés sur le type de la source (site de journal, site d’une entreprise, blog…) ou sur l’importance que peuvent y donner nos clients.

Ask’n’Read surveille quatre millions de sites catégorisés. Plus de quatre cents mille d’entre eux fournissent de nouvelles informations quotidiennement. Ainsi la majorité des deux millions de nouveaux liens récupérés chaque jour est qualifiée par des catégories pertinentes.

Ask’n’Read surveille principalement des sites web en français, anglais, allemand, espagnol, italien, portugais, ainsi qu’en chinois, arabe, russe, polonais et roumain.

Système de récupération multi-sources

Ask’n’Read sait récupérer des données textuelles dans différents formats. Le plus simple est le flux d’actualité (RSS/Atom…) fourni par les sites web. Ajoutées à cela, QWAM a développé des alternatives pour collecter des données spécifiques.

Ainsi Ask’n’Read est capable de surveiller le contenu ou les liens d’un site web afin de détecter les changements. De plus, il est possible de définir précisément la méthode d’analyse afin de ne récupérer que les informations pertinentes.

Base de données homogène et évolutive

Les informations web collectées par Ask’n’Read sont stockées dans une seule base de données cohérente. Elle représente le cœur de toute application nécessitant l’accès aux données. Ainsi des informations au préalable hétérogènes deviennent homogènes afin de respecter les mêmes critères de catégorisation, d’encodage…

Les choix matériels et logiciels sur lesquels a été développé Ask’n’Read permettent les évolutions futures afin de satisfaire les besoins de nos clients.

Un catégoriseur d’informations

Catégories multi-niveaux

Ask’n’Read catégorise les données selon plusieurs critères :

  • Langues, géographie
  • Types (sites institutionnels, médias, blogs, forums)
  • Secteurs, activités…

Ces catégories peuvent être combinées afin de qualifier au mieux les données.
De plus, Ask’n’Read sait gérer des bouquets de sites ou de flux. Si vous désirez suivre des sources spécifiques d’information, ou si vous connaissez exactement quel doit être le périmètre à surveiller, un bouquet est la solution parfaite. QWAM vous aidera à le définir si nécessaire.

Sources de catégorisation multiples

Initialement, un travail important de catégorisation a été effectuée manuellement par QWAM, sur des sites de référence ainsi que sur des flux d’actualité. Néanmoins, grâce à l’utilisation de dictionnaires, de catalogues et par le développement de scripts d’apprentissage machine (machine learning), la catégorisation automatique est en constante amélioration.

Catégorisation profitant à tous

Ask’n’Read est basé sur un modèle SaaS (Software as a Service). Ainsi chaque évolution de la catégorisation au sein de la base de données profite à tous nos clients.

Néanmoins tout client peut demander, pour des besoins spécifiques, à bénéficier de catégories personnelles – de la même manière qu’un bouquet peut être personnel.

Un moteur de recherche texte-plein efficace

Requêtes par mots-clés

La manière la plus simple de filtrer les données d’Ask’n’Read est de définir une requête basée sur des mots-clés. Notre moteur de recherche vous permet de saisir des requêtes booléennes traitées par des scripts morphologiques (recherche de racines et lemmatisation). Néanmoins il est possible de spécifier des mots-clés précis afin d’éviter les « faux amis » que la simplification morphologique aurait pu créer.

L’interface web proposée par Ask’n’Read affiche deux solutions de définition de votre requête : un formulaire « simple » dans lequel vous pouvez insérer dans trois champs distincts les mots-clés que les résultats devront contenir, les mots-clés que les résultats devraient contenir (au moins un) et les mots-clés qui ne doivent pas apparaître dans les résultats – et un formulaire « expert » destiné à recevoir les requêtes à syntaxe avancée.

Syntaxe avancée

La syntaxe avancée vous permet d’aller au niveau supérieur dans la précision de vos requêtes en vous offrant de nouvelles options. Par exemple, vous pouvez spécifier des critères de proximité (ce mot-clé ne peut pas être séparé de cet autre mot-clé par plus de X mots), des critères de quorum (X mots-clés de cette liste doivent apparaître dans le texte) et des critères de restriction par champ (cette partie de la requête ne concerne que les titres, pas l’intégralité du contenu).

La syntaxe avancée est la solution parfaite pour éviter le bruit dans les résultats.

L’expertise QWAM pour vous guider

Nous sommes conscients du côté fastidieux que peut représenter la saisie des requêtes afin d’éviter le bruit. L’équipe QWAM peut vous conseiller et vous accompagner, ou dans certains cas prendre en charge ces aspects dans le cadre d’une administration déléguée.

Ask’n’Read constitue donc une source d’informations très large dans différentes langues. Bien que non spécialisé sur un domaine, le système de catégorisation, allié à un moteur de recherche puissant, permet d’activer facilement des filtres pour n’avoir que les informations pertinentes.

Cette récupération peut avoir des formes multiples suivant les besoins de nos clients. N’hésitez pas à nous contacter pour mieux définir votre projet.

Témoignages…

Logo Médecins Sans Frontières

Nous suivons l’actualité de près de 40 pays dont certains sont les plus pauvres au monde avec, par conséquent, une couverture médiatique très précaire.
Nous avons donc opté pour le choix d’une solution payante, avec un véritable accompagnement afin de gagner en productivité.
Je suis plus efficace et plus pertinente. Preuve ultime : mes collègues me demandent de plus en plus de rapports de veille !

Gwendolyn BLIN – Gestion de l’information chez Médecins Sans Frontières

L’algorithme sémantique proposé par QWAM extrait les mots-clefs identifiés dans le contenu du communiqué de presse et fait le matching avec la base de journalistes. Ce sourcing se fait sur le référentiel Ask’n’Read qui compte plus de 200 000 références et crawle le web en temps réel pour récupérer les dernières informations. Et l’algorithme n’extrait que les plus pertinents d’entre eux !

Solenne LESÉNÉCHAL – Directrice des opérations et co-fondatrice d’AlgoLinked
Logo Webhelp

Managé par le Département Global Innovation, l’outil de veille Ask’n’Read nous permet de réaliser des veilles thématiques et des alertes sur nos thématiques surveillées, mais également d’identifier de nouveaux sujets d’innovation pour contribuer à la stratégie de Webhelp. Sa simplicité d’utilisation et la qualité des résultats obtenus nous ont permis de créer un flux RSS pour chaque thématique disponible sur l’intranet Groupe.

Catherine FAUCHOUX – Global Innovation & Prospective Manager (Data Protection Officer Graduated) – Webhelp