Contenus externes
En tant que gestionnaire de bot Dydu , vous avez la possibilité de centraliser et organiser vos sources de contenu externe directement depuis une interface intuitive dans le BMS, afin de générer des réponses instantanées basées sur ces sources et ainsi améliorer la qualité des réponses fournies aux utilisateurs finaux.
Créer une collection
Via le menu de navigation du BMS, vous avez la possibilité d'accéder à la page de Contenus externes : Contenus > Contenus externes.
Vous arrivez donc sur la page de vos collections, où vous trouverez par défaut une collection créée.

En cliquant sur cette collection, vous entrerez dans la page d'édition de votre collection.

Alimenter la collection
Importer vos documents

Il est possible d'importer un plusieurs documents de type : PDF, DOCX, PPTX, TXT. Chaque document doit faire 10Mo maximum.

Renseigner des Sharepoint

L'outil d'indexation SharePoint permet d'ajouter vos pages et vos fichiers à votre base de connaissances.
Pour autoriser cet accès, une nouvelle application disposant de droits de lecture doit être enregistrée dans votre environnement Microsoft. La démarche complète est expliquée dans ce tutoriel officiel.
Lors de la configuration, à l'étape des permissions (API permissions), deux autorisations sont requises pour l'application Dydu. Dans "Microsoft Graph", puis "Application Permissions", il faut sélectionner les droits suivants et valider avec le consentement de l'administrateur (Grant Admin Consent) :
Files.ReadAll
Sites.Selected
Pour finaliser la liaison de l'application, quatre éléments techniques devront ensuite être récupérés et conservés :
Le clientId (identifiant du client)
Le client Secret (valeur du secret)
Le tenant Id (identifiant de l'environnement)
L'identifiant du site SharePoint

Détails des étapes nécessaires sur comment récupérer les valeurs requises depuis Azure pour la configuration LLM Dydu:
Aller sur le portail Azure:
Cliquer sur inscriptions d'applications

Cliquer sur Nouvelle inscription

Donner un nom et cliquer sur "S'inscrire"

L'ID d'application est le client_id

Cliquer sur Certificats & secrets. Puis dans l'onglet "Secrets client" cliquer sur Nouveau secret client

Cliquer sur Certificats & secrets

Copier la Valeur du secret générée (client_secret)

Cliquer sur API autorisées. Puis cliquer sur Ajouter une autorisation.

Cliquer sur Microsoft Graph

Ensuite sur "Autorisations d'application". Puis ajouter les autorisations Sites.Selected et Files.Read.All

Cliquer sur Accorder un consentement d'administrateur pour XXXX

Pour trouver le tenant ID:
Aller sur le site : https://entra.microsoft.com/
Cliquer sur "Vue d'ensemble":

ID du client correspond au tenant ID.
Pour trouver le Sharepoint ID:
Composer l'URL suivante: https://<tenant>.sharepoint.com/sites/<site-url>/_api/site/id
Dans le résultat obtenu se trouve le sharepoint ID :
L'outil propose les fonctionnalités suivantes :
Indexation des pages et des fichiers de tout un site SharePoint.
Utilisation du RAG standard, avec affichage de l'URL d'origine du document SharePoint dans la réponse fournie.
Couplage possible avec un système d'authentification (SAML). Dans ce cas, l'utilisateur doit se connecter, le système récupère ses groupes d'appartenance et filtre les réponses selon ses droits d'accès aux documents.
Éléments qui ne sont pas indexés :
Les fichiers directement intégrés dans les pages.
Les vidéos et certains formats spécifiques (Excel, WMF, etc.).
Ne sont pas indexés :
Fichiers "embarqués" dans les pages
Les vidéos, et certains autres types (excel, wmf, ...)
Actuellement, l'opération de récupération des documents et l'indexation prend du temps (plusieurs minutes), le rafraîchissement le plus fréquent est 1 fois par jour.
Renseigner une FAQ personnalisée

Pour paramétrer une FAQ personnalisée, il suffit de remplir les informations suivantes :

Nom : correspond à l'adresse (URL) de l'API à utiliser.
Clé API.
Secret API.
Liste des identifiants des bases de connaissances à récupérer.
Une même combinaison de Clé API et de Secret API permet d'accéder à plusieurs bases de connaissances en même temps.
À partir de ces informations, l'ensemble des documents présents dans les bases de connaissances indiquées est automatiquement récupéré via le canal FAQ.
Renseigner des Site web

Il y a trois types de Sites Web que l'on peut indexer :
Domaine
Lorsque vous indiquez une adresse web à explorer, l'outil cherche en priorité le plan du site (appelé sitemap) pour identifier les pages.
Si aucun plan n'est trouvé, l'exploration démarre directement à partir de l'adresse que vous avez saisie.
Si cette adresse correspond à un dossier précis de votre site, la recherche s'effectuera uniquement à partir de cet emplacement précis.

Sitemap
Une sitemap fonctionne comme la carte d'un site web. Ce fichier dresse la liste de toutes les pages importantes d'un site. Si vous sélectionnez une sitemap, l'outil explorera uniquement les adresses qui y sont inscrites.

URLs spécifiques
En indiquant une liste d'adresses web (URLs), vous définissez précisément les pages exactes que l'outil doit analyser.
En indiquant une liste d'adresses web (URLs), vous définissez précisément les pages exactes que l'outil doit analyser.

Détail de la collection
Les informations sur l'ajout de votre source à votre collection s’afficheront comme suit :

Nom : le nom de votre source
Ajouté par : l'identifiant du gestionnaire du bot
Date de création : date à laquelle vous avez ajouté votre source
Préparation : Statut et actions de la préparation de la source
Indexation : Statut et actions de l'indexation de la source
Dernière indexation le : Date de dernière indexation
Actions : Actions possible sur les sources (modifier, supprimer & voir les détails)
La préparation est l'étape de récupération individuelle des données, durant laquelle l'outil télécharge et lit le contenu de chaque source ajoutée.
L'indexation est l'étape globale qui rassemble et intègre toutes ces sources à la base de connaissances pour permettre au bot de générer des réponses. Toute modification d'une source nécessite de relancer cette indexation globale.
Il existe plusieurs statuts pour suivre l'avancement de vos contenus :
En attente d'action : Aucune action n'a encore été initiée sur cette source.
Planifié : La préparation ou l'indexation de la source est programmée et s'exécutera prochainement.
Annulé : Le processus de préparation ou d'indexation a été interrompu.
En préparation : Le téléchargement et la lecture des données de la source sont en cours.
Prêt : Les données ont été récupérées avec succès, la source est désormais en attente de son indexation.
Préparation échouée : Une erreur a empêché la récupération des données de cette source.
Indexation en cours : L'intégration des données à la base est en cours de traitement.
Indexé : La source est totalement intégrée à la base et le bot peut l'utiliser pour générer des réponses.
Indexation partielle : La base nécessite une mise à jour. Par exemple, une nouvelle source a été ajoutée mais n'a pas encore été indexée avec le reste.
Test conf LLM échoué : Le processus s'est arrêté suite à une erreur dans la configuration du modèle de langage.
Fichier de configuration non trouvé : Une erreur technique liée au serveur a empêché l'opération de se dérouler correctement.
Suggestion et Indexation
Préparer et indexer la collection
Ce bouton principal permet de lancer simultanément la préparation et l'indexation de toute votre collection (incluant toutes les sources configurées).
En cliquant sur la petite flèche adjacente, vous accédez à deux options spécifiques :
Préparer uniquement la collection (sans lancer l'indexation).
Indexer uniquement les éléments qui ont déjà été préparés.
Il est également possible d'agir sur une source de manière individuelle : il vous suffit de cliquer directement sur le bouton de statut de cette source pour la préparer ou l'indexer de façon isolée.
Suggérer des connaissances à partir de la collection

Détail des éléments de la collection avec le statut "Terminé avec erreurs"
Une fois l'indexation ou la suggestion effectuée , il est possible qu'on obtienne un statut "Terminé avec erreurs".
En cliquant sur le statut, un rapport est affiché avec les détails d'erreurs.
Détail des erreurs issues de Sites Web :
Dans le détail du rapport, un pourcentage de succès et d'erreurs est indiqué.
Une répartition des codes d'erreurs http est présenté.

Les erreurs peuvent être classées en différentes catégories, telles que celles liées côté serveur ou autres.

Détail des erreurs issues des Sharepoints :
Dans le détail du rapport, un pourcentage de succès et d'erreurs est également indiqué.
Le rapport fournit des détails complets sur toutes les pages qui n'ont pas pu être récupérées, ainsi que sur les dossiers concernés.

Il précise également, pour chaque dossier, les fichiers spécifiques qui n'ont pas pu être récupérés, permettant ainsi une identification claire des éléments manquants

Configuration de la collection
Personnalisation des réponses

Configurer les paramètres d’indexation d’une collection permet d’adapter précisément le comportement du bot à vos besoins métier et à l’expérience utilisateur souhaitée. Chaque collection dispose d’une card dédiée où vous pouvez ajuster plusieurs options afin d’optimiser la pertinence, la longueur et le style des réponses générées, ainsi que la sélection des sources d’information.
La température définit le style des réponses fournies par le bot : plus la température est élevée, plus les réponses peuvent être créatives ; à l’inverse, une température basse privilégie des réponses strictement factuelles. Ce réglage est particulièrement utile pour s’assurer que le ton et le niveau de créativité du bot correspondent à votre contexte d’utilisation.
Le nombre de tokens de sortie correspond à la longueur des réponses générées. Vous pouvez choisir entre des réponses courtes, moyennes ou détaillées selon la complexité des sujets traités ou la préférence de vos utilisateurs. Ajuster ce paramètre aide à fournir des informations plus synthétiques ou au contraire plus approfondies.
Le score minimum requis pour les sources des réponses permet de filtrer les documents utilisés par le bot : seules les sources dont le score est supérieur ou égal à la valeur définie seront prises en compte dans la génération des réponses et dans l’affichage des sources citées. Ce réglage garantit que seules les sources jugées suffisamment pertinentes ou fiables sont utilisées pour construire la réponse.
Le prompt additionnel offre la possibilité d’ajouter un contexte spécifique ou une instruction particulière qui sera systématiquement prise en compte lors de la génération des réponses pour la collection concernée. Ce champ texte libre permet par exemple d’imposer un ton, de préciser une consigne métier, ou d’orienter le bot sur un sujet sensible.
La fonctionnalité de gestion flexible du prompt additionnel offre un meilleur contrôle sur le prompt final envoyé au modèle. Elle permet de visualiser le prompt final complet et de choisir l'emplacement précis du prompt additionnel : au début, au milieu, ou à la fin.
Vous ne pouvez pas modifier le contenu du prompt final lui-même ; vous pouvez uniquement insérer le prompt additionnel et définir sa position pour optimiser la réponse du modèle.

Variables dynamiques
Des variables dynamiques peuvent être utilisées dans le prompt additionnel de chaque collection. Par exemple, ${capture.user_name} est remplacé automatiquement par la valeur réelle récupérée pendant la conversation ou depuis un web service.
Si une variable n’est pas disponible, elle est ignorée ou remplacée par une chaîne vide. Cela permet de personnaliser les instructions envoyées au moteur RAG, pour des réponses adaptées au contexte de chaque utilisateur.
Afin que les variables de capture soient correctement remplacées dans le prompt, il faut les ajouter aux paramètres du Web service : Dydu_RAG. Voici un exemple avec la variable de capture user_name :


Lorsque le prompt est transmis au moteur RAG, il ne contient plus la variable sous forme ${capture.XXXX}, mais directement sa valeur.
Par exemple, un prompt comme :
" Donne-moi la valeur contenue dans ${capture.city} "
Sera envoyé au moteur sous la forme :
" Donne-moi la valeur contenue dans Paris "
Si la variable ${capture.city} contient « Paris ».
Contextualiser le RAG avec des métadonnées
Il est possible de cibler précisément les documents utilisés par le RAG pour générer une réponse. Pour cela, vous pouvez filtrer les contenus grâce aux métadonnées associées à chaque document (comme une URL ou une catégorie).
Toutes les métadonnées sont utilisables pour ce filtrage, à l'exception du score.
Exemple de métadonnée :

Il est possible de visualiser les métadonnées de vos documents en cliquant sur le bouton
d'une collection indexée
La configuration s'effectue directement dans le webservice nommé Dydu_RAG. Il suffit d'y ajouter un nouveau paramètre intitulé metadataFilters.
La valeur de ce paramètre doit être saisie sous cette forme : [{"key": "clé", "operator": "opérateur", "value": "valeur"}].

Trois opérateurs sont disponibles pour définir votre filtre :
EQUALS : conserve uniquement les contenus correspondant exactement à la valeur.
NOT_EQUAL : exclut les contenus correspondant exactement à la valeur.
SUB_STRING : conserve les contenus qui intègrent tout ou partie de la valeur.
Par exemple, pour que le bot se limite exclusivement aux pages des produits Dydu, il faut utiliser l'opérateur SUB_STRING sur l'URL de la manière suivante : [{"key": "url", "operator": "SUB_STRING", "value": "https://www.dydu.ai/produits/"}].
Affichage du Score RAG dans les Réponses
Afin d'afficher le score des métadonnées attribué par le RAG pour chaque réponse fournie, il est nécessaire de modifier le webservice Dydu_RAG et d'intégrer l'information dans le format de réponse.
Pour récupérer le score RAG, la variable doit être extraite du JSON de retour du webservice.
Ajoutez la ligne suivante à l'intérieur du JSON afin d'extraire la valeur du score :
Après avoir extrait la valeur, vous devez définir la variable d'affichage et formater la manière dont le score sera présenté.
Ce code vérifie l'existence du score et le formate pour l'affichage, par exemple, en ajoutant un saut de ligne et l'étiquette :
Et voilà, maintenant à chaque réponse générée par le RAG, le score de la réponse sera affichée.
Bien configurer ces paramètres vous permet d’obtenir des réponses adaptées, fiables et pertinentes, tout en maîtrisant la façon dont le bot interagit avec vos utilisateurs pour chaque collection de données indexée.
Gestion du contenu
Réindexation automatique

Vous pouvez configurer la fréquence de réindexation des collections selon quatre modes : aucune, quotidienne, hebdomadaire ou mensuelle.
Aucune : aucune réindexation n’est programmée, les données restent inchangées.
Quotidienne : la réindexation est effectuée automatiquement chaque jour, à minuit.
Hebdomadaire : la réindexation a lieu chaque lundi à minuit.
Mensuelle : la réindexation s’effectue le premier lundi de chaque mois, à minuit.
Le jour et l’heure de la réindexation sont prédéfinis et ne peuvent pas être modifiés. Cette configuration vous permet d’adapter la fréquence de mise à jour des données selon vos besoins, tout en gardant le fonctionnement simple et automatique.
Optimisation de l'accès au contenu

Cette option permet d'obtenir des réponses rapides tout en conservant une grande précision. Elle est indispensable lorsque vous traitez un grand volume de données.
Cependant, elle peut s'avérer moins performante si votre base de connaissances est de petite taille. Il est donc conseillé de l'essayer au préalable pour vérifier son efficacité sur vos contenus en utilisant la fonctionnalité "Tester le RAG".
Cette option n'est pas activée par défaut
Mis à jour
Ce contenu vous a-t-il été utile ?