Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Diese häufig gestellten Fragen (FAQ) beschreiben den KI-Effekt von Analyseunterstützungsfeatures in Copilot Studio.
Wie wird generative KI für Analysen verwendet?
Copilot Studio verwendet KI, um die Qualität der generativen Antwortantworten zu messen und Cluster zu erstellen. Diese Cluster bieten Einblicke in die Leistung der Agenten.
Generierende Antworten verwenden Wissensquellen, die Sie zum Generieren einer Antwort auswählen. Die Funktion sammelt auch Feedback, das Sie bereitstellen. Analysen verwenden große Sprachmodelle (LLMs), um die Chatnachrichten zwischen Benutzern und Agents in Ebenen zu klassifizieren, die die Qualität der generativen Antwortantworten angeben. Copilot Studio kompiliert diese Indikatoren, um Ihnen eine Zusammenfassung der Gesamtleistung eines Agents zu geben.
Bei der Gruppierung (Clustering) kommen LLMs zum Einsatz, um die Nachrichten von Benutzern basierend auf gemeinsamen Themen in Gruppen einzuordnen und jeder Gruppe einen beschreibenden Namen zu vergeben. Copilot Studio verwendet die Namen dieser Cluster, um verschiedene Arten von Erkenntnissen bereitzustellen, die Sie verwenden können, um Ihren Agent zu verbessern.
Qualität der Antworten für generative Lösungen
Was ist der beabsichtigte Verwendungszweck der Qualität der Antwort?
Verwenden Sie die Qualität der Reaktionsanalysen, um Einblicke in die Nutzung und Leistung von Agenten zu entdecken und dann Aktionen zur Verbesserung des Agents zu erstellen. Derzeit können Sie mithilfe von Analysen verstehen, ob die Qualität der generativen Antworten eines Agenten Ihren Erwartungen entspricht.
Neben der allgemeinen Qualität identifiziert die Qualität der Reaktionsanalyse Bereiche, in denen ein Agent schlecht arbeitet oder ihre beabsichtigten Ziele nicht erfüllt. Sie können Bereiche definieren, in denen generative Antworten schlecht ausgeführt werden und Maßnahmen zur Verbesserung ihrer Qualität ergreifen.
Wenn Sie eine schlechte Leistung erkennen, befolgen Sie bewährte Methoden, die zur Verbesserung der Qualität beitragen können. Nachdem Sie beispielsweise Wissensquellen mit schlechter Leistung identifiziert haben, können Sie die Wissensquelle bearbeiten oder die Wissensquelle in mehrere, stärker fokussierte Quellen aufteilen, um eine höhere Qualität zu erzielen.
Welche Daten werden verwendet, um Analysen der Antwortqualität zu erstellen?
Die Qualität der Antwortanalysen wird anhand einer Stichprobe von generativen Antwortantworten berechnet. Sie benötigt die Benutzerabfrage, die Agent-Antwort und die relevanten Wissensquellen, die das generative Modell für die generative Antwort verwendet.
Qualität der Antwortanalysen verwendet diese Informationen, um zu bewerten, ob die generative Antwortqualität gut ist und wenn nicht, warum die Qualität schlecht ist. Beispielsweise kann die Qualität der Antwort auf unvollständige, irrelevante oder nicht vollständig fundierte Antworten hinweisen.
Welche Einschränkungen gelten für die Qualität der Reaktionsanalysen, und wie können Benutzer die Auswirkungen dieser Einschränkungen minimieren?
Die Qualität der Antwortanalysen berücksichtigt nicht alle generativen Antworten. Stattdessen bewertet die Analyse eine Stichprobe von Benutzer-Agent-Sitzungen. Agenten mit weniger als der minimalen Anzahl erfolgreicher generativer Antworten können keine analytische Zusammenfassung der Antwortqualität erhalten.
Es gibt Fälle, in denen Analysen eine einzelne Antwort nicht genau bewerten. Auf aggregierter Ebene sollte sie jedoch für die meisten Fälle genau sein.
Quality of Response-Analysen liefern keine Aufschlüsselung der spezifischen Anfragen, die zu einer schlechten Qualität geführt haben. Sie bieten auch keine Aufschlüsselung allgemeiner Wissensquellen oder Themen, die bei Antworten mit niedriger Qualität verwendet wurden.
Analysen werden nicht für Antworten berechnet, die generatives Wissen verwenden.
Die Vollständigkeit der Antworten ist eine der Kennzahlen, die zur Bewertung der Antwortqualität verwendet werden. Diese Kennzahl misst, wie vollständig die Antwort den Inhalt des abgerufenen Dokuments adressiert.
Wenn das System kein relevantes Dokument mit zusätzlichen Informationen für die Frage abruft, bewertet es die Vollständigkeitsmetrik für dieses Dokument nicht.
Welche Schutzmaßnahmen sind für die Qualität der Reaktionsanalysen innerhalb von Copilot Studio für verantwortungsvolle KI vorhanden?
Benutzer von Agents sehen keine Analyseergebnisse; diese sind nur für Agent-Erstellende und -Administrierende verfügbar.
Erstellende und Administrierende können Analysen der Antwortqualität nur verwenden, um den Prozentsatz der Antworten guter Qualität und alle vordefinierten Gründe für schlechte Leistung anzuzeigen. Erstellende können nur den Prozentsatz der Antworten guter Qualität und die vordefinierten Gründe einsehen.
Wir haben Analysen der Antwortqualität während der Entwicklung gründlich getestet, um eine gute Leistung sicherzustellen. In seltenen Fällen können die Bewertungen der Qualität der Antworten jedoch ungenau sein.
Sentimentanalyse für Gesprächssitzungen
Was ist die beabsichtigte Verwendung der Sentimentanalyse?
Verwenden Sie die Stimmungsanalyse, um den Grad der Benutzerzufriedenheit in Unterhaltungssitzungen basierend auf einer KI-Analyse von Benutzernachrichten an den Agenten zu verstehen. Sie können die allgemeine Stimmung der Sitzung (positiv, negativ oder neutral) verstehen, die Gründe untersuchen und Maßnahmen ergreifen, um sie zu beheben.
Welche Daten werden verwendet, um Gefühle in einer Gesprächssitzung zu definieren?
Copilot Studio berechnet die Stimmungsanalyse basierend auf Benutzernachrichten an den Agent für einen Beispielsatz von Unterhaltungssitzungen.
Sentiment Analytics nutzt diese Informationen, um zu bewerten, ob die Nutzerzufriedenheit während der Sitzung positiv, negativ oder neutral ist. Zum Beispiel kann ein Nutzer Worte und einen Tonfall verwenden, die Frustration oder Unzufriedenheit anzeigen, basierend auf der Interaktion mit dem Agenten. In diesem Fall wird die Sitzung als negative Stimmung eingestuft.
Was sind die Einschränkungen der Sentiment-Analyse und wie können Nutzer diese Einschränkungen abmildern?
Sentiment-Analysen werden nicht mit allen Konversationssitzungen berechnet. Stattdessen bewertet die Analyse eine Stichprobe von Benutzer-Agent-Sitzungen. Agenten unter einer Mindestanzahl täglich erfolgreicher generativer Antworten können keinen Sentiment-Score erhalten.
Die Stimmungsanalyse ist derzeit von generativen Antworten abhängig und erfordert eine Mindestanzahl täglich erfolgreicher Antworten, um den Sentiment-Score für den Agent zu berechnen.
Um die Stimmung für eine Sitzung zu berechnen, müssen mindestens zwei Nutzernachrichten vorhanden sein. Außerdem wird aufgrund aktueller technischer Einschränkungen keine Sentiment-Analyse bei Sitzungen durchgeführt, die insgesamt 26 Nachrichten umfassen (einschließlich Nutzer- und Agentennachrichten)
Die Sentiment-Analyse liefert keine Aufschlüsselung der spezifischen Nutzernachrichten, die zum Sentiment-Score geführt haben.
Welche Schutzmaßnahmen sind für die Stimmungsanalyse innerhalb Copilot Studio für verantwortungsvolle KI vorhanden?
Benutzer von Agents sehen keine Analyseergebnisse; diese sind nur für Agent-Erstellende und -Administrierende verfügbar.
Sie können die Stimmungsanalyse nur verwenden, um die Aufschlüsselung der Stimmung in allen Sitzungen zu sehen.
Wir haben die Sentimentanalyse während der Entwicklung gründlich getestet, um eine gute Performance sicherzustellen. In seltenen Fällen können Sentiment-Bewertungen jedoch ungenau sein.
Themen von Benutzerfragen
Was ist der beabsichtigte Verwendungszweck von Themen?
Diese Funktion analysiert automatisch große Mengen von Benutzerabfragen und gruppiert sie in übergeordnete Themen, die als Themen bezeichnet werden. Jedes Thema stellt ein allgemeines Thema dar, über das Benutzer Fragen gestellt haben. Themen bieten eine unüberwachte, datengesteuerte Darstellung von Benutzerinhalten. Diese Ansicht hilft Teams zu verstehen, was Benutzer am meisten interessiert, ohne den manuellen Schritt der Überprüfung von Tausenden von Abfragen ausführen zu müssen.
Welche Daten werden zum Erstellen von Clustern verwendet?
Die Funktion „Themen“ verwendet Benutzerabfragen, die generative Antworten auslösen. Designs analysieren alle Abfragen aus den letzten sieben Tagen, um neue vorgeschlagene Designs zu generieren.
Themen verwenden semantische Ähnlichkeit, um Abfragen zu gruppieren. Anschließend wird ein Sprachmodell verwendet, um den Titel und die Beschreibung für jeden Cluster zu generieren. Feedback von Erstellenden (z. B. Daumen nach oben/unten) wird ebenfalls erfasst, um die Qualität der Gruppierung (Clustering) zu verbessern.
Was sind die Einschränkungen der Gruppierung für Designs, und wie können Benutzer diese Einschränkungen minimieren?
Das erfolgreiche Gruppieren in Themen hängt vom Abfragevolumen ab. Wenn nicht genügend Abfragen vorhanden sind oder die Abfragen zu wenig miteinander verknüpft sind, kann Copilot Studio möglicherweise Abfragen in Themen clustern, die entweder zu weit gefasst oder zu eng sind.
Themen können gelegentlich ähnliche Themen aufteilen oder nicht zusammenhängende zusammenführen.
Änderungen der Sprache in Abfragen wirken sich möglicherweise im Laufe der Zeit auf die Konsistenz von Clustern aus.
Sie können Themen regelmäßig überprüfen und Feedback zu geben, um die Benennungsqualität zu verbessern.
Welche Schutzmaßnahmen für Themen sind in Copilot Studio in Bezug auf verantwortungsvolle KI vorhanden?
Themen sind nur für Ersteller und Administratoren sichtbar. Die Inhaltsmoderation wird beim Generieren von Namen und Beschreibungen angewendet, um das Risiko schädlicher oder unangemessener Ergebnisse zu verringern.
Benutzerdefinierte Metrikanalysen
Was ist die beabsichtigte Verwendung von benutzerdefinierten Metriken?
Entwickler verwenden benutzerdefinierte Metrikanalysen, um zu verstehen, wie stark ihre Konversationsagenten die Geschäftsergebnisse beeinflussen. Diese Metriken ergänzen die Sparanalyse. Beispiele für benutzerdefinierte Metriken sind Auflösungsrate, Kundenabsichtsklassifizierung und andere domänenspezifische Ergebnisse.
Benutzerdefinierte Metriken können anzeigen, wo Agents beabsichtigte Ziele verpassen. Entscheidungsträger können definieren, was gemessen, Metriken anhand realer Sitzungsdaten getestet und Definitionen basierend auf den Ergebnissen optimiert werden sollen.
Welche Daten werden verwendet, um benutzerdefinierte Metriken zu berechnen?
Benutzerdefinierte Metriken werden mithilfe einer Stichprobe früherer Agentsitzungen berechnet. Die Berechnung verwendet die während einer Sitzung ausgetauschten Unterhaltungsnachrichten.
Das KI-Modell klassifiziert Sitzungsdaten basierend auf Ihrer Metrikdefinition. Der Agent aggregiert die Ergebnisse im gesamten Beispiel, um die gesamtmetrische Leistung für den ausgewählten Zeitraum anzuzeigen.
Was sind die Einschränkungen benutzerdefinierter Metriken und wie können Benutzer die Auswirkungen von Einschränkungen minimieren?
Benutzerdefinierte Metriken werden nicht mit allen Agentsitzungen berechnet. Stattdessen messen sie eine Stichprobe von Sitzungen aus dem ausgewählten Zeitraum. Da die Ergebnisse auf einer Stichprobe basieren, sollten sie als Richtungsindikatoren und nicht als genaue Zahlen behandelt werden.
Sie sollten berücksichtigen, dass die Metrikberechnung auf der Transkription von Nachrichten basiert, wenn Metriken interpretiert werden. Vermeiden Sie Schlussfolgerungen zu Verhaltensweisen, die hauptsächlich außerhalb von Nachrichten auftreten, z. B. Themen und Tools.
Das KI-Modell kann Sitzungen falsch klassifizieren. Aggregierte Ergebnisse sind im Allgemeinen genau. Sitzungen, die keiner definierten Kategorie entsprechen, werden in der Fallbackkategorie (Sonstige) platziert. Wenn die Testergebnisse nicht mit den erwarteten Ergebnissen übereinstimmen, können Sie die Metrikbeschreibung und Kategoriedefinitionen aktualisieren.
Wenn die Anweisungen oder Konfiguration eines Agents nach der Definition einer Metrik erheblich geändert werden, spiegelt die Metrik möglicherweise nicht mehr das aktualisierte Verhalten des Agents wider. Sie sollten ihre benutzerdefinierten Metriken überprüfen, nachdem Sie wesentliche Änderungen am Agent vorgenommen haben.
Welche Schutzmaßnahmen gelten für benutzerdefinierte Metriken innerhalb Copilot Studio für verantwortungsvolle KI?
Benutzerdefinierte Metrikergebnisse stehen nur Agent-Makern und Administratoren zur Verfügung. Benutzer des Agents haben keinen Zugriff auf Analyseergebnisse.
Überprüfen und genehmigen Sie alle benutzerdefinierten Metriken vor dem Speichern. Testen Sie während der Metrikdefinition Metriken anhand von Beispielsitzungsdaten, und überprüfen Sie einzelne Ergebnisse und Modellgründe. Wenn die Ergebnisse nicht den Erwartungen entsprechen, können Sie die Metrik aktualisieren oder verwerfen. Metriken werden nicht ohne Ihre explizite Bestätigung angewendet.
Die KI-generierte Eingabeaufforderung, die zum Klassifizieren von Sitzungen verwendet wird, ist für Sie auf der Benutzeroberfläche sichtbar, sodass Sie verstehen können, wie das Modell Ihre Metrikdefinition interpretiert. Sie können benutzerdefinierte Metriken jederzeit bearbeiten oder entfernen.
In seltenen Fällen können einzelne Sitzungsklassifizierungen ungenau sein. Die Ergebnisse sollten im Aggregat und nicht auf der ebene der einzelnen Sitzungen interpretiert werden.