Reporting Engine: Hinzufügen von Warehouse als Datenquelle

Document created by RSA Information Design and Development on May 11, 2018
Version 1Show Document
  • View in full screen mode
 

Nach der Konfiguration der Reporting Engine müssen Sie die Warehouse-Datenquellen zur Reporting Engine hinzufügen, sodass Sie die Daten extrahieren und Berichte und Warnmeldungen erzeugen können. Das Verfahren zum Konfigurieren von Warehouse als Datenquelle ist unterschiedlich.

Konfigurieren von Warehouse als Datenquelle für Reporting Engine

Voraussetzung

Sie müssen die folgenden Warehouse-Konfigurationen ausführen, damit Sie Daten aus der Warehouse-Datenquelle zum Erzeugen von Berichte und Warnmeldungen verwenden können:

  • Hinzufügen einer Warehouse-Datenquelle zur Reporting Engine
  • Einstellen einer Warehouse-Datenquelle als Standardquelle

Voraussetzung

Achten Sie auf Folgendes:

  • Der Hive-Server befindet sich auf allen Warehouse-Nodes im Ausführungsstatus. Sie können den folgenden Befehl verwenden, um den Status des Hive-Servers zu prüfen:
    status hive2 (MapR deployments)
    service hive-server2 status (Horton Works deployments)
  • Warehouse Connector ist so konfiguriert, dass Daten in die Warehouse-Bereitstellungen geschrieben werden.
  • Wenn die Kerberos-Authentifizierung für HiveServer2 aktiviert ist, vergewissern Sie sich, dass die Keytab-Datei in das Verzeichnis /var/netwitness/re-server/rsa/soc/reporting-engine/ auf dem Reporting Engine-Host kopiert wurde.

    Hinweis: Vergewissern Sie sich, ob die Benutzerrolle rsasoc über die Leseberechtigungen für die Keytab-Datei verfügt. Weitere Informationen erhalten Sie unter Konfigurieren von Datenquellenberechtigungen.

    Außerdem müssen Sie den Speicherort der Keytab-Datei im Parameter Kerberos-Keytab-Datei in der Ansicht „Services > Konfiguration“ der Reporting Engine aktualisieren. Weitere Informationen finden Sie im Thema Registerkarte „Allgemein“.

Führen Sie die folgenden Schritte aus, um eine Horton Works-Datenquelle (HDP) mit der Reporting Engine zu verknüpfen:

Hinweis: Achten Sie darauf, die Datei hive-jdbc-1.2.1-with-full-dependencies.jar herunterzuladen. Diese JAR-Datei enthält die Treiberdatei von Hive 1.2.1, die für Hive 1.2.1 Hiveserver2 über RSA Link (https://community.rsa.com/docs/DOC-67251) eine Verbindung zur Reporting Engine herstellt.

  1. Stellen Sie über SSH eine Verbindung mit dem NetWitness Suite-Server her.
  2. Erstellen Sie im Ordner /opt/rsa/soc/reporting-engine/plugins/ ein Backup der folgenden JAR-Datei:
    hive-jdbc-0.12.0-with-full-dependencies.jar oder hive-jdbc-1.0.0-mapr-1508-standalone.jar
  3. Entfernen Sie die folgende JAR-Datei:
    hive-jdbc-0.12.0-with-full-dependencies.jar oder hive-jdbc-1.0.0-mapr-1508-standalone.jar
  4. Kopieren Sie im Ordner „/opt/rsa/soc/reporting-engine/plugins“ mithilfe von WinSCP die folgende JAR-Datei:
    hive-jdbc-1.2.1-with-full-dependencies.jar
  5. Starten Sie den Reporting Engine-Service neu.
  6. Melden Sie sich bei der NetWitness Suite-Benutzeroberfläche an.
  7. Wählen Sie den Reporting Engine-Service und dann > Ansicht > Durchsuchen aus.
  8. Stellen Sie in der Datei HiveConfig den Parameter EnableSmallSplitBasedSchemaLiteralCreation auf true ein.

Verfahren

Führen Sie die folgenden Schritte aus, um eine Warehouse-Datenquelle mit der Reporting Engine zu verknüpfen:

  1. Wählen Sie die Optionen Administration > Services aus.
  2. Wählen Sie im Raster Services den Reporting Engine-Service aus.
  3. Klicken Sie auf > Ansicht > Konfiguration.
  4. Klicken Sie auf die Registerkarte Quellen.

    Die Ansicht Services > Konfiguration wird mit geöffneter Registerkarte Quellen in der Reporting Engine angezeigt.

  5. Klicken Sie auf und wählen Sie Neuer Service aus.

    Das Dialogfeld Neuer Service wird angezeigt.

  6. Wählen Sie aus dem Drop-down-Menü Quelltyp die Option Warehouse aus.
  7. Wählen Sie aus dem Drop-down-Menü Warehouse-Quelle die Warehouse-Datenquelle aus. 
  8. Geben Sie im Feld Name den Namen für die Warehouse-Datenquelle ein.
  9. Geben Sie im Feld HDFS-Pfad den HDFS-Stammpfad ein, in den der Warehouse Connector die Daten schreibt.

    Beispiel:
    Wenn /saw der lokale Mount-Punkt für HDFS ist, den Sie während des Mountens von NFS auf dem Gerät konfiguriert haben, auf dem der Warehouse Connector-Service zum Schreiben von Daten nach SAW installiert ist, finden Sie weitere Informationen hierzu unter Mounten von Warehouse auf dem Warehouse Connector im RSA Analytics Warehouse (MapR)-Konfigurationsleitfaden.

    Wenn Sie ein Verzeichnis namens Ionsaw01 unter /saw erstellt und den entsprechenden lokalen Mount-Pfad als /saw/Ionsaw01 angegeben haben, lautet der entsprechende HDFS-Stammpfad /lonsaw01.

    Der Mount-Punkt /saw impliziert / als Stammpfad für HDFS. Der Warehouse Connector schreibt die Daten von /Ionsaw01 in HDFS. Wenn in diesem Pfad keine Daten verfügbar sind, wird die folgende Fehlermeldung angezeigt:

    “No data available. Check HDFS path”

    Stellen Sie sicher, dass /lonsaw01/rsasoc/v1/sessions/meta AVRO-Dateien der Metadaten enthält, bevor Sie einen Verbindungstest durchführen.

  10. Aktivieren Sie das Kontrollkästchen Erweitert, um die erweiterten Einstellungen zu verwenden, und geben Sie die Datenbank-URL mit der vollständigen JDBC-URL ein, um eine Verbindung mit dem HiveServer2 herzustellen.

    Beispiel:
    Wenn Kerberos in Hive aktiviert ist, lautet die JDBC-URL wie folgt:

    jdbc:hive2://<host>:<port>/<db>;principal=<Kerberos serverprincipal>

    Wenn SSL in Hive aktiviert ist, lautet die JDBC-URL wie folgt:

    jdbc:hive2://<host>:<port>/<db>;ssl=true;sslTrustStore=<trust_store_path>;trustStorePassword=<trust_store_password>

    Weitere Informationen zu HIVE-Serverclients finden Sie unter https://cwiki.apache.org/confluence/display/hive/HiveServer2+Clients.

  11. Wenn Sie die erweiterten Einstellungen nicht verwenden, geben Sie die Werte für Host und Port ein.

    • Geben Sie in das Feld Host die IP-Adresse des Hosts ein, auf dem HiveServer2 gehostet ist.

      Hinweis: Sie können die virtuelle IP-Adresse von MapR nur dann verwenden, wenn HiveServer2 auf allen Nodes im Cluster ausgeführt wird.

    • Geben Sie in das Feld Port den HiveServer2-Port der Warehouse-Datenquelle ein. Die Standardportnummer ist 10000.
  12. Geben Sie in die Felder Benutzername und Passwort die JDBC-Anmeldedaten für den Zugriff auf HiveServer2 ein.

    Hinweis: Sie können auch den LDAP-Modus der Authentifizierung mithilfe von Active Directory verwenden. Anweisungen zum Aktivieren des LDAP-Authentifizierungsmodus finden Sie unter Aktivieren der LDAP-Authentifizierung.

  13. Zum Ausführen von Warehouse Analytics-Berichten finden Sie weitere Informationen unter Konfigurieren der Warehouse-Datenquelle für Reporting im Thema Konfigurieren der Warehouse-Datenquelle für Reporting.
  14. Zum Aktivieren der Kerberos-Authentifizierung finden Sie weitere Informationen unter Konfigurieren der Warehouse-Datenquelle für Reporting im Thema Konfigurieren der Warehouse-Datenquelle für Reporting.
  15. Wenn Sie die hinzugefügte Warehouse-Datenquelle als Standardquelle für die Reporting Engine einrichten möchten, wählen Sie die hinzugefügte Warehouse-Datenquelle aus und klicken Sie auf .

Ergebnis

Jobs aktivieren

Führen Sie zum Ausführen von Warehouse Analytics-Berichten das folgende Verfahren aus.

  1. Aktivieren Sie das Kontrollkästchen Jobs aktivieren.

    Pivotal Warehouse-Konfiguration

  2. Füllen Sie die Felder wie folgt aus:

    1. Wählen Sie im Drop-down-Menü HDFS-Typ den HDFS-Typ aus.

      • Wenn Sie den Typ „Horton Works“ auswählen, geben Sie die folgenden Informationen ein:

                                                           
        FeldBeschreibung

        HDFS-Benutzername

        Geben Sie den Benutzernamen ein, den die Reporting Engine beim Herstellen einer Verbindung mit Horton Works beanspruchen soll. Für Horton Works DCA-Standardcluster lautet dieser „gpadmin“.
        HDFS-NameGeben Sie die URL für den Zugriff auf HDFS ein. Beispiel: hdfs://hdm1.gphd.local:8020.

        HBase Zookeeper Quorum

        Geben Sie die Liste der Hostnamen (durch Kommas getrennt) ein, auf denen die ZooKeeper-Server ausgeführt werden.
        HBase Zookeeper-PortGeben Sie die Portnummer für die ZooKeeper-Server ein. Der Standardport ist 2181.

        Eingabepfadpräfix

        Geben Sie den Ausgabepfad für den Warehouse Connector (/sftp/rsasoc/v1/sessions/data/<year>/<month>/<date>/<hour>) bis zum Verzeichnis für das Jahr ein.

        Beispiel: /sftp/rsasoc/v1/sessions/data/.

        AusgabepfadpräfixGeben Sie den Speicherort ein, an dem die Ergebnisse des Data Science-Jobs in HDFS gespeichert sind.

        Yarn-Hostname

        Geben Sie den Hostnamen des Hadoop-Yarn-Ressourcenmanagers im DCA-Cluster ein.

        Beispiel: hdm3.gphd.local.

        Jobverlaufsserver

        Geben Sie die Adresse des Hadoop-Jobverlaufsservers im DCA-Cluster ein.

        Beispiel: hdm3.gphd.local:10020.

        Yarn-Staging-Verzeichnis

        Geben Sie das Staging-Verzeichnis für YARN im DCA-Cluster ein.

        Beispiel: /user.

        Socks-Proxy

        Wenn Sie das Standard-DCA-Cluster verwenden, werden die meisten der Hadoop-Services in einem lokalen privaten Netzwerk ausgeführt, das nicht von der Reporting Engine erreichbar ist. Dann müssen Sie eine SOCKS-Proxy in dem DCA-Cluster ausführen und den Zugriff von außerhalb des Clusters erlauben.

        Beispiel: mdw.netwitness.local:1080.

      • Wenn Sie den Typ MapR HDFS auswählen, geben Sie die folgenden Informationen ein:

                                                       
        FeldBeschreibung
        MapR-Hostname

        Der Benutzer kann die öffentliche IP-Adresse mit einem beliebigen der MapR-Warehouse-Hosts ausfüllen.

        MapR-HostbenutzerGeben Sie den UNIX-Benutzernamen im entsprechenden Host ein, der Zugriff auf die Ausführung der Map-Reduzierungsjobs im Cluster hat. Der Standardwert ist „mapr“.
        MapR-Hostpasswort(Optional) Kopieren Sie zum Einrichten einer Authentifizierung ohne Passwort den öffentlichen Schlüssel des Benutzers „rsasoc“ von /home/rsasoc/.ssh/id_rsa.pub in die Datei „authorized_keys“ des Warehouse-Hosts in /home/mapr/.ssh/authorized_keys unter der Annahme, dass „mapr“ der Remote-UNIX-Benutzer ist.
        MapR-Hostarbeitsverzeichnis

        Geben Sie einen Pfad ein, für den der entsprechende UNIX-Benutzer (z. B. „mapr“) über Schreibberechtigung verfügt.

        Hinweis: Das Arbeitsverzeichnis wird von der Reporting Engine verwendet, um die Warehouse Analytics-jar-Dateien remote zu kopieren und die Jobs von dem gegebenen Hostnamen aus zu starten. Sie dürfen „/tmp“ nicht verwenden, um ein Auffüllen des temporären Systemspeichers zu vermeiden.Das angegebene Arbeitsverzeichnis wird von der Reporting Engine remote gemanagt.

        HDFS-NameGeben Sie die URL für den Zugriff auf HDFS ein. Für den Zugriff auf ein bestimmtes Cluster ist dies z. B. „maprfs:/mapr/<Clustername>“.
        HBase Zookeeper-PortGeben Sie die Portnummer für die ZooKeeper-Server ein. Der Standardport ist 5181.

        Eingabepfadpräfix

        Geben Sie den Ausgabepfad (/rsasoc/v1/sessions/data/<year>/<month>/<date>/<hour>) bis zum Verzeichnis für das Jahr ein.

        Beispiel: /rsasoc/v1/sessions/data/.

        EingabedateinameGeben Sie den Dateinamenfilter für avro-Dateien ein. Beispiel: sessions-warehouseconnector.
        AusgabepfadpräfixGeben Sie den Speicherort ein, an dem die Ergebnisse des Data Science-Jobs in HDFS gespeichert sind.
    2. Wählen Sie das MapReduce-Framework gemäß HDFS-Typ aus.

      Hinweis: Für den HDFS-Typ „MapR“ wählen Sie das MapReduce-Framework als „Klassisch“ aus. Für den HDFS-Typ „Pivotal“ wählen Sie als das MapReduce-Framework als „Yarn“ aus.

Aktivieren Sie dann die Kerberos-Authentifizierung.

Aktivieren der Kerberos-Authentifizierung

  1. Aktivieren Sie das Kontrollkästchen Kerberos-Authentifizierung, wenn Warehouse über einen Kerberos-fähigen Hive-Server verfügt.

  2. Füllen Sie die Felder wie folgt aus:

                           
    FeldBeschreibung

    Serverprinzipal

    Geben Sie den Prinzipal ein, mit dem der Hive-Server beim KDC-Server (Key Distribution Center) authentifiziert wird.

    BenutzerprinzipalGeben Sie den Prinzipal ein, den der Hive-JDBC-Client für die Authentifizierung beim KDC-Server verwendet, um sich mit dem Hive-Server zu verbinden. Beispiel: gpadmin@EXAMPLE.COM.

    Kerberos-Keytab-Datei

    Sehen Sie sich den Speicherort der Kerberos-Keytab-Datei an, der im Bereich „Hive-Konfiguration“ auf der Reporting Engine-Registerkarte „Allgemein“ konfiguriert ist.

    Hinweis: Die Reporting Engine unterstützt nur die Datenquellen, die mit den gleichen Kerberos-Anmeldedaten konfiguriert wurden wie Benutzerprinzipal und Schlüsseltabellendatei.

  3. Klicken Sie auf Verbindung testen, um die Verbindung mit den eingegebenen Werten zu testen.
  4. Klicken Sie auf Speichern.

    Die hinzugefügte Warehouse-Datenquelle wird auf der Reporting Engine-Registerkarte „Quellen“ angezeigt.

  5. Klicken Sie auf Verfügbare Services.

    Das Dialogfeld „Verfügbare Services“ wird angezeigt.

  6. Wählen Sie im Dialogfeld „Verfügbare Services“ den Service aus, den Sie als Datenquelle zur Reporting Engine hinzufügen möchten, und klicken Sie auf OK.

    NetWitness Suite fügt diesen Service als Datenquelle hinzu, die für Berichte und Warnmeldungen in dieser Reporting Engine verfügbar ist.

    Warehouse-Konfiguration auf der Reporting Engine-Registerkarte „Quellen“

    Hinweis: Dieser Schritt ist nur für ein nicht vertrauenswürdiges Modell maßgeblich.

Einstellen einer Datenquelle als Standardquelle

So legen Sie beim Erstellen von Berichten und Warnmeldungen eine Datenquelle als Standardquelle fest:

  1. Wählen Sie im Hauptmenü die Optionen Dashboard > Administration > Services aus.
  2. Wählen Sie im Raster Services einen Reporting Engine-Service aus.
  3. Wählen Sie > Ansicht > Konfiguration aus.

    Die Ansicht „Services > Konfiguration“ der Reporting Engine wird angezeigt.

  4. Wählen Sie die Registerkarte Quellen aus.

    Die Servicekonfigurationsansicht wird mit geöffneter Registerkarte „Reporting Engine-Quellen“ angezeigt.

  5. Wählen Sie die Quelle aus, die Sie als Standardquelle festlegen möchten, z. B. „Broker“.
  6. Aktivieren Sie das Kontrollkästchen Als Standard festlegen.

    NetWitness Suite verwendet diese Datenquelle als Standard, wenn Sie Berichte und Warnmeldungen für diese Reporting Engine erstellen.

NetWitness Suite fügt Warehouse als Datenquelle hinzu, die für Berichte und Warnmeldungen in dieser Reporting Engine verfügbar ist.

You are here
Table of Contents > Reporting Engine: Hinzufügen von Warehouse als Datenquelle

Attachments

    Outcomes