Teradata Python Package Function Reference - 16.20 - NaiveBayesTextClassifierPredict - Teradata Python Package

Teradata® Python Package Function Reference

prodname
Teradata Python Package
vrm_release
16.20
created_date
February 2020
category
Programming Reference
featnum
B700-4008-098K

 
teradataml.analytics.mle.NaiveBayesTextClassifierPredict = class NaiveBayesTextClassifierPredict(builtins.object)
     Methods defined here:
__init__(self, object=None, newdata=None, input_token_column=None, doc_id_columns=None, model_type='MULTINOMIAL', top_k=None, model_token_column=None, model_category_column=None, model_prob_column=None, terms=None, output_responses=None, output_prob=False, newdata_sequence_column=None, object_sequence_column=None, newdata_partition_column=None, newdata_order_column=None, object_order_column=None)
DESCRIPTION:
    The NaiveBayesTextClassifierPredict function uses the model
    teradataml DataFrame generated by the NaiveBayesTextClassifier
    function to predict outcomes for test data.
 
    Note: This function is available only when teradataml is connected to
          Vantage 1.1 or later versions.
 
PARAMETERS:
    object:
        Required Argument.
        Specifies the teradataml DataFrame containing the model data
        or instance of NaiveBayesTextClassifier, which contains the
        model.
    
    object_order_column:
        Optional Argument.
        Specifies Order By columns for object.
        Values to this argument can be provided as a list, if multiple 
        columns are used for ordering.
        Types: str OR list of Strings (str)
    
    newdata:
        Required Argument.
        Specifies the teradataml DataFrame containing the input test
        data.
    
    newdata_partition_column:
        Required Argument.
        Specifies Partition By columns for newdata.
        Values to this argument can be provided as a list, if multiple 
        columns are used for partitioning.
        Types: str OR list of Strings (str)
    
    newdata_order_column:
        Optional Argument.
        Specifies Order By columns for newdata.
        Values to this argument can be provided as a list, if multiple 
        columns are used for ordering.
        Types: str OR list of Strings (str)
    
    input_token_column:
        Required Argument.
        Specifies the name of the column in the input argument "newdata"
        that contains the tokens.
        Types: str
    
    doc_id_columns:
        Required Argument.
        Specifies the names of the columns in the input argument
        "newdata" that contain the document identifier.
        Types: str OR list of Strings (str)
    
    model_type:
        Optional Argument.
        Specifies the model type of the text classifier. 
        Default Value: "MULTINOMIAL"
        Permitted Values: MULTINOMIAL, BERNOULLI
        Types: str
    
    top_k:
        Optional Argument.
        Specifies the number of most likely prediction categories to output
        with their log-likelihood values (for example, the top 10 most
        likely prediction categories). The default is all prediction
        categories.
        Note:
            "top_k" cannot be specified along with "output_responses".
        Types: int
    
    model_token_column:
        Optional Argument.
        Specifies the name of the column in the argument "object" that
        contains the tokens. The default value is the first column of
        the model.
        Note:
            This argument must be specified along with "model_category_column"
            and "model_prob_column".
        Types: str
    
    model_category_column:
        Optional Argument.
        Specifies the name of the column in the argument "object"
        that contains the prediction categories. The default value is
        the second column of the model.
        Note:
            This argument must be specified along with "model_token_column"
            and "model_prob_column".
        Types: str
    
    model_prob_column:
        Optional Argument.
        Specifies the name of the column in the argument "object" that
        contains the token counts. The default value is the third
        column of the model.
        Note:
            This argument must be specified along with "model_token_column"
            and "model_category_column".
        Types: str
 
    output_prob:
        Optional Argument.
        Specifies whether to output probabilities.
        Default Value: False
        Types: bool
    
    terms:
        Optional Argument.
        Specifies the names of the input teradataml DataFrame columns to copy 
        to the output teradataml DataFrame.
        Types: str OR list of Strings (str)
    
    output_responses:
        Optional Argument.
        Specifies a list of output_responses to output.
        Note:
            1. "output_responses" argument support is only available when teradataml
               is connected to Vantage 1.1.1 or later versions.
            2. "output_responses" cannot be specified along with "top_k".
        Types: str OR list of Strings (str)
    
    newdata_sequence_column:
        Optional Argument.
        Specifies the list of column(s) that uniquely identifies each row of 
        the input argument "newdata". The argument is used to ensure 
        deterministic results for functions which produce results that vary 
        from run to run.
        Types: str OR list of Strings (str)
    
    object_sequence_column:
        Optional Argument.
        Specifies the list of column(s) that uniquely identifies each row of 
        the input argument "object". The argument is used to ensure 
        deterministic results for functions which produce results that vary 
        from run to run.
        Types: str OR list of Strings (str)
 
RETURNS:
    Instance of NaiveBayesTextClassifierPredict.
    Output teradataml DataFrames can be accessed using attribute
    references, such as
    NaiveBayesTextClassifierPredictObj.<attribute_name>.
    Output teradataml DataFrame attribute name is:
        result
 
 
RAISES:
    TeradataMlException
 
 
EXAMPLES:
    # Load the data to run the example
    load_example_data("NaiveBayesTextClassifierPredict",["complaints_tokens_test","token_table"])
    
    # Create teradataml DataFrame.
    token_table = DataFrame("token_table")
    complaints_tokens_test = DataFrame("complaints_tokens_test")
    
    # Example 1 -
    # We will try to predict the 'tokens' for the complaints_tokens_test
    # represented by the data points in the train data (token_table).
    # Run NaiveBayesTextClassifier on the train data.
    nbt_out = NaiveBayesTextClassifier(data = token_table,
                                       token_column = 'token',
                                       doc_id_columns = 'doc_id',
                                       doc_category_column = 'category',
                                       model_type = "Bernoulli",
                                       data_partition_column = 'category')
                
    # Use the generated model to predict the 'tokens' on the test data
    # complaints_tokens_test by using nbt_out model which is  
    # generated by NaiveBayesTextClassifier.
 
    nbt_predict_out = NaiveBayesTextClassifierPredict(object = nbt_out,
                                                      newdata = complaints_tokens_test,
                                                      input_token_column = 'token',
                                                      doc_id_columns = 'doc_id',
                                                      model_type = "Bernoulli",
                                                      model_token_column = 'token',
                                                      model_category_column = 'category',
                                                      model_prob_column = 'prob',
                                                      newdata_partition_column = 'doc_id')
                                       
    # Print the result DataFrame
    print(nbt_predict_out.result)
__repr__(self)
Returns the string representation for a NaiveBayesTextClassifierPredict class instance.