RAG en idioma indio con integraciones multilingües de Cohere y Anthropic Claude 3 en Amazon Bedrock

Las empresas de medios y entretenimiento ofrecen sus servicios a audiencias multilingües con una amplia gama de contenidos dirigidos a diversos segmentos de audiencia. Estas empresas tienen acceso a cantidades masivas de datos recopilados a lo largo de sus muchos años de operaciones. Gran parte de estos datos son textos e imágenes no estructurados. Los enfoques convencionales para analizar datos no estructurados con el fin de generar nuevos contenidos se basan en el uso de palabras clave o coincidencias de sinónimos. Estos enfoques no capturan el contexto semántico completo de un documento, lo que los hace menos eficaces para la búsqueda de los usuarios, la creación de contenidos y otras tareas posteriores.

Las incrustaciones de texto utilizan capacidades de aprendizaje automático (ML) para capturar la esencia de los datos no estructurados. Estas incrustaciones son generadas por modelos de lenguaje que asignan texto en lenguaje natural a sus representaciones numéricas y, en el proceso, codifican información contextual en el documento en lenguaje natural. La generación de incrustaciones de texto es el primer paso para muchas aplicaciones de procesamiento de lenguaje natural (NLP) impulsadas por grandes modelos de lenguaje (LLM), como Recuperación de Generación Aumentada (RAG)generación de texto, extracción de entidades y varios otros procesos comerciales posteriores.

Conversión de texto en incrustaciones mediante el modelo de incrustación multilingüe de Cohere

A pesar de la creciente popularidad y las capacidades de los LLM, el idioma que se utiliza con más frecuencia para conversar con ellos, a menudo a través de una interfaz similar a un chat, es el inglés. Y aunque se han logrado avances en la adaptación de modelos de código abierto para comprender y responder en Lenguas indiasestos esfuerzos no están a la altura de las capacidades en inglés que se muestran entre los LLM más grandes y de última generación. Esto dificulta la adopción de estos modelos para las solicitudes RAG basadas en idiomas indios.

En esta publicación, mostramos una aplicación RAG que puede buscar y consultar en varios idiomas indios utilizando el Cohere Embed – Multilingüe modelo y Claude 3 antrópico en La roca madre del AmazonasEsta publicación se centra en los idiomas de la India, pero puedes utilizar el enfoque con otros idiomas que son compatibles con el LLM.

Descripción general de la solución

Nosotros usamos el Conjunto de datos de Flores [1]un conjunto de datos de referencia para la traducción automática entre inglés y otros idiomas con pocos recursos. También sirve como corpus paralelo, que es una colección de textos que se han traducido a uno o más idiomas.

Con el conjunto de datos de Flores, podemos demostrar que las incrustaciones y, posteriormente, los documentos recuperados del recuperador son relevantes para la misma pregunta que se formula en varios idiomas. Sin embargo, dada la escasez del conjunto de datos (aproximadamente 1000 líneas por idioma de más de 200 idiomas), la naturaleza y la cantidad de preguntas que se pueden formular en relación con el conjunto de datos son limitadas.

Después de haber descargado los datos, cárguelos en el marco de datos de pandas para procesarlos. Para esta demostración, nos limitamos a bengalí, canarés, malabar, tamil, telugu, hindi, maratí e inglés. Si desea adoptar este enfoque para otros idiomas, asegúrese de que el idioma sea compatible con ambos modelo de incrustación y el LLM que se utiliza en la configuración de RAG.

Cargue los datos con el siguiente código:

import pandas as pd

df_ben = pd.read_csv('./data/Flores/dev/dev.ben_Beng', sep='\t') 
df_kan = pd.read_csv('./data/Flores/dev/dev.kan_Knda', sep='\t') 
df_mal = pd.read_csv('./data/Flores/dev/dev.mal_Mlym', sep='\t') 
df_tam = pd.read_csv('./data/Flores/dev/dev.tam_Taml', sep='\t') 
df_tel = pd.read_csv('./data/Flores/dev/dev.tel_Telu', sep='\t') 
df_hin = pd.read_csv('./data/Flores/dev/dev.hin_Deva', sep='\t') 
df_mar = pd.read_csv('./data/Flores/dev/dev.mar_Deva', sep='\t') 
df_eng = pd.read_csv('./data/Flores/dev/dev.eng_Latn', sep='\t') 
# Choose fewer/more languages if needed

df_all_Langs = pd.concat([df_ben, df_kan, df_mal, df_tam, df_tel, df_hin, df_mar,df_eng], axis=1)
df_all_Langs.columns = ['Bengali', 'Kannada', 'Malayalam', 'Tamil', 'Telugu', 'Hindi', 'Marathi','English']

df_all_Langs.shape #(996,8)


df = df_all_Langs
stacked_df = df.stack().reset_index() # for ease of handling

# select only the required columns, rename them
stacked_df = stacked_df.iloc[:,[1,2]]
stacked_df.columns = ['language','text']

El modelo de integración multilingüe de Cohere

Cohere es una plataforma líder de inteligencia artificial (IA) empresarial que crea LLM de primer nivel y soluciones impulsadas por LLM que permiten a las computadoras buscar, capturar significados y conversar en texto. Ofrecen facilidad de uso y sólidos controles de seguridad y privacidad.

El Cohere Embed – Modelo multilingüe genera representaciones vectoriales de documentos para más de 100 idiomas y está disponible en Amazon Bedrock. Con Amazon Bedrock, puede acceder al modelo de integración a través de una llamada API, lo que elimina la necesidad de administrar la infraestructura subyacente y garantiza que la información confidencial permanezca administrada y protegida de forma segura.

El modelo de incrustación multilingüe agrupa textos con significados similares asignándoles posiciones cercanas entre sí en el espacio vectorial semántico. Los desarrolladores pueden procesar texto en varios idiomas sin cambiar entre distintos modelos. Esto hace que el procesamiento sea más eficiente y mejora el rendimiento de las aplicaciones multilingües.

Las incrustaciones de texto convierten los datos no estructurados en un formato estructurado. Esto le permite comparar, analizar y extraer información objetivamente de todos estos documentos. Los nuevos modelos de incrustación de Cohere tienen un nuevo parámetro de entrada obligatorio, input_typeque debe configurarse para cada llamada API e incluir uno de los siguientes cuatro valores, que se alinean con los casos de uso más frecuentes para incrustaciones de texto:

tipo_de_entrada=”buscar_documento” – Use esto para los textos (documentos) que desea almacenar en su base de datos vectorial
tipo_de_entrada=”consulta_de_búsqueda” – Utilice esto para realizar consultas de búsqueda para encontrar los documentos más relevantes en su base de datos de vectores
input_type=”clasificación” – Utilice esto si utiliza las incrustaciones como entrada para un sistema de clasificación
tipo_de_entrada=”agrupamiento” – Utilice esto si utiliza las incrustaciones para agrupar texto

El uso de estos tipos de entrada proporciona la mayor calidad posible para las tareas respectivas. Si desea utilizar las incrustaciones para varios casos de uso, le recomendamos utilizar input_type="search_document".

Prerrequisitos

Para utilizar el modelo de incrustaciones multilingües de Claude 3 Sonnet LLM y Cohere en este conjunto de datos, asegúrese de tener acceso a los modelos en su cuenta de AWS en Amazon Bedrock, sección Acceso a modelos y luego proceda a instalar los siguientes paquetes. El siguiente código se ha probado para que funcione con el Amazon SageMaker Imagen de Data Science 3.0, respaldada por una instancia ml.t3.medium.

! apt-get update 
! apt-get install build-essential -y # for the hnswlib package below
! pip install hnswlib

Crear un índice de búsqueda

Una vez cumplidos todos los requisitos previos, ahora puede convertir el corpus multilingüe en incrustaciones y almacenarlas en hnswlibuna implementación de mundos pequeños navegables jerárquicos (HNSW) de C++ con solo encabezado y enlaces, inserciones y actualizaciones de Python. HNSWLib es un almacén de vectores en memoria que se puede guardar en un archivo, lo que debería ser suficiente para el pequeño conjunto de datos con el que estamos trabajando. Utilice el siguiente código:

import hnswlib
import os
import json
import botocore
import boto3

boto3_bedrock = boto3.client('bedrock')
bedrock_runtime = boto3.client('bedrock-runtime')

# Create a search index
index = hnswlib.Index(space="ip", dim=1024)
index.init_index(max_elements=10000, ef_construction=512, M=64)

all_text = stacked_df['text'].to_list()
all_text_lang = stacked_df['language'].to_list()

Incrustar e indexar documentos

Para incrustar y almacenar el pequeño conjunto de datos multilingües, utilice Cohere embed-multilingual-v3.0 modelo, que crea incrustaciones con 1.024 dimensiones, utilizando el API de tiempo de ejecución de Amazon Bedrock:

modelId="cohere.embed-multilingual-v3"
contentType= "application/json"
accept = "*/*"


df_chunk_size = 80
chunk_embeddings = []
for i in range(0,len(all_text), df_chunk_size):
    chunk = all_text[i:i+df_chunk_size]
    body=json.dumps(
            {"texts":chunk,"input_type":"search_document"} # search documents
    ) 
    response = bedrock_runtime.invoke_model(body=body, 
                                            modelId=modelId,
                                            accept=accept,
                                            contentType=contentType)
    response_body = json.loads(response.get('body').read())
    index.add_items(response_body['embeddings'])

Verificar que las incrustaciones funcionen

Para probar la solución, escriba una función que tome una consulta como entrada, la incorpore y encuentre los N documentos principales más estrechamente relacionados con ella:

# Retrieval of closest N docs to query
def retrieval(query, num_docs_to_return=10):
    modelId="cohere.embed-multilingual-v3"
    contentType= "application/json"
    accept = "*/*"
    body=json.dumps(
            {"texts":[query],"input_type":"search_query"} # search query
    ) 
    response = bedrock_runtime.invoke_model(body=body, 
                                            modelId=modelId,
                                            accept=accept,
                                            contentType=contentType)
    response_body = json.loads(response.get('body').read())
    doc_ids = index.knn_query(response_body['embeddings'], 
                              k=num_docs_to_return)[0][0] 
    print(f"Query: {query} \n")
    retrieved_docs = []

    for doc_id in doc_ids:
        # Append results
        retrieved_docs.append(all_text[doc_id]) # original vernacular language docs

        # Print results
        print(f"Original Flores Text {all_text[doc_id]}")
        print("-"*30)

    print("END OF RESULTS \n\n")
    return retrieved_docs

Puede explorar lo que hace la pila RAG con un par de consultas en diferentes idiomas, como el hindi:

queries = [
    "मुझे सिंधु नदी घाटी सभ्यता के बारे में बताइए","
]
# translation: tell me about Indus Valley Civilization
for query in queries:
    retrieval(query)

El índice devuelve documentos relevantes a la consulta de búsqueda en todos los idiomas:

Query: मुझे सिंधु नदी घाटी सभ्यता के बारे में बताइए 

Original Flores Text सिंधु घाटी सभ्यता उत्तर-पश्चिम भारतीय उपमहाद्वीप में कांस्य युग की सभ्यता थी जिसमें आस-पास के आधुनिक पाकिस्तान और उत्तर पश्चिम भारत और उत्तर-पूर्व अफ़गानिस्तान के कुछ क्षेत्र शामिल थे.
------------------------------
Original Flores Text सिंधु नदी के घाटों में पनपी सभ्यता के कारण यह इसके नाम पर बनी है.
------------------------------
Original Flores Text यद्यपि कुछ विद्वानों का अनुमान है कि चूंकि सभ्यता अब सूख चुकी सरस्वती नदी के घाटियों में विद्यमान थी, इसलिए इसे सिंधु-सरस्वती सभ्यता कहा जाना चाहिए, जबकि 1920 के दशक में हड़प्पा की पहली खुदाई के बाद से कुछ इसे हड़प्पा सभ्यता कहते हैं।
------------------------------
Original Flores Text సింధు నది పరీవాహక ప్రాంతాల్లో నాగరికత విలసిల్లింది.
------------------------------
Original Flores Text सिंधू संस्कृती ही वायव्य भारतीय उपखंडातील कांस्य युग संस्कृती होती ज्यामध्ये  आधुनिक काळातील पाकिस्तान, वायव्य भारत आणि ईशान्य अफगाणिस्तानातील काही प्रदेशांचा समावेश होता.
------------------------------
Original Flores Text সিন্ধু সভ্যতা হল উত্তর-পশ্চিম ভারতীয় উপমহাদেশের একটি তাম্রযুগের সভ্যতা যা আধুনিক-পাকিস্তানের অধিকাংশ ও উত্তর-পশ্চিম ভারত এবং উত্তর-পূর্ব আফগানিস্তানের কিছু অঞ্চলকে ঘিরে রয়েছে।
-------------------------
 .....

Ahora puede utilizar estos documentos recuperados del índice como contexto al llamar al modelo Anthropic Claude 3 Sonnet en Amazon Bedrock. En entornos de producción con conjuntos de datos que son varios órdenes de magnitud más grandes que el conjunto de datos de Flores, podemos hacer que los resultados de búsqueda del índice sean aún más relevantes mediante el uso de Reranking de Cohere modelos.

Utilice el mensaje del sistema para describir cómo desea que el LLM procese su consulta:

# Retrieval of docs relevant to the query
def context_retrieval(query, num_docs_to_return=10):

    modelId="cohere.embed-multilingual-v3"
    contentType= "application/json"
    accept = "*/*"
    body=json.dumps(
            {"texts":[query],"input_type":"search_query"} # search query
    ) 
    response = bedrock_runtime.invoke_model(body=body, 
                                            modelId=modelId,
                                            accept=accept,
                                            contentType=contentType)
    response_body = json.loads(response.get('body').read())
    doc_ids = index.knn_query(response_body['embeddings'], 
                              k=num_docs_to_return)[0][0] 
    retrieved_docs = []
    
    for doc_id in doc_ids:
        retrieved_docs.append(all_text[doc_id])
    return " ".join(retrieved_docs)

def query_rag_bedrock(query, model_id = 'anthropic.claude-3-sonnet-20240229-v1:0'):

    system_prompt=""'
    You are a helpful emphathetic multilingual assitant. 
    Identify the language of the user query, and respond to the user query in the same language. 

    For example 
    if the user query is in English your response will be in English, 
    if the user query is in Malayalam, your response will be in Malayalam, 
    if the user query is in Tamil, your response will be in Tamil
    and so on...

    if you cannot identify the language: Say you cannot idenitify the language

    You will use only the data provided within the <context> </context> tags, that matches the user's query's language, to answer the user's query
    If there is no data provided within the <context> </context> tags, Say that you do not have enough information to answer the question
    
    Restrict your response to a paragraph of less than 400 words avoid bullet points
    '''
    max_tokens = 1000

    messages  = [{"role": "user", "content": f'''
                    query : {query}
                    <context>
                    {context_retrieval(query)}
                    </context>
                '''}]

    body=json.dumps(
            {
                "anthropic_version": "bedrock-2023-05-31",
                "max_tokens": max_tokens,
                "system": system_prompt,
                "messages": messages
            }  
        )  


    response = bedrock_runtime.invoke_model(body=body, modelId=model_id)
    response_body = json.loads(response.get('body').read())
    return response_body['content'][0]['text']

Pasemos la misma consulta en varios idiomas indios:

queries = ["tell me about the indus river valley civilization",
           "मुझे सिंधु नदी घाटी सभ्यता के बारे में बताइए",
           "मला सिंधू नदीच्या संस्कृतीबद्दल सांगा",
           "సింధు నది నాగరికత గురించి చెప్పండి",
           "ಸಿಂಧೂ ನದಿ ಕಣಿವೆ ನಾಗರಿಕತೆಯ ಬಗ್ಗೆ ಹೇಳಿ", 
           "সিন্ধু নদী উপত্যকা সভ্যতা সম্পর্কে বলুন",
           "சிந்து நதி பள்ளத்தாக்கு நாகரிகத்தைப் பற்றி சொல்",
           "സിന്ധു നദീതാഴ്വര നാഗരികതയെക്കുറിച്ച് പറയുക"] 

for query in queries:
    print(query_rag_bedrock(query))
    print('_'*20)


The query is in English, so I will respond in English.

The Indus Valley Civilization, also known as the Harappan Civilization, was a Bronze Age civilization that flourished in the northwestern regions of the Indian subcontinent, primarily in the basins of the Indus River and its tributaries. It encompassed parts of modern-day Pakistan, northwest India, and northeast Afghanistan. While some scholars suggest calling it the Indus-Sarasvati Civilization due to its presence in the now-dried-up Sarasvati River basin, the name "Indus Valley Civilization" is derived from its development along the Indus River valley. This ancient civilization dates back to around 3300–1300 BCE and was one of the earliest urban civilizations in the world. It was known for its well-planned cities, advanced drainage systems, and a writing system that has not yet been deciphered.
____________________
सिंधु घाटी सभ्यता एक प्राचीन नगर सभ्यता थी जो उत्तर-पश्चिम भारतीय उपमहाद्वीप में फैली हुई थी। यह लगभग 3300 से 1300 ईसा पूर्व की अवधि तक विकसित रही। इस सभ्यता के केंद्र वर्तमान पाकिस्तान के सिंध और पंजाब प्रांतों में स्थित थे, लेकिन इसके अवशेष भारत के राजस्थान, गुजरात, मध्य प्रदेश, महाराष्ट्र और उत्तर प्रदेश में भी मिले हैं। सभ्यता का नाम सिंधु नदी से लिया गया है क्योंकि इसके प्रमुख स्थल इस नदी के किनारे स्थित थे। हालांकि, कुछ विद्वानों का अनुमान है कि सरस्वती नदी के किनारे भी इस सभ्यता के स्थल विद्यमान थे इसलिए इसे सिंधु-सरस्वती सभ्यता भी कहा जाता है। यह एक महत्वपूर्ण शहरी समाज था जिसमें विकसित योजना बनाने की क्षमता, नगरीय संरचना और स्वच्छ जलापूर्ति आदि प्रमुख विशेषताएं थीं।
____________________
सिंधू संस्कृती म्हणजे सिंधू नदीच्या पट्टीकेतील प्राचीन संस्कृती होती. ही संस्कृती सुमारे ई.पू. ३३०० ते ई.पू. १३०० या कालखंडात फुलणारी होती. ती भारतातील कांस्ययुगीन संस्कृतींपैकी एक मोठी होती. या संस्कृतीचे अवशेष आजच्या पाकिस्तान, भारत आणि अफगाणिस्तानमध्ये आढळून आले आहेत. या संस्कृतीत नगररचना, नागरी सोयी सुविधांचा विकास झाला होता. जलवाहिनी, नगरदेवालय इत्यादी अद्भुत बाबी या संस्कृतीत होत्या. सिंधू संस्कृतीत लिपीसुद्धा विकसित झाली होती परंतु ती अजूनही वाचण्यास आलेली नाही. सिंधू संस्कृती ही भारतातील पहिली शहरी संस्कृती मानली जाते.
____________________
సింధు నది నాగరికత గురించి చెప్పుతూ, ఈ నాగరికత సింధు నది పరిసర ప్రాంతాల్లో ఉన్నదని చెప్పవచ్చు. దీనిని సింధు-సరస్వతి నాగరికత అనీ, హరప్ప నాగరికత అనీ కూడా పిలుస్తారు. ఇది ఉత్తర-ఆర్య భారతదేశం, ఆధునిక పాకిస్తాన్, ఉత్తర-పశ్చిమ భారతదేశం మరియు ఉత్తర-ఆర్థిక అఫ్గానిస్తాన్ కు చెందిన తామ్రయుగపు నాగరికత. సరస్వతి నది పరీవాహక ప్రాంతాల్లోనూ నాగరికత ఉందని కొందరు పండితులు అభిప్రాయపడ్డారు. దీని మొదటి స్థలాన్ని 1920లలో హరప్పాలో త్రవ్వారు. ఈ నాగరికతలో ప్రశస్తమైన బస్తీలు, నగరాలు, మలిచ్చి రంగులతో నిర్మించిన భవనాలు, పట్టణ నిర్మాణాలు ఉన్నాయి.
____________________
ಸಿಂಧೂ ಕಣಿವೆ ನಾಗರಿಕತೆಯು ವಾಯುವ್ಯ ಭಾರತದ ಉಪಖಂಡದಲ್ಲಿ ಕಂಚಿನ ಯುಗದ ನಾಗರಿಕತೆಯಾಗಿದ್ದು, ಪ್ರಾಚೀನ ಭಾರತದ ಇತಿಹಾಸದಲ್ಲಿ ಮುಖ್ಯವಾದ ಪಾತ್ರವನ್ನು ವಹಿಸಿದೆ. ಈ ನಾಗರಿಕತೆಯು ಆಧುನಿಕ-ದಿನದ ಪಾಕಿಸ್ತಾನ ಮತ್ತು ವಾಯುವ್ಯ ಭಾರತದ ಭೂಪ್ರದೇಶಗಳನ್ನು ಹಾಗೂ ಈಶಾನ್ಯ ಅಫ್ಘಾನಿಸ್ತಾನದ ಕೆಲವು ಪ್ರದೇಶಗಳನ್ನು ಒಳಗೊಂಡಿರುವುದರಿಂದ ಅದಕ್ಕೆ ಸಿಂಧೂ ನಾಗರಿಕತೆ ಎಂದು ಹೆಸರಿಸಲಾಗಿದೆ. ಸಿಂಧೂ ನದಿಯ ಪ್ರದೇಶಗಳಲ್ಲಿ ಈ ನಾಗರಿಕತೆಯು ವಿಕಸಿತಗೊಂಡಿದ್ದರಿಂದ ಅದಕ್ಕೆ ಸಿಂಧೂ ನಾಗರಿಕತೆ ಎಂದು ಹೆಸರಿಸಲಾಗಿದೆ. ಈಗ ಬತ್ತಿ ಹೋದ ಸರಸ್ವತಿ ನದಿಯ ಪ್ರದೇಶಗಳಲ್ಲಿ ಸಹ ನಾಗರೀಕತೆಯ ಅಸ್ತಿತ್ವವಿದ್ದಿರಬಹುದೆಂದು ಕೆಲವು ಪ್ರಾಜ್ಞರು ಶಂಕಿಸುತ್ತಾರೆ. ಆದ್ದರಿಂದ ಈ ನಾಗರಿಕತೆಯನ್ನು ಸಿಂಧೂ-ಸರಸ್ವತಿ ನಾಗರಿಕತೆ ಎಂದು ಸೂಕ್ತವಾಗಿ ಕರೆ
____________________
সিন্ধু নদী উপত্যকা সভ্যতা ছিল একটি প্রাচীন তাম্রযুগীয় সভ্যতা যা বর্তমান পাকিস্তান এবং উত্তর-পশ্চিম ভারত ও উত্তর-পূর্ব আফগানিস্তানের কিছু অঞ্চলকে নিয়ে গঠিত ছিল। এই সভ্যতার নাম সিন্ধু নদীর অববাহিকা অঞ্চলে এটির বিকাশের কারণে এরকম দেওয়া হয়েছে। কিছু পণ্ডিত মনে করেন যে সরস্বতী নদীর ভূমি-প্রদেশেও এই সভ্যতা বিদ্যমান ছিল, তাই এটিকে সিন্ধু-সরস্বতী সভ্যতা বলা উচিত। আবার কেউ কেউ এই সভ্যতাকে হরপ্পা পরবর্তী হরপ্পান সভ্যতা নামেও অবিহিত করেন। যাই হোক, সিন্ধু সভ্যতা ছিল প্রাচীন তাম্রযুগের এক উল্লেখযোগ্য সভ্যতা যা সিন্ধু নদী উপত্যকার এলাকায় বিকশিত হয়েছিল।
____________________
சிந்து நதிப் பள்ளத்தாக்கில் தோன்றிய நாகரிகம் சிந்து நாகரிகம் என்றழைக்கப்படுகிறது. சிந்து நதியின் படுகைகளில் இந்த நாகரிகம் மலர்ந்ததால் இப்பெயர் வழங்கப்பட்டது. ஆனால், தற்போது வறண்டுபோன சரஸ்வதி நதிப் பகுதியிலும் இந்நாகரிகம் இருந்திருக்கலாம் என சில அறிஞர்கள் கருதுவதால், சிந்து சரஸ்வதி நாகரிகம் என்று அழைக்கப்பட வேண்டும் என்று வாதிடுகின்றனர். மேலும், இந்நாகரிகத்தின் முதல் தளமான ஹரப்பாவின் பெயரால் ஹரப்பா நாகரிகம் என்றும் அழைக்கப்படுகிறது. இந்த நாகரிகம் வெண்கலயுக நாகரிகமாக கருதப்படுகிறது. இது தற்கால பாகிஸ்தானின் பெரும்பகுதி, வடமேற்கு இந்தியா மற்றும் வடகிழக்கு ஆப்கானிஸ்தானின் சில பகுதிகளை உள்ளடக்கியது.
____________________
സിന്ധു നദീതട സംസ്കാരം അഥവാ ഹാരപ്പൻ സംസ്കാരം ആധുനിക പാകിസ്ഥാൻ, വടക്ക് പടിഞ്ഞാറൻ ഇന്ത്യ, വടക്ക് കിഴക്കൻ അഫ്ഗാനിസ്ഥാൻ എന്നിവിടങ്ങളിൽ നിലനിന്ന ഒരു വെങ്കല യുഗ സംസ്കാരമായിരുന്നു. ഈ സംസ്കാരത്തിന്റെ അടിസ്ഥാനം സിന്ധു നദിയുടെ തടങ്ങളായതിനാലാണ് ഇതിന് സിന്ധു നദീതട സംസ്കാരം എന്ന പേര് ലഭിച്ചത്. ചില പണ്ഡിതർ ഇപ്പോൾ വറ്റിപ്പോയ സരസ്വതി നദിയുടെ തടങ്ങളിലും ഈ സംസ്കാരം നിലനിന്നിരുന്നതിനാൽ സിന്ധു-സരസ്വതി നദീതട സംസ്കാരമെന്ന് വിളിക്കുന്നത് ശരിയായിരിക്കുമെന്ന് അഭിപ്രായപ്പെടുന്നു. എന്നാൽ ചിലർ 1920കളിൽ ആദ്യമായി ഉത്ഖനനം നടത്തിയ ഹാരപ്പ എന്ന സ്ഥലത്തെ പേര് പ്രകാരം ഈ സംസ്കാരത്തെ ഹാരപ്പൻ സംസ്കാരമെന്ന് വിളിക്കുന്നു.

Conclusión

En esta publicación se presentó un tutorial sobre cómo usar el modelo de integración multilingüe de Cohere junto con Anthropic Claude 3 Sonnet en Amazon Bedrock. En particular, mostramos cómo se responde la misma pregunta formulada en varios idiomas indios utilizando documentos relevantes recuperados de un almacén de vectores.

El modelo de integración multilingüe de Cohere admite más de 100 idiomas. Elimina la complejidad de crear aplicaciones que requieren trabajar con un corpus de documentos en diferentes idiomas. Modelo Cohere Embed Está capacitado para ofrecer resultados en aplicaciones del mundo real. Maneja datos ruidosos como entradas, se adapta a sistemas RAG complejos y ofrece rentabilidad gracias a su método de capacitación que tiene en cuenta la compresión.

Comience a construir con el modelo de integración multilingüe de Cohere y Anthropic Claude 3 Sonnet en Amazon Bedrock hoy mismo.

Referencias

[1] Conjunto de datos de Flores: https://github.com/facebookresearch/flores/tree/main/flores200

Sobre el Autor

Rony K. Roy es un arquitecto de soluciones sénior especializado en IA y ML. Rony ayuda a los socios a crear soluciones de IA y ML en AWS.

RAG en idioma indio con integraciones multilingües de Cohere y Anthropic Claude 3 en Amazon Bedrock

ByEquipo de 7 minutos

Descripción general de la solución

El modelo de integración multilingüe de Cohere

Prerrequisitos

Crear un índice de búsqueda

Incrustar e indexar documentos

Verificar que las incrustaciones funcionen

Conclusión

Referencias

Sobre el Autor

By Equipo de 7 minutos

Related Post

OpenAI presenta IndQA: un punto de referencia consciente de la cultura para las lenguas indias

Cómo crear un agente nativo del modelo que aprenda planificación interna, memoria y razonamiento con múltiples herramientas mediante el aprendizaje por refuerzo de un extremo a otro

Enseñar a los robots a mapear grandes entornos | Noticias del MIT

You missed

La gala de la Presidencia de la UE Concerto Copenhagen destaca la cultura danesa en Bruselas

La ‘supermafia’ francesa asestada en un ENORME golpe a la ‘Costa del Crimen’

Qué ver este mes – Hollywood Life

OpenAI presenta IndQA: un punto de referencia consciente de la cultura para las lenguas indias