EmbeddingGemma no ShareAI: 300M Embeddings Multilíngues

1. EmbeddingGemma agora está no ShareAI
2. Estamos anunciando que 3. EmbeddingGemma, 4. , o modelo compacto de embedding aberto do Google, agora está disponível no ShareAI.
5. Com 6. 300 milhões de parâmetros, 7. , o EmbeddingGemma oferece desempenho de ponta para seu tamanho. Ele é construído a partir de 8. Gemma 3 com 9. inicialização T5Gemma 10. e usa a mesma pesquisa e tecnologia por trás dos 11. modelos Gemini. O modelo produz representações vetoriais de texto, tornando-o bem adequado para tarefas de busca e recuperação, incluindo 12. classificação 13. agrupamento, 14. similaridade semântica, e similaridade semântica. Foi treinado com dados em 100+ idiomas falados.
Por que isso é importante
O pequeno tamanho do modelo e o foco no dispositivo tornam-no prático para implantação em ambientes com recursos limitados—telefones móveis, laptops ou desktops—democratizando o acesso a modelos de IA de ponta e promovendo a inovação para todos.
Referência

Conjunto de dados de treinamento
EmbeddingGemma foi treinado com dados em 100+ idiomas falados.
- Documentos da web
Uma coleção diversificada de textos da web garante exposição a estilos linguísticos, tópicos e vocabulário amplos. O conjunto de dados inclui conteúdo em 100+ idiomas. - Código e documentos técnicos
Incluir linguagens de programação e conteúdo científico especializado ajuda o modelo a aprender estruturas e padrões que melhoram a compreensão de código e questões técnicas. - Dados sintéticos e específicos para tarefas
Dados sintéticos selecionados ensinam habilidades específicas para recuperação de informações, classificação e análise de sentimentos, ajustando o desempenho para aplicações comuns de embeddings.
Essa combinação de fontes diversas é crucial para um modelo de embedding multilíngue poderoso que pode lidar com uma ampla gama de tarefas e formatos de dados.
O que você pode construir
Use o EmbeddingGemma para busca e recuperação, similaridade semântica, pipelines de classificação, e 14. similaridade semântica—especialmente quando você precisa de embeddings de alta qualidade que possam ser executados em dispositivos com recursos limitados.
Referência
Disponível agora no ShareAI.
Execute. Teste. Envie.