mcp-vision MCP Server
Adicione visão computacional aos seus fluxos de IA com o mcp-vision: detecção de objetos e análise de imagens com tecnologia HuggingFace como servidor MCP para FlowHunt e assistentes multimodais.

O que faz o MCP Server “mcp-vision”?
O “mcp-vision” MCP Server é um servidor Model Context Protocol (MCP) que expõe modelos de visão computacional do HuggingFace — como detecção de objetos zero-shot — como ferramentas para aprimorar as capacidades de visão de grandes modelos de linguagem ou modelos visão-linguagem. Ao conectar assistentes de IA com poderosos modelos de visão computacional, o mcp-vision permite tarefas como detecção de objetos e análise de imagens diretamente em fluxos de desenvolvimento. Isso possibilita que LLMs e outros clientes de IA consultem, processem e analisem imagens programaticamente, facilitando a automação, padronização e extensão de interações baseadas em visão em aplicações. O servidor é adequado para ambientes com GPU e CPU e foi projetado para fácil integração com plataformas de IA populares.
Lista de Prompts
Nenhum template de prompt específico é mencionado na documentação ou arquivos do repositório.
Lista de Recursos
Nenhum recurso MCP explícito é documentado ou listado no repositório.
Lista de Ferramentas
locate_objects
Detecte e localize objetos em uma imagem usando um dos pipelines de detecção de objetos zero-shot disponíveis pelo HuggingFace. As entradas incluem o caminho da imagem, uma lista de rótulos candidatos e um nome de modelo opcional. Retorna uma lista de objetos detectados em formato padrão.zoom_to_object
Dê zoom em um objeto específico em uma imagem recortando a imagem para a caixa delimitadora do objeto com a melhor pontuação de detecção. As entradas incluem o caminho da imagem, um rótulo a ser encontrado e um nome de modelo opcional. Retorna uma imagem recortada ou None.
Casos de Uso deste MCP Server
- Detecção Automatizada de Objetos em Imagens
Desenvolvedores podem usar o mcp-vision para detectar e localizar objetos em imagens programaticamente, agilizando tarefas como marcação de imagens, moderação de conteúdo e busca visual. - Automação de Fluxos Baseados em Visão
Integre a detecção de objetos em fluxos maiores, como ordenar imagens por conteúdo, gerar relatórios automáticos baseados em itens detectados ou melhorar ferramentas de acessibilidade. - Exploração Interativa de Imagens
Assistentes de IA podem ajudar usuários a dar zoom em objetos específicos dentro de imagens, auxiliando em tarefas como inspeção de qualidade, análise de imagens médicas ou identificação de produtos. - Aprimorando Agentes de IA com Capacidades Visuais
LLMs podem raciocinar sobre dados visuais e agir a partir deles, permitindo interações multimodais mais ricas e respostas com contexto em aplicações como chatbots, assistentes digitais e ferramentas de pesquisa.
Como configurar
Windsurf
Nenhuma instrução de configuração para Windsurf é fornecida no repositório.
Claude
- Pré-requisitos:
Certifique-se de ter o Docker instalado e, se for usar GPU, um ambiente com suporte a NVIDIA. - Construa ou Utilize a Imagem Docker:
- Construir localmente:
git clone git@github.com:groundlight/mcp-vision.git cd mcp-vision make build-docker
- Usar imagem pública (opcional): Não é necessário construir.
- Construir localmente:
- Edite a Configuração:
Abra o arquivoclaude_desktop_config.json
e adicione o seguinte emmcpServers
:- Para GPU:
"mcpServers": { "mcp-vision": { "command": "docker", "args": ["run", "-i", "--rm", "--runtime=nvidia", "--gpus", "all", "mcp-vision"], "env": {} } }
- Para CPU:
"mcpServers": { "mcp-vision": { "command": "docker", "args": ["run", "-i", "--rm", "mcp-vision"], "env": {} } }
- Para imagem pública (beta):
"mcpServers": { "mcp-vision": { "command": "docker", "args": ["run", "-i", "--rm", "--runtime=nvidia", "--gpus", "all", "groundlight/mcp-vision:latest"], "env": {} } }
- Para GPU:
- Salve e Reinicie:
Salve a configuração e reinicie o Claude Desktop. - Verifique a Configuração:
Certifique-se de que o mcp-vision está disponível como um servidor MCP na interface do Claude Desktop.
Segurança de Chaves de API
- Nenhuma exigência ou exemplo de chave de API é fornecido na documentação.
Cursor
Nenhuma instrução de configuração para Cursor é fornecida no repositório.
Cline
Nenhuma instrução de configuração para Cline é fornecida no repositório.
Como usar este MCP em fluxos
Usando MCP no FlowHunt
Para integrar servidores MCP ao seu fluxo no FlowHunt, comece adicionando o componente MCP ao seu fluxo e conectando-o ao seu agente de IA:

Clique no componente MCP para abrir o painel de configuração. Na seção de configuração do MCP do sistema, insira os detalhes do seu servidor MCP usando este formato JSON:
{
"mcp-vision": {
"transport": "streamable_http",
"url": "https://seumcpserver.exemplo/caminhoparamcp/url"
}
}
Depois de configurado, o agente de IA pode usar este MCP como uma ferramenta com acesso a todas as suas funções e capacidades. Lembre-se de trocar “mcp-vision” pelo nome real do seu servidor MCP e substituir a URL pela URL do seu próprio servidor MCP.
Visão Geral
Seção | Disponibilidade | Detalhes/Notas |
---|---|---|
Visão Geral | ✅ | Modelos de visão computacional HuggingFace como ferramentas para LLMs via MCP |
Lista de Prompts | ⛔ | Nenhum template de prompt documentado |
Lista de Recursos | ⛔ | Nenhum recurso explícito listado |
Lista de Ferramentas | ✅ | locate_objects, zoom_to_object |
Segurança de Chaves de API | ⛔ | Nenhuma instrução de chave de API |
Suporte a Sampling (menos importante na avaliação) | ⛔ | Não mencionado |
Suporte a Roots: Não mencionado
No geral, o mcp-vision oferece integração útil e direta com modelos de visão do HuggingFace, mas carece de documentação sobre recursos, templates de prompts ou recursos avançados de MCP como roots ou sampling. Sua configuração é bem documentada para o Claude Desktop, mas não para outras plataformas.
Nossa opinião
O mcp-vision é um servidor MCP focado e prático para adicionar inteligência visual a fluxos de IA, especialmente em ambientes que suportam Docker. Seus principais pontos fortes são a oferta clara de ferramentas e a configuração direta para Claude Desktop, mas se beneficiaria de uma documentação mais rica, especialmente sobre recursos, templates de prompts e suporte a plataformas adicionais e funções MCP avançadas.
Pontuação MCP
Possui LICENSE | ✅ MIT |
---|---|
Possui ao menos uma ferramenta | ✅ |
Número de Forks | 0 |
Número de Estrelas | 23 |
Perguntas frequentes
- O que é o mcp-vision MCP Server?
O mcp-vision é um servidor Model Context Protocol de código aberto que expõe modelos de visão computacional do HuggingFace como ferramentas para assistentes de IA e LLMs, permitindo detecção de objetos, recorte de imagens e mais em seus fluxos de IA.
- Quais ferramentas o mcp-vision oferece?
O mcp-vision oferece ferramentas como locate_objects (para detecção de objetos zero-shot em imagens) e zoom_to_object (para recortar imagens nos objetos detectados), acessíveis via a interface MCP.
- Quais são os principais casos de uso do mcp-vision?
Use o mcp-vision para detecção automática de objetos, automação de fluxos baseada em visão, exploração interativa de imagens e para aumentar agentes de IA com capacidades de raciocínio e análise visual.
- Como configuro o mcp-vision com o FlowHunt?
Adicione o componente MCP ao seu fluxo no FlowHunt e insira os detalhes do servidor mcp-vision no painel de configuração utilizando o formato JSON fornecido. Certifique-se de que seu servidor MCP esteja em execução e acessível pelo FlowHunt.
- Preciso de uma chave de API para o mcp-vision?
Nenhuma chave de API ou credencial especial é necessária para rodar o mcp-vision segundo a documentação atual. Apenas assegure que seu ambiente Docker esteja configurado e o servidor acessível.
Integre o mcp-vision com o FlowHunt
Potencialize seus agentes de IA com detecção de objetos e análise de imagens usando o mcp-vision. Conecte-o aos seus fluxos do FlowHunt para raciocínio multimodal sem esforços.