Le modèle OCR qui devançait le GPT-4O

DEV - 22/08

NUMARKDOWN-8B-Thinking est un modèle de langue de vision OCR (VLM) alimenté par le raisonnement conçu pour se transformer ...

NUMARKDOWN-8B-Thinking est un modèle de langue de vision OCR (VLM) alimenté par le raisonnement conçu pour transformer les documents en bancs propres et structurés. Fonctionné à partir de QWEN2.5-VL-7B, il introduit des jetons de réflexion qui aident le modèle à analyser des dispositions complexes, des tables et des structures de documents inhabituelles avant de générer une sortie. Cela le rend particulièrement utile pour les pipelines de chiffon, l'extraction de documents et l'organisation des connaissances. Avec son approche d'abord pour le raisonnement, Numarkdown-8B-Thinking surpasse constamment l'OCR générique et même rivalise avec de grands modèles de raisonnement à source fermée en précision et en compréhension de la disposition.

Classement Arena contre des alternatives populaires (en utilisant le système de classement Trueskill-2, avec environ 500 votes anonymisés modèles):

Win / Draw / Lost-Rate contre d'autres modèles

Tableau de configuration du GPU - numarkdown-8b-thinking

Processus étape par étape pour installer et exécuter Numarkdown-8b-Thinking localement

Aux fins de ce tutoriel, nous utiliserons une machine virtuelle alimentée par GPU offerte par NodeHift; Cependant, vous pouvez reproduire les mêmes étapes avec tout autre fournisseur de cloud de votre choix. NodeHift fournit les machines virtuelles les plus abordables à une échelle qui répond aux exigences du RGPG, SOC2 et ISO27001.

Étape 1: Inscrivez-vous et configurez un compte cloud NodeHift

Visitez la plate-forme NodeHift et créez un compte. Une fois que vous vous êtes inscrit, connectez-vous à votre compte.

Suivez le processus de configuration du compte et fournissez les détails et informations nécessaires.

Étape 2: Créez un nœud GPU (machine virtuelle)

Les nœuds GPU sont des machines virtuelles GPU de NodeHift, des ressources à la demande équipées de divers GPU allant de H100 à A100. Ces machines virtuelles alimentées par le GPU fournissent un contrôle environnemental amélioré, permettant des ajustements de configuration pour les GPU, les CPU, la RAM et le stockage en fonction des exigences spécifiques.

Accédez au menu sur le côté gauche. Sélectionnez l'option GPU Nœuds, créez un nœud GPU dans le tableau de bord, cliquez sur le bouton Créer un nœud GPU et créez votre premier déploiement de machine virtuelle

Étape 3: Sélectionnez un modèle, une région et un stockage

Dans l'onglet «GPU Nœuds», sélectionnez un modèle GPU et un stockage en fonction de vos besoins et de la région géographique où vous souhaitez lancer votre modèle. Nous utiliserons 1 GPU SXM X H100 pour ce tutoriel pour obtenir les performances les plus rapides. Cependant, vous pouvez choisir un GPU plus abordable avec moins de VRAM si cela convient mieux à vos besoins.

Étape 4: Sélectionnez la méthode d'authentification

Il existe deux méthodes d'authentification disponibles: le mot de passe et la clé SSH. Les clés SSH sont une option plus sécurisée. Pour les créer, veuillez vous référer à notre documentation officielle.

Étape 5: Choisissez une image

Dans nos blogs précédents, nous avons utilisé des images prédéfinies de l'onglet Modèles lors de la création d'une machine virtuelle. Cependant, pour exécuter Numarkdown-8B-Thinking, nous avons besoin d'un environnement plus personnalisé avec des capacités complètes de développement CUDA. C'est pourquoi, dans ce cas, nous sommes passés à l'onglet Image personnalisé et avons sélectionné une image Docker spécifique qui répond à toutes les conditions d'exécution et de compatibilité.

Nous avons choisi l'image suivante:

Nvidia / Cuda: 12.1.1-devel-Ubuntu22.04Entrez le mode de sortie en mode plein écran

Cette image est essentielle car elle comprend:

Boîte à outils CUDA complète (y compris NVCC)
Support approprié pour la construction et l'exécution d'applications basées sur GPU comme Numarkdown-8b-Thinking
Compatibilité avec CUDA 12.1.1 requise par certaines opérations de modèle

Mode de lancement

Nous avons sélectionné:

Serveur de shell interactif

Entrez le mode de sortie en mode plein écran

Cela nous donne un accès SSH et un contrôle complet sur les opérations des terminaux - parfait pour installer des dépendances, exécuter des références et lancer des modèles comme Numarkdown-8B-Thinking.

Authentification du référentiel Docker

Nous avons laissé tous les champs vides ici.

Étant donné que l'image Docker est accessible au public sur Docker Hub, aucune information de connexion n'est requise.

Identification

Nom du modèle:

Nvidia / Cuda: 12.1.1-devel-Ubuntu22.04Entrez le mode de sortie en mode plein écran

Images Cuda et Cudnn de gitlab.com/nvidia/cuda. La version DEVEL contient la boîte à outils CUDA complète avec NVCC.

Cette configuration garantit que le Numarkdown-8B-Thinking s'exécute dans un environnement compatible GPU avec un accès CUDA approprié et des performances de calcul élevées.

Après avoir choisi l'image, cliquez sur le bouton «Créer» et votre machine virtuelle sera déployée.

Étape 6: Machine virtuelle a été déployée avec succès

Vous obtiendrez une confirmation visuelle que votre nœud est opérationnel.

Étape 7: Connectez-vous aux GPU à l'aide de SSH

Les GPU de NodeHift peuvent être connectés et contrôlés via un ...
[Courte citation de 8% de l'article original]

Tags : Openai - Chatgpt - OCR - IA - logiciel - codage - développement - ingénierie - inclusive - communauté -

Article automatiquement traduit - Source et Copyright images et textes : - DEV
Lien vers la traduction, consulter la traduction de l'article sur Google Translate : https://translate.google.com/translate?hl=en&sl=auto&tl=fr&u=https://nodeshift.cloud/blog/the-ocr-model-that-outranks-gpt-4o
Lien original, consulter l'article dans son intégralité ici : https://nodeshift.cloud/blog/the-ocr-model-that-outranks-gpt-4o
Lien direct sur notre site : http://newsexplorer.fr/article/28319737/Le-mod%C3%A8le-OCR-qui-devan%C3%A7ait-le-GPT-4O
Partager : Facebook - Twitter

Avis de non-responsabilité pour les articles et les traductions :
Les articles publiés sur ce site ont été rédigés par des auteurs externes et ne représentent pas l'avis ou les opinions de ce site. Les informations contenues dans ces articles sont fournies à titre indicatif et ne doivent pas être considérées comme des conseils professionnels ou juridiques.
De plus, les traductions proposées sur ce site peuvent ne pas être exactes ou complètes. Nous ne pouvons garantir l'exactitude, la fiabilité ou la pertinence de ces traductions et nous déclinons toute responsabilité pour toute perte ou préjudice causé par leur utilisation.
Nous recommandons à nos lecteurs de vérifier toutes les informations avant de prendre des décisions ou d'entreprendre des actions en se basant sur ces articles ou traductions. Nous ne serons pas tenus responsables des erreurs ou des omissions dans les informations fournies sur ce site.