Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Trafilatura fails to extract structured heading tags (h2, h3) #774

Open
LeMoussel opened this issue Jan 7, 2025 · 0 comments
Open

Trafilatura fails to extract structured heading tags (h2, h3) #774

LeMoussel opened this issue Jan 7, 2025 · 0 comments

Comments

@LeMoussel
Copy link

Hi,

I encountered an issue where Trafilatura is unable to extract simple structured heading tags, such as <h2> or <h3>, from the website https://zonetuto.fr/.

Here is the Python code used:

import urllib.request

class Trafilatura:
    def get_text(self, html: str) -> str:
        trafilatura_data = extract(
            filecontent=html,
            include_comments=False,
            favor_precision=True,
        )
        return trafilatura_data


if __name__ == "__main__":
    SITE_URL = "https://zonetuto.fr/"

    trafilatura = Trafilatura()
    txt_content = trafilatura.get_text(html_content)
    print(txt_content)

Output

Identifier et éliminer les fichiers en double peut vite devenir un casse-tête, surtout lorsque l’on accumule des documents, photos ou vidéos sur plusieurs supports. Si je vous écris cet article, c’est encore une fois après avoir eu besoin de mettre en pratique ce que je vais vous expliquer dans ce billet. J’ai une grosse machine … Lire la suite
Que le temps passe vite, cela faisait bien longtemps que je ne vous avais pas écrit un petit article sur l’intelligence artificielle. Ce n’est pas par manque d’envie, mais malheureusement encore une fois par manque de moments disponible pour vous écrire ici. Rassurez-vous je ne suis jamais très loin et j’essaie de garder le rythme … Lire la suite
L’univers du gaming en 2025 n’a jamais été aussi intense. Entre graphismes à couper le souffle, intelligence artificielle omniprésente et compétitions e-sportives qui attirent des millions de spectateurs, il est clair qu’avoir une tour gaming performante n’est plus une option, mais une nécessité. Alors, comment construire une bête de course sans exploser son portefeuille ? … Lire la suite
Le langage de programmation Python comporte beaucoup d’avantages. C’est facile à installer sur l’ensemble des systèmes d’exploitation, c’est assez rapide à apprendre et ça marche presque partout. Le Python est quasiment utilisable partout, que ce soit sur une machine Linux et ses différentes distributions, un Raspberry Pi, macOS ou encore sur Windows. Python est même … Lire la suite
La manière dont nous gérons nos appels—qu’ils soient entrants ou sortants—évolue rapidement grâce à l’intelligence artificielle (IA). Les avancées en matière de traitement du langage naturel et d’IA conversationnelle ouvrent la voie à des solutions de plus en plus performantes : callbots, voicebots, standards virtuels… autant de technologies qui réinventent la relation client et la … Lire la suite
Grand Theft Auto IV, développé par Rockstar Games, est bien plus qu’un simple jeu d’action en monde ouvert. En incarnant Niko Bellic, un immigrant d’Europe de l’Est à la recherche du rêve américain, les joueurs sont plongés dans une aventure complexe où chaque décision peut avoir des conséquences majeures. Les choix que vous faites tout … Lire la suite
L’IA « Claude AI » s’adapte à votre style d’écriture pour des réponses sur-mesure Claude AI, assistant d’Intelligence Artificielle développé par Anthropic a une nouvelle fonctionnalité qui offre aux utilisateurs un contrôle accru sur le ton et la longueur des réponses du ChatBot. Grâce à cette mise à jour, chaque interaction avec Claude AI peut être personnalisée pour … Lire la suite
Lors de la sortie de Grand Theft Auto: The Trilogy – The Definitive Edition est sorti, on peut se dire que Rockstar Games est passé pas loin de la catastrophe. Quand on sait à quel point, ils font attention à l’image de leur licence, c’était quand même assez étonnant à l’époque. Cette trilogie qui regroupe … Lire la suite
En matière de sécurité, l’actualité est globalement tout le temps chargé. Il se passera toujours quelque chose. Sachant qu’on parle ici des seules failles de sécurités qui sont publiques. Si vous pensiez être tranquille, ce n’est pas possible. C’est impossible de l’être à partir du moment où une machine est accessible de l’extérieur pour fournir … Lire la suite
En ce moment, je vous parle pas mal de carte graphique, mais cet article n’était pas vraiment prévu au programme. Comme d’habitude, quand je rencontre un souci et que j’ai le temps, j’essaye de documenter la solution ici pour aider le maximum de gens. Récemment, j’ai voulu faire la mise à jour la version de … Lire la suite

Let me know if you need further details or clarification!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant