Hlavní stránka Fóra Forum pro soutěžící SOČ Obhajoby – Moravskoslezský Porota F: elektrotechnika – informatika Odpověď na téma: Porota F: elektrotechnika – informatika

#23014
Michal Bravanský
Host

Dobrý den,
děkuji porotě za dotazy.

● K získání stopwords jsem využíval Python knihovnu, která ale některé slova neobsahovala. Při spuštění programu jsem si toho všiml, chybějící stopwords jsem přidal do kolekce a tato chyba by se už neměla vyskytnout.

● V práci zmiňuji, že jsem se rozhodl pro parsování HTML, neboť jsem potřeboval vytvořit dostatečně velký korpus pro umělou inteligenci a to by s RSS zdroji nebylo možné. Momentálně ale pracuji na přechodu na RSS zdroje, protože jsou více spolehlivé.

Michal Bravanský