Hlavní stránka › Fóra › Forum pro soutěžící SOČ › Obhajoby – Moravskoslezský › Porota F: elektrotechnika – informatika › Odpověď na téma: Porota F: elektrotechnika – informatika
7 května, 2020 (10:06 am)
#23014
Michal Bravanský
Host
Dobrý den,
děkuji porotě za dotazy.
● K získání stopwords jsem využíval Python knihovnu, která ale některé slova neobsahovala. Při spuštění programu jsem si toho všiml, chybějící stopwords jsem přidal do kolekce a tato chyba by se už neměla vyskytnout.
● V práci zmiňuji, že jsem se rozhodl pro parsování HTML, neboť jsem potřeboval vytvořit dostatečně velký korpus pro umělou inteligenci a to by s RSS zdroji nebylo možné. Momentálně ale pracuji na přechodu na RSS zdroje, protože jsou více spolehlivé.
Michal Bravanský